rhadoop linear regression 问题

library(rhdfs)

library(rmr2)

hdfs.init()

hdfs.delete("/user/output/lm.output")

map <- function(k,lines) {

lines<-unlist(strsplit(lines,‘#‘))

k<-lines[1]

x<-unlist(strsplit(lines[2],‘,‘))

y<-unlist(strsplit(lines[3],‘,‘))

x<-as.numeric(x)

y<-as.numeric(y)

lm <- lm(y ~ x)

return( keyval(k, lm$coefficients[[2]]) )

}

reduce <- function(key, lmres) {

# keyval(key, lmres)

return lmres

}

wordcount <- function (input, output=NULL) {

mapreduce(input=input, output=output, input.format="text",output.format = "text", map=map, reduce=reduce)

}

hdfs.root <- ‘/user‘

hdfs.data <- file.path(hdfs.root, ‘input/lm.input‘)

hdfs.out <- file.path(hdfs.root, ‘output/lm.output‘)

out <- wordcount(hdfs.data, hdfs.out)

输入文件为:/user/input/lm.input

1#1,2,3,4#2,4,6,8

2#1,2,3,4#3,6,9,12

3#1,2,3,4#4,8,12,16

4#1,2,3,4#1.5,3,4.5,6

但是输出却只有2个结果:

1       2

4       1.5

rhadoop linear regression 问题,布布扣,bubuko.com

时间: 2024-08-29 01:04:07

rhadoop linear regression 问题的相关文章

Spark MLlib Linear Regression线性回归算法

1.Spark MLlib Linear Regression线性回归算法 1.1 线性回归算法 1.1.1 基础理论 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合. 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间

Machine learning with python - Linear Regression

Machine learning with python Linear Regression 数据来自 cs229  Problem Set 1 (pdf) Data: q1x.dat, q1y.dat, q2x.dat, q2y.dat PS1 Solution (pdf) 从左上往右下 batchGradientDescent的cost随迭代次数的增加而下降,和收敛结果 stochasticGradientDescent的cost随迭代次数的增加而下降,和收敛结果 normalEquatio

Regularization in Linear Regression & Logistic Regression

一.正则化应用于基于梯度下降的线性回归 上一篇文章我们说过,通过正则化的思想,我们将代价函数附加了一个惩罚项,变成如下的公式: 那么我们将这一公式套用到线性回归的代价函数中去.我们说过,一般而言θ0我们不做处理,所以我们把梯度下降计算代价函数最优解的过程转化为如下两个公式. 我们通过j>0的式子,能够分析得出,θj 我们可以提取公因子,即将上式变成: 由于θj的系数小于1,可以看出, 正则化线性回归的梯度下降算法的变化在于,每次都在原有算法更新规则的 基础上令 θ 值减少了一个额外的值. 那么至

Matlab实现线性回归和逻辑回归: Linear Regression &amp; Logistic Regression

原文:http://blog.csdn.net/abcjennifer/article/details/7732417 本文为Maching Learning 栏目补充内容,为上几章中所提到单参数线性回归.多参数线性回归和 逻辑回归的总结版.旨在帮助大家更好地理解回归,所以我在Matlab中分别对他们予以实现,在本文中由易到难地逐个介绍. 本讲内容: Matlab 实现各种回归函数 ========================= 基本模型 Y=θ0+θ1X1型---线性回归(直线拟合) 解决

Programming Assignment 1: Linear Regression

Warm-up Exercise Follow the instruction, type the code in warmUpExercise.m file: A = eye(5); Computing Cost (for One Variable) By the formula for cost function (for One Variable): J(θ0, θ1) = 1/(2m)*∑i=1~m(hθ(x(i)-y(i))2 We can implement it in comput

Machine_learning_cs229线性回归 Linear regression(2)

这篇博客针对的AndrewNg在公开课中未讲到的,线性回归梯度下降的学习率进行讨论,并且结合例子讨论梯度下降初值的问题. 线性回归梯度下降中的学习率 上一篇博客中我们推导了线性回归,并且用梯度下降来求解线性回归中的参数.但是我们并没有考虑到学习率的问题. 我们还是沿用之前对于线性回归形象的理解:你站在山顶,环顾四周,寻找一个下山最快的方向走一小步,然后再次环顾四周寻找一个下山最快的方向走一小步,在多次迭代之后就会走到最低点.那么在这个理解中,学习率其实是什么呢?学习率就是你走的步子有多长. 所以

机器学习之多变量线性回归(Linear Regression with multiple variables)

1. Multiple features(多维特征) 在机器学习之单变量线性回归(Linear Regression with One Variable)我们提到过的线性回归中,我们只有一个单一特征量(变量)--房屋面积x.我们希望使用这个特征量来预测房子的价格.我们的假设在下图中用蓝线划出: 不妨思考一下,如果我们不仅仅知道房屋面积(作为预测房屋价格的特征量(变量)),我们还知道卧室的数量.楼层的数量以及房屋的使用年限,那么这就给了我们更多可以用来预测房屋价格的信息. 即,支持多变量的假设为:

局部权重线性回归(Locally weighted linear regression)

在线性回归中,由于对参数个数选择的问题是在问题求解之前已经确定好的,因此参数的个数不能很好的确定,如果参数个数过少可能拟合度不好,产生欠拟合(underfitting)问题,或者参数过多,使得函数过于复杂产生过拟合问题(overfitting).因此本节介绍的局部线性回归(LWR)可以减少这样的风险. 欠拟合与过拟合 首先看下面的图 对于图中的一系列样本点,当我们采用y=θ0+θ1x形式的时候,我们可能产生最左边图形式的拟合曲线:如果我们采用y=θ0+θ1x+θ2x2时候,我们就可以产生中间的拟

1. Supervised Learning - Linear Regression

Linear Regression线性回归 Notation 给定一个样本集T 样本总数为m 每个样本记做 其中为输入变量,也称为特征变量:为我们要预测的输出变量,也称为目标变量 表示第个样本. 问题描述 给定一个样本集,学习一个函数 使得是对相应y的一个好的预测. 因为某些历史原因,h被称为假设(hypothesis). 整个过程如下图所示: 如果我们想要预测的目标变量是连续值,称为回归问题(regression): 当目标变量是少数离散值时,称为分类问题(classification). 如