中国mooc北京理工大学机器学习第二周(二):回归

一、线性回归(Liner Regression)

利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的统计方法。

线性回归是用最小平方函数对一个或多个自变量和因变量之间进行建模。

导入和使用比较简单。

from sklearn import linear_model
linear = linear_model.LinearRegression()
linear.fit(datasets_X, datasets_Y)

预测房屋价格。

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn import linear_model

    # 读取数据集
    datasets_X = []
    datasets_Y = []
    fr = open(‘prices.txt‘,‘r‘)
    lines = fr.readlines()
    for line in lines:
        items = line.strip().split(‘,‘)
        datasets_X.append(int(items[0]))
        datasets_Y.append(int(items[1]))

    length = len(datasets_X)
    datasets_X = np.array(datasets_X).reshape([length,1])
    datasets_Y = np.array(datasets_Y)

    minX = min(datasets_X)
    maxX = max(datasets_X)
    X = np.arange(minX,maxX).reshape([-1,1])

    linear = linear_model.LinearRegression()
    linear.fit(datasets_X, datasets_Y)

    # 图像中显示
    plt.scatter(datasets_X, datasets_Y, color = ‘red‘)
    plt.plot(X, linear.predict(X), color = ‘blue‘)
    plt.xlabel(‘Area‘)
    plt.ylabel(‘Price‘)
    plt.show()

二、多项式回归(Polynomial Regression)

是研究一个因变量与多个自变量之间的多项式的回归分析。

多项式的优点是增加x的幂次来拟合曲线。

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn import linear_model
    from sklearn.preprocessing import PolynomialFeatures

    # 读取数据集
    datasets_X = []
    datasets_Y = []
    fr = open(‘prices.txt‘,‘r‘)
    lines = fr.readlines()
    for line in lines:
        items = line.strip().split(‘,‘)
        datasets_X.append(int(items[0]))
        datasets_Y.append(int(items[1]))

    length = len(datasets_X)
    datasets_X = np.array(datasets_X).reshape([length,1])
    datasets_Y = np.array(datasets_Y)

    minX = min(datasets_X)
    maxX = max(datasets_X)
    X = np.arange(minX,maxX).reshape([-1,1])

    poly_reg = PolynomialFeatures(degree = 2)
    X_poly = poly_reg.fit_transform(datasets_X)
    lin_reg_2 = linear_model.LinearRegression()
    lin_reg_2.fit(X_poly, datasets_Y)

    # 图像中显示
    plt.scatter(datasets_X, datasets_Y, color = ‘red‘)
    plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = ‘blue‘)
    plt.xlabel(‘Area‘)
    plt.ylabel(‘Price‘)
    plt.show()

三、岭回归(ridge regression)

一种专用于共性线性数据分析的有偏估计回归方法,改良最小二乘法。

sklearn。linear_model.Ridge中使用

from sklearn.linear_model import Ridge
clf = Ridge(alpha=.5)
X = [[0,0],[0,0],[1,1]]
y = [0,.1,1]
clf.fit(X,y)
print(clf.coef_)
print(clf.intercept_)

Ridge类已经设置了一系列默认的参数,因此clf = Ridge()即可以完成实例化。

但是,了解一下它的参数还是有必要的:

  • alpha:正则化项的系数
  • copy_X:是否对X数组进行复制,默认为True,如果选False的话会覆盖原有X数组
  • fit_intercept:是否需要计算截距
  • max_iter:最大的迭代次数,对于sparse_cglsqr而言,默认次数取决于scipy.sparse.linalg,对于sag而言,则默认为1000次。
  • normalize:标准化X的开关,默认为False
  • solver:在计算过程中选择的解决器
  • auto:自动选择
  • svd:奇异值分解法,比cholesky更适合计算奇异矩阵
  • cholesky:使用标准的scipy.linalg.solve方法
  • sparse_cg:共轭梯度法,scipy.sparse.linalg.cg,适合大数据的计算
  • lsqr:最小二乘法,scipy.sparse.linalg.lsqr
  • sag:随机平均梯度下降法,在大数据下表现良好。

注:后四个方法都支持稀疏和密集数据,而sag仅在fit_intercept为True时支持密集数据。

  • tol:精度
  • random_statesag的伪随机种子

以上就是所有的初始化参数,当然,初始化后还可以通过set_params方法重新进行设定。

回归分析

在实例化Ridge类以后,就可以直接使用Ridge中集成的方法来进行回归了,与绝大多数的sklearn类一样,Ridge使用fit方法执行计算

  • fit(X,y,sample\_weight=None)X是一个array类型,这是特征矩阵,包含着数据集每一条记录的特征值(N*M),y是结果矩阵,同样是array类型,可以是N*1的形状,也可以是N*K的形状,sample_weight代表着权重,可以是一个实数,也可以给每一条记录分配一个值(array类型)。

得到回归函数后,我们可以通过predict来使用回归函数。

  • predict(X)X测试数据集,此方法将返回回归后的结果

对于模型的好坏,Ridge当然提供了评价的方法——score

  • score(X,y,sample_weight=None):X为测试数据,y是测试数据的实际值,类型与fit中的相同,sample是权重

在sklearn中并没有提供直接的查看回归方程的函数,因此查看的时候需要自己转化一下。其实,sklearn就是把相关系数和残差分开保存了,因此,查看的时候要调用coef_intercept_两个属性。

  • coef_:相关系数(array类型)
  • intercept_:截距,在fit_intercept=False的时候,将会返回0

可能有用的方法

这些方法在sklearn的基类中就已经集成,但在一般情况下,通常不会用到。

    • get_params(deep=True):这是获取Ridge实例属性取值的方法,可以忽略
    • set_params(**params):与get_params方法相对,是设置属性值,在岭回归中还是比较重要的,毕竟岭回归的alpha值在一开始可能并不知道,需要在一个范围内进行尝试,因此,利用这个方法来设置alpha值还是比较有用的。

以上。

:)

时间: 2024-10-13 09:36:24

中国mooc北京理工大学机器学习第二周(二):回归的相关文章

中国mooc北京理工大学机器学习第二周(一):分类

一.K近邻方法(KNeighborsClassifier) 使用方法同kmeans方法,先构造分类器,再进行拟合.区别是Kmeans聚类是无监督学习,KNN是监督学习,因此需要划分出训练集和测试集. 直接贴代码. X=[0,1,2,3]#样本 Y=[0,0,1,1]#标签 from sklearn.neighbors import KNeighborsClassifier neigh = KNeighborsClassifier(n_neighbors=3)#选择周围的三个点作为近邻分析 nei

中国mooc北京理工大学机器学习第二周(三):手写数字识别

利用sklearn中的神经网络进行数字识别. 先简单搬运占坑,暂时用不到. import numpy as np #导入numpy工具包 from os import listdir #使用listdir模块,用于访问本地文件 from sklearn.neural_network import MLPClassifier def img2vector(fileName): retMat = np.zeros([1024],int) #定义返回的矩阵,大小为1*1024 fr = open(fi

中国mooc北京理工大学机器学习第一周(二)

---恢复内容开始--- 今天学习第一周的第二课时:降维. 一.PCA主成分分析 主成分分析(Principal Component Analysis,PCA),是一种统计方法,直观来讲是把数据按照weights来筛选出主成分消除(或者隐蔽)不太重要的方面,使得高纬度数据投射到低维度. 直观来讲是应用了统计学上方差和协方差的知识,若协方差越接近1则表示A,B越接近:反之,若等于零则无关. 这里可以理解在一个高纬度角度(n维空间)去找一个角度使得从你这个角度看过去很多cov(A,B)很小的数值为零

中国mooc北京理工大学机器学习第一周(一)

从今天开始跟着北理工的老师走一遍sklearn,在这里做笔记. 一.聚类 1.K-Means方法 先贴代码,所有数据的下载地址:http://pan.baidu.com/s/1hrO5NW4 import numpy as np from sklearn.cluster import KMeans def loadData(filePath):#def一个读取数据的loadData fr = open(filePath,'r+') lines = fr.readlines() retData =

中国mooc北京理工大学机器学习第一周(三)

三.基于聚类的整图分割 需要利用PIL进行图片处理,在anaconda安装的时候提示PIL只能用在py26,搜索知,可以conda install pillow 即可. def loadData(filePath): f = open(filePath,'rb') data = [] img = image.open(f) m,n = img.size for i in range(m): for j in range(n): x,y,z = img.getpixel((i,j)) #getpi

中国mooc北京理工大学机器学习第三周(一):强化学习基础

强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标使累计回报最大化. 强化学习是一种试错学习,在各种状态选需要尽量尝试所有可以选择的动作,通过环境的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系. (马尔可夫)MDP通常来描述一个强化学习问题,智能体根据当前环境的观察采取动作获得反馈,并使环境改变. 在现实的强化学习任务中,很多条件不能获得,若学习不再依赖环境,则称为免疫模型学习,蒙特卡洛强化学习. Q-learning结合了动态规划和蒙特卡洛强化学习

【1】【MOOC】Python游戏开发入门-北京理工大学【第二部分-游戏开发之框架】

学习地址链接:http://www.icourse163.org/course/0809BIT021E-1001873001?utm_campaign=share&utm_medium=androidShare&utm_source=qq pygame安装方法:http://www.cnblogs.com/GraceSkyer/p/8004004.html 1.Pygame 简介与安装 Python优秀的第三方库SDL:各个操作系统上提供的一种能直接与计算机外设打交道的一个第三方库在这个库

机器学习第二周-模型评价(I)

对于新建的模型,如何评价其好坏,以及自身的泛化能力,是机器学习中一个关键性问题.对于二分类模型,因原始数据可能是非平衡的,因此仅通过最后的预测准确率并不能评价模型的效果,对于机器学习中的分类与回归两大类模型,需采用不同的模型评价指标. 一?分类模型 1.混淆矩阵及F1分数 混淆矩阵(confusion matrix)实际是一张表格,因其能够很容易的看出机器学习有没有将样本的类别给混淆,故称之为混淆矩阵,以下为二分类的问题为例,其对应的混淆矩阵如下: 正例为positive,负例为negative

《C语言MOOC——翁恺》第二周编程练习记录

1 逆序的三位数(5分) 题目内容: 逆序的三位数: 程序每次读入一个正三位数,然后输出逆序的数字.注意,当输入的数字含有结尾的0时,输出不应带有前导的0.比如输入700,输出应该是7. 提示:用%10可以得到个位数,用/100可以得到百位数....将这样得到的三个数字合起来:百位*100+十位*10+个位,就得到了结果. 注意:除了题目要求的输出,不能输出任何其他内容,比如输入时的提示,输出时的说明等等都不能.这道题目要求输出逆序的数字,程序就只能输出这个数字,除此之外任何内容都不能输出. 输