机器学习课程2-笔记

课程2

  • 课程2

    • 归纳
    • 回归就是变量之间的关系
    • 相关系数
    • RSS
    • 线性回归通过R语言
    • 多元线性模型
    • 虚拟变量哑变量
    • 多元线性回归模型
    • 回归诊断
    • 广义线性模型
  • 一元以及多元的线性回归,统计学东西比较多,统计学术语一堆堆的
  • 《大数据的统计学基础》基础的基础
  • logistic回归,划入广义线性回归模型。
  • 变量筛选,从一堆变量中求解出来,以及降维。

1.归纳

拟合,一般选择直线或者次数比较低得曲线。(测试有误差,曲线如果经过每一个点,叫拟合过度。虽然模型内的非常准确,但是进行预测则可能更不准确)

学习集,预测。回归模型,w=a+bh

  • 线性回归:

    • 一元线性(自变量一个),
    • 多元线性(自变量多个,一次方程,是个曲面,高维空间中的超平面);
  • 非线性回归:二次,logistic等。非线性用线性表示,叫广义线性(如logistic)
  • 困难:选定变量(多元),降维是回归模型中的难点。世界规律都是用很简单的东西,

    多重共线性 (有些变量是打酱油的,怎么判断,怎么去掉)

    怎样检验模型是否合理,需要一些检验手段。

2.回归就是变量之间的关系

  • 自变量和因变量的关系
  • 函数关系:确定性,y=a+bx(a截距项、b斜率)
  • 相关性:非确定性关系

3.相关系数

决定是否适合去做回归模型,相关系数去衡量线性相关性的强弱。

公式中的几个概念:

  • 下标,表示第几个样本。
  • x拔(求平均值)
  • 西格玛(求和)如果不带上下标表示全部求和。
  • 根据柯西不等式,都小于1.如果接近1,适合用线性回归模型
  • 正相关系数,同增。负数,表示~~

4.RSS

  • 哪个回归线效果最好呢:比较直观的做法,点到直线的距离,使得所有点得距离之和最小。
  • 但是麻烦是,距离涉及到开方,很难转换为极值。就改为垂直线,or 平行于y轴,称为残差
  • 绝对值在数学里不好求极值,所以改为求平方
  • RSS: residual sum of squares, 剩余/误差/残差平方和,衡量预测值不真实值的差距
  • RSS(最小二乘法),二次函数求极值的方法。
  • 如何求极值:求偏导数,有两个自变量,就需要求两个偏导数,然后解二元方程组。

5.线性回归通过R语言

  • y=c(61,57,58,40,90,35,68)
  • x=c(170,168,175,153,185,135,172)
  • plot(x,y) #把散点画出来
  • z=lm(y~x+1) #lm 假定 y=ax+b, 后面的+1可以不写
  • z=lm(y~x-1) # 过原点,没有截距
  • plot(y~x+1)
  • summary(z) #求解,summary中各个字段含义:
    • (Intercept) 截距
    • residual 残差、
    • Residual standard 残差的标准差
    • Multiple R-squared: 相关系数平方,越高表示相关性越好
    • Adjusted R-squared:调整后的拟合优度,作用有限
    • t value假设检验的统计量t值,
    • Pr(>|t|) t以外的面积有多大,这个值越小越好。
    • F-statistic: F统计
    • p-value 整体的假设检验。不能说我有错。假设不对,回归模型是无效的
  • plot(z) 要把图拉大些,有多个图,要按多个回车
  • deviance(z) 误差平方和
  • residuals(z) 计算残差
  • print(z) 打印模型信息
  • anova(z) 方法分析表
Analysis of Variance Table

Response: y
          Df  Sum Sq Mean Sq F value   Pr(>F)
x          1 197.633 197.633  47.943 0.006176 **
Residuals  3  12.367   4.122
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

预测,其中x是自变量,m是要预测的值,z是公式

m=data.frame(x=185)

predict(z,m)

6.多元线性模型

R语言中输入swiss,内置了swisss数据集

 swiss.lm=lm(Fertility~.,data=swiss)
 summary(swiss.lm)

数据太多时,残差用四分数表示:Min 1Q media 3Q Max

7.虚拟变量/哑变量

哑变量\虚拟变量,如sex这个分类变量用两个哑变量表示:isman,iswoman

  • 加法模型,哑变量用来调整截距:,如w=a+bh+c*isman
  • 乘法模型,哑变量用来调整斜率, 如w=a+bh+c*isman*h
  • 混合模型,即影响截距和斜率上,w=a+bh+c*isman+d*isWoman+e*isman*h+f*isWoman*h+g

8.多元线性回归模型

模型修正,参见R-Modeling 324页

  • lm.new<-update(lm.sol, .~.+I(X2^2)) #I(X2^2) 表示X2的平方项
  • lm2.new<-update(lm.new, .~.-X2) #去掉X2的一次项
  • lm3.new<-update(lm.new, .~.+X1*X2) #增加考虑X1和X2的一次项

说明:这个修正都是靠着分析师的经验和肉眼观察,碰出来的。统计学上有没有机械化的,支持变量选择的方法呢,这个有—逐步回归。有下面几种种:

  • 向前引入法:从一元回归开始,逐步增加变量
  • 向后剔除法:所有变量,逐步剔除
  • 逐步筛选法:结合上述两种

评定方法:

  • RSS(残差平方和),对应summary结果的Residual standard error
  • R^2(相关系数平方),对应summary结果的Multiple R-squared
  • AIC (Akaike information criterion)赤池信息准则
s=lm(Fertility~.,data=swiss)
s1=step(s,direction="forward") #已经没有变量可以增加了
s1=step(s,direction="backward")
s1=step(s,direction="both")

手工回归,R-Modeling 334页

  • add1()
  • drop1()

9.回归诊断

  • 样本是否符合正态分布?

    • 正态性检验:函数shapiro.test( x$x1)
    • P>0.05,正态性分布
  • 学习集/是否存在离群值?怎么发现离群值
  • 线性模型是否合理?可能自然界的关系更复杂
  • 误差是否满足独立性、等方差(误差与y大小没有关系)
    • 如果样本是正态分布的,残差residuals()也是正态分布的
  • 多重共线性(自变量不是独立的)
    • 多重共线性存在,会导致求逆矩阵的结果非常不确定
    • Kappa值,希腊字母,把样本的数据乘以它的矩阵的转置,在求特征根,最大值除以最小值
    • k<100,说明共线性程度小,如果100< k< 1000,有较强的多重共线性,k>1000,在严重的多重共线

10.广义线性模型

  • 非线性
  • S型曲线,统计学非常有名,叫logistic曲线
  • glm() 拟合广义线性模型(Fitting Generalized Linear Models)

下面是Norell实验:

norell<-data.frame(x=0:5, n=rep(70,6),success=c(0,9,21,47,60,63))
norell$Ymat<- cbind(norell$success, norell$n-norell$success)
glm.sol<-glm(Ymat~x, family=binomial, data=norell)
summary(glm.sol)

广义线性模型转换为线性的方法

  • 对数法,y=a+b logx,lm.log=lm(y~log(x))
  • 指数法,y=a ebx,lm.exp=lm(log(y)~x)
  • 幂函数法,y=a xb,lm.pow=lm(log(y)~log(x))
时间: 2024-10-25 08:00:44

机器学习课程2-笔记的相关文章

Andrew Ng机器学习课程笔记(五)之应用机器学习的建议

Andrew Ng机器学习课程笔记(五)之 应用机器学习的建议 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.html 前言 学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录了Andrew Ng课程第五章应用机器学习的建议,主要介绍了在测试新数据出现较大误差该怎么处理,这期间讲到了数据集的分类,偏差,方差,学习曲线等概念,帮

Stanford机器学习课程笔记4-Kmeans与高斯混合模型

这一部分属于无监督学习的内容,无监督学习内容主要包括:Kmeans聚类算法.高斯混合模型及EM算法.Factor Analysis.PCA.ICA等.本文是Kmeans聚类算法.高斯混合模型的笔记,EM算法是适用于存在latent/hidden变量的通用算法,高斯混合模型仅仅是EM算法的一种特殊情况,关于EM算法的推到参见Andrew Ng讲义.由于公式太多,最近时间又忙实习的事就简单写一些,回头看时还得参考Ng的笔记和自己的打印Notes上的笔记,这里的程序对理解可能能提供另外的一些帮助. K

Andrew Ng机器学习课程笔记(二)之逻辑回归

Andrew Ng机器学习课程笔记(二)之逻辑回归 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364598.html 前言 学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录了Andrew Ng课程第二章逻辑回归的笔记,主要介绍了梯度下降法,逻辑回归的损失函数,多类别分类等等 简要介绍:逻辑回归算法是分类算法,我们将它作为分类算法使用.

Stanford机器学习课程笔记——神经网络的表示

Stanford机器学习课程笔记--神经网络的表示 1. 为什么要引入神经网络 其实这个问题等价与神经网络和之前的回归模型有什么区别,如果你没有学过其他机器学习算法的话.这个问题可以通过一个例子来说明:如果样本都是60*60的图像,那么每个样本的特征维数都是3600个,使用前面讲的线性回归模型,那么需要建立的参数个数就有3600的:如果是非线性回归模型,还要考虑高次项的情况,需要求解的参数就更加多了.此时的回归模型将会变得异常复杂,故我们需要其余比较高效的模型来解决这些实际的问题.这个时候我们就

Andrew Ng机器学习课程笔记(四)之神经网络

Andrew Ng机器学习课程笔记(四)之神经网络 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录Andrew Ng课程第四章和第五章的神经网络,主要介绍前向传播算法,反向传播算法,神经网络的多类分类,梯度校验,参数随机初始化,参数的更新等等 1.神经网络概述

Stanford机器学习课程笔记——SVM

Stanford机器学习课程笔记--SVM 前面已经学习过SVM,写了几片博文,如下: 入门SVM:http://blog.csdn.net/puqutogether/article/details/39894835 SVM中的线性不可分情况:http://blog.csdn.net/puqutogether/article/details/41309745 SVM中的多类分类问题:http://blog.csdn.net/puqutogether/article/details/4167960

Stanford机器学习课程笔记——单变量线性回归和梯度下降法

Stanford机器学习课程笔记--单变量线性回归和梯度下降法 1. 问题引入 单变量线性回归就是我们通常说的线性模型,而且其中只有一个自变量x,一个因变量y的那种最简单直接的模型.模型的数学表达式为y=ax+b那种,形式上比较简单.Stanford的机器学习课程引入这个问题也想让我们亲近一下machine learning这个领域吧~吴恩达大神通过一个房屋交易的问题背景,带领我们理解Linear regression with one variable.如下: 不要看这个问题简答,大神就是大神

《机器学习》学习笔记(一)

今天看了两集Stanford 的Machine Learning,先说说感受,在看的过程中,脑海里冒出来一个念头:在中国的大学里,教授们都是好像在做研究,而学生们都是好像在上课,到头来不知道学到了什么,我在屏幕的这边都能感受到他们和我们的不一样. 其实对于机器学习,我是真心不懂,也不知道为什么忽然就想学习一下了,然后看了第一集就觉得实在是太牛X了,他们做的那个爬越障碍物的狗和快速避障的小车,都不是我们能搞出来的,说来也奇怪,我们不是也有他们一样的课程体系吗?照理说在大学里能做出来的东西,我们也应

斯坦福大学机器学习课程原始讲义(含公开课视频) (转载)

http://blog.csdn.net/v_july_v/article/details/7624837 斯坦福大学机器学习课程原始讲义 本资源为斯坦福大学机器学习课程原始讲义,为Andrew Ng 所讲,共计20个PDF,基本涵盖了机器学习中一些重要的模型.算法.概念,此次一并压缩上传分享给大家,朋友们可以直接点击右边下载:斯坦福大学机器学习课程原始讲义.zip. 斯坦福大学机器学习公开课视频 与之配套的则是斯坦福大学的机器学习公开课的视频: 1. 网易翻译的公开课视频:http://v.1

(转载)[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation

[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation http://blog.csdn.net/walilk/article/details/50922854