机器学习之理论篇—线性模型

机器学习之理论篇—线性模型

2016-05-02 雷厉风行 机器学习与大数据算法

线性模型是机器学习中的最基本模型,其形式简单、易于建模。线性回归模型虽然简单,但却非常的实用,许多非线性模型也都是建立在线性模型的基础之上的。

线性模型定义为由n个属性x=(x1,x2…xn),其中xi为x在第i个属性上的取值,线性模型通过这些属性的线性组合来建立预测函数:

f(x)=β0+β1X1+β2X2+…βnXn

写成向量形式为:f(x)=βX

因为估计我们想让f(x)尽可能的接近其真实值yi,所以求β向量的过程也就是求∑(f(xi)-yi)^2的最小值的过程,也就是最小二乘法。

在R中实现线性回归的函数有:

(1)model1<-lm(fromula, data, subset, weights, na.action,method="qr", model=TRUE, x=FALSE, y=FALSE, qr=TRUE,...)

说明: formula 是显示回归模型, data 是数据框, subset 是样本观察的子集, weights 是用于拟合的加权向量,na.action 显示数据是否包含缺失值,method 是指出用于拟合的方法, model, x,y, qr 是逻辑表达式,如果是TRUE,应返回其值, 除了第一个选项formula 是必选项,其他都是可选项。

(2)summary(model1)可以返回拟合的结果。

(3)step(model1)输出逐步回归结果/addl()/dropl()

(4)anova(model1)计算方差分析表

(5)coefficients(model1)取模型系数

(6)deviance(model1)计算残差平方和

(7)formula(model1)提取模型公式

(8)plot(model1)绘制模型诊断图

(9)predict(model1,newdata=data.frame)预测

(10)print(model1)显示模型拟合的结果,一般只输入对象名输出结果

(11)residuals(model1)计算残差

(12)updata(old-model,new-formula)在new-formula中,其相应的名字由“.”组成,例如fm1<-lm(y~x1+x2+x3+x4+x5,data=X);fm2<-updata(fm1,.~.+x6); fm3<-updata(fm2,sqrt(.)~.)

(13)rstandard()标准化残差

画标准化残差图:y.rst<- rstandard(model1); y.fit<-predict(model1);plot(y.rst~y.fit)

(14)diffits(model1)DIFFITS准则

(15)cooks.distance ( model1, infl=lm.influence (model1, do.coef=F), res =weighted. Residuals ( model1) ) cook统计量越大,越可能存在异常值

(16)kappa(model1)判断多重共线性

(17)eigen(X)计算相关矩阵的特征值和特征向量

(18)model2<-glm()广义线性回归

时间: 2024-08-08 07:02:32

机器学习之理论篇—线性模型的相关文章

【机器学习】Logistic Regression 的前世今生(理论篇)

Logistic Regression 的前世今生(理论篇) 本博客仅为作者记录笔记之用,不免有非常多细节不正确之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需转载,请附上本文链接,不甚感激! http://blog.csdn.net/cyh_24/article/details/50359055 写这篇博客的动力是源于看到了以下这篇微博: 我在看到这篇微博的时候大为触动,由于,如果是rickjin来面试我.我想我会死的非常慘,由于他问的问题我基本都回答不上来.

【机器学习算法应用和学习_2_理论篇】2.2 M_分类_逻辑回归

一.原理阐述 算法类型:监督学习_分类算法 输入:数值型或标称型(标称型需要独热编码) V1.0 用回归方式解决二分类问题,通过引入一个Sigmoid函数将中间y值映射到实际二分类的y值上. 二.算法选择 三.算法过程 1.Sigmoid函数是一个x值域是(-∞,+∞),y值域是(0,1)的单调递增函数: 2.预测y值>0.5为1类,<0.5为0类,y值也可以解释为为1和0类的概率: 3.同样使用“最小二乘”概念,求得最佳方程,得到目标函数: 4.要使得目标函数达到最小,需要采用一种称为“梯度

Logistic Regression 的前世今生(理论篇)

[机器学习]Logistic Regression 的前世今生(理论篇) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需转载,请附上本文链接,不甚感激! http://blog.csdn.net/cyh_24/article/details/50359055 写这篇博客的动力是源于看到了下面这篇微博: 我在看到这篇微博的时候大为触动,因为,如果是rickjin来面试我,我想我会死的很惨,因为他问的问题我基本都回答不上

机器学习进化史:从线性模型到神经网络

[深度]机器学习进化史:从线性模型到神经网络 本文作者:天诺 2015-05-05 16:54 导语:Reza Zadeh是斯坦福大学工程计算和数学研究所顾问教授,他主要专注于机器学习理论和应用,分布式计算.如果你对人工智能感兴趣,那他讲述的机器学习进化史你一定要看. Reza Zadeh是斯坦福大学工程计算和数学研究所顾问教授,也是Databricks公司技术顾问,他主要专注于机器学习理论和应用,分布式计算,以及离散应用数学.近日,他接受了oreilly网站的采访,尝试谈论了人工智能的各方面.

【SSH2(理论篇)】--Struts2配置详解

上篇博客讨论了SSH2框架模型,在开发过程中发现SSH2的开发模型其实类似于经典的三层模式,在每一层中分别添加了不同的框架,显示层使用的是Struts2进行配置的,业务逻辑层使用的是Spring配置,数据持久层则采用的是Hibernate,开发模式简单易懂,接下来将会分别从三层着手讨论每一层的运行内容. 一.Struts体系简介 struts,是Apache软件基金会(ASF)赞助的一个开源项目,它通过采用Java Servlet/JSP技术,实现了基于Java EE Web应用的Model-V

三层学习------理论篇

学校放假了,刚回家的孩子就像个客人被父母招待着.在放假的前几天里,你尽管开口,想吃啥爸妈都会满足你,不过好景可不长!在我家,厨房是老妈的地盘,买菜.做饭.洗碗刷锅,一个人全包了.而在饭店吃饭呢,吃饭的人多了,顾客点的饭菜种类各不相同.前前后后,一个人忙乎,哪里顾得过来,所以饭店就有了分工.前台服务员负责将顾客点的菜上报给厨师和:厨师根据上报的菜单做菜:采购员负责柴米油盐酱醋茶.这样,大家各司其职,井井有条. 我们在家中吃饭比较简单,没有具体的分工.饭店就是一个复杂庞大的系统了,需要合理规划,分工

MySQL知识理论篇

此篇文件献给正在学习MySQL的同学们,如果希望探讨学习请加我QQ:402283866 [思维理论篇] MySQL的定义 MySQL就是一个存表格的仓库,用规范的语句可以操作这个表(我们称sql语句).这些表格的每一行为一个单位,被公司记录一些信息. MySQL的使用方法 MySQL中的表格,每一行在被调用的时候会使用一些标准的语句,语句可以完成增删改查等操作.这些语句有6类,常用的有3类,每一类只有3-5个总有固定的单词,反复练习很容易掌握. MySQL主从同步 因为两个原因要设置主从同步:1

小蚂蚁学习sphinx(1)--理论篇

网上有视频在讲php+mysql+sphinx,以前只是听说过,心想今天终于能够学习一下涨涨见识了,一个小时的理论篇讲完,并没有预想中那种汲取大量知识的满足感,一来讲的理论多一些,二来都是在linux下的操作,没办法实践,先把今天的小笔记写一下,以后慢慢钻研这块内容. sphinx生成索引数据,并为数据库提供更专业的搜索功能. 为什么要用sphinx?1.做搜索时当数据量很大单纯的mysql搜索比较慢(如果表进行了分表会更慢)2.搜索中文分词3.速度快 获取sphinx.http://sphin

二进制序列化与反序列化。Net理论篇上(一)

对于从事底层信息通信的同行而言,序列化及反序列化想必都是耳熟能详的.脱离很多书面的标准概念,就个人理解而言,序列化和反序列化的本质其实为了找到一种公共的通用的数据格式达到一个无界的境界,正如方言对于普通话,各国语言对于英语.而我们需要做的是去发现这么一种具体的格式,并且完成一个相对对称的特性,如同压缩跟解压缩. 常规的序列化和反序列化的格式通常有如下几种:binary,JSON, XML和SOAP等. 当然有其他的,这个只能恕我孤陋寡闻了.通常我们会选取短小精悍的JSON 和更具通用的XML,当