数据分析之最小二乘法---最小二乘法,数据分析的瑞士军刀

第二个故事的主角是欧拉(Euler),拉普拉斯(Lapalace),勒让德(Legendre)和高斯(Gauss),故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下:

  • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
  • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
  • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;十七、十八世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法。虽然缺乏理论上的论证,也不断的受到一些人的质疑,取平均作为一种异常直观的方式,已经被使用了千百年,在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法。

 【勒让德(Legendre)】

以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些问题都可以用如下数学模型描述:我们想估计的量是β0,?,βp,另有若干个可以测量的量x1,?,xp,y,这些量之间有线性关系

y=β0+β1x1+?+βpxp

如何通过多组观测数据求解出参数β0,?,βp呢?欧拉和拉普拉斯采用的都是求解线性方程组的方法。

?????????????y1=β0+β1x11+β2x21+?+βpxp1y2=β0+β1x12+β2x22+?+βpxp2                                   (2)                    ?<br/>yn=β0+β1x1n+β2x2n+?+βpxpn

但是面临的一个问题是,有n组观测数据,p+1个变量,如果n>p+1,则得到的线性矛盾方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把n个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。

以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为

累积误差 =∑( 观测值 - 理论值 )2

我们求解出导致累积误差最小的参数即可。

β^==argminβ∑i=1ne2iargminβ∑i=1n[yi−(β0+β1x1i+?+βpxpi)]2                              (3)

勒让德在论文中对最小二乘法的优良性做了几点说明:

  • 最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位
  • 计算中只要求偏导后求解线性方程组,计算过程明确便捷
  • 最小二乘可以导出算术平均值作为估计值

对于最后一点,推理如下:假设真值为θ,x1,?,xn为n次测量值,每次测量的误差为ei=xi−θ,按最小二乘法,误差累积为

L(θ)=∑i=1ne2i=∑i=1n(xi−θ)2

求解θ使得L(θ)达到最小,正好是算术平均

x¯=1n∑i=1nxi.

由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。

最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确地预测了谷神星的位置。

扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自地给出了造刀的方法,而且把最小二乘这把刀的刀刃造得无比锋利,把最小二乘打造为了一把瑞士军刀。

高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘这把瑞士军刀的呢?

http://songshuhui.net/archives/76501

时间: 2024-10-06 10:07:58

数据分析之最小二乘法---最小二乘法,数据分析的瑞士军刀的相关文章

【转】数据运营经验:什么是数据分析?怎么做数据分析?

那到底什么是数据分析呢? 说说数据哥的理解:数据分析是基于商业目的,有目的的进行收集.整理.加工和分析数据,提炼有价信息的一个过程. 其过程概括起来主要包括:明确分析目的与框架.数据收集.数据处理.数据分析.数据展现和撰写报告等6个阶段. 1.明确分析目的与框架 一个分析项目,你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分析师对这些都要了然于心. 基于商业的理解,整理分析框架和分析思路.例如,减少新客户的流失.优化活动效果.提高客户响应率等等.不同的项目对数据的要求,使用的分析手段

Python数据分析与展示(1)-数据分析之表示(1)-NumPy数据存取与函数

NumPy数据存取与函数 数据的CSV文件存取 CSV文件 CSV(Comma-Separated Value,逗号分隔值) CSV是一种常见的文件格式,用来存储批量数据. 将数据写入CSV文件 np.savetxt(frame, array, fmt='%.18e', delimiter=None) -frame: 文件.字符串或产生器,可以是.gz或.bz2的压缩文件 -array: 存入文件的数组 -fmt: 写入文件的格式,例如:%d %.2f %.18e -delimiter:分割字符

SPSS数据分析—两阶段最小二乘法

传统线性模型的假设之一是因变量之间相互独立,并且如果自变量之间不独立,会产生共线性,对于模型的精度也是会有影响的.虽然完全独立的两个变量是不存在的,但是我们在分析中也可以使用一些手段尽量减小这些问题产生的影响,例如采用随机抽样减小因变量间的相关性,使其满足假设:采用岭回归.逐步回归.主成分回归等解决共线性的问题.以上解决方法做都会损失数据信息,而且似乎都是采取一种回避问题的态度而非解决问题,当碰到更复杂的情况例如因变量和自变量相互影响时,单靠回避是无法得到正确的分析结果的,那么有没有更好的直接解

数据分析——四种大数据分析方法

1. 描述型分析:发生了什么? 这是最常见的分析方法.在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法. 例如,每月的营收和损失账单.数据分析师可以通过这些账单,获取大量的客户数据.了解客户的地理信息,就是"描述型分析"方法之一.利用可视化工具,能够有效的增强描述型分析所提供的信息. 2. 诊断型分析:为什么会发生? 描述性数据分析的下一步就是诊断型数据分析.通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心. 良好设计的BI dashboar

【ActiveReports 大数据分析报告】用数据分析的手段告诉你,复联4有多火爆?

消失的人们会回来吗,奇异博士所说的1400万分之一可能性究竟是什么,还会有谁逝去? 4月24日零时,随着万众期待的<复仇者联盟4>(以下简称<复联4>)正式上映,一切谜底都将揭晓.当然,与之相伴的,还有电影市场对于<复联4>票房的期待.根据猫眼专业版票房平台数据统计,<复联4>从预售以来,在电影市场上的火爆程度已超出不少业内人士的预期.截至4月23日22时,<复联4>点映及预售票房已经达到7.37亿元,突破历史记录,成为中国影史上首部预售票房超过

【数据分析】如何进行数据分析

序言: 最近遇到的困难是将我们业务接入一个大用户体量的App,而我们目标用户一定是在该App的使用用户范围内.但接入一个月,成交量极低.我们都想知道为什么成交量这么低. 数据分析 核心思维:找两组变量之间的关系 分析步骤: 1. 感知问题 第一种是最终结果有问题(对比法). 这个最终结果对目前业务而言就是订单量(完成18单14.4%,取消103单,终止4单,共125单), 同期对比另一个渠道(完成258单46.7%,取消242单,终止52单,共552单) 第二种是环节上有问题(漏斗法). 当然,

吴裕雄--天生自然 PYTHON数据分析:糖尿病视网膜病变数据分析(完整版)

# This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as np

数据分析方向分类

一.面向工具: 1.1 数据分析与SAS --SAS时间序列分析 1.2 数据分析.展现与R语言 1.2.1 R其中武器之金融数据分析quantmod 1.2.2 R七种武器之数据可视化包ggplot2 1.2.3 R七种武器之生命数据分析bloconductor 1.3 数据分析与SPSS 1.4 快速数据挖掘平台RapidMiner 二.面向应用领域 2.1 DOE技术及应用 2.2 计算广告学 2.3.量化投资 2.4.搜索引擎与网络数据分析 2.5社交网络数据挖掘 2.6.文本挖掘与分析

最小二乘法学习一

本文主要讲解基本最小二乘法和带有约束条件的最小二乘法. 一  基本最小二乘法 最小二乘法是回归中最为基础的算法.它是对模型的输出和训练样本输出的平方误差(这里还乘以了1/2只是为了求导简化)为最小时的参数 进行学习. 特别地,对于线性模型有: 求导可得: 其中设计矩阵: %基本最小二乘法 clear all; close all; n = 50; N = 1000; x = linspace(-3,3,n)'; X = linspace(-3,3,N)'; y = x.^2 + 2*x + 3