AI之旅（3）：升维与最小二乘法

前置知识

??矩阵的逆

知识地图

??首先我们将了解一种叫升维的方法，用已有特征构造更多的特征。接着通过对空间与投影建立一定的概念后，推导出最小二乘法。

当特征数量不足时

??在上一篇《初识线性回归》中，我们假设要处理的问题有足够的样本数量和足够的特征数量。记得样本数量是用m表示，特征数量是用n表示。假如只有1个特征该如何构建模型呢？

??假设现在有一个数据集，数据集中只包含一个地区房屋的面积信息和销售情况。即只有面积这一个特征，如何只用一个特征来预测房屋的销售情况呢？

??可视化能帮助我们更好地了解数据间隐藏的规律，先来看一看数据之间的分布情况。

??用什么模型可以比较好地拟合数据呢？首先尝试用一条直线来拟合数据，构建一个线性模型：

关于常数项的说明

??还记得在上一篇中讲过，线性回归模型中需要在特征中手动添加一列全为1的特征。这是为什么呢？这是一个很小的但不理顺却很容易混淆的概念，值得反复强调。

??我们熟悉的直线公式是以下形式：

??其中a为系数，x为变量，b为常数项。常数项是用来控制直线的位置，如果没有常数项，直线会是经过原点的一条线。显然有了常数项的模型可以更好地拟合数据。

??假设函数是直线的另一种表达方式，两者是完全等价的。在直线中b是常数项，在假设函数中第一个θ参数是常数项。常数项乘以1等于本身，如下图所示。

??常数项为什么要乘以1呢？因为在实际的运用中，是将参数θ视为一个向量进行运算。特征中添加全为1的一列后，可以使用向量化的方式来运算，提高了效率。

以一个特征为例

??原始数据集中特征是不包含全为1的列，将原始数据集传入函数后，在函数中额外为特征添加全为1的列，在函数中转换后的形式如下：

??设置学习率为0.1，迭代次数为500次。经过特征缩放，训练后得到的参数如下，其中参数的第一项可以视为常数项：

??对应的假设函数与代价函数如下：

??我们发现直线似乎不能很好地揭示数据之间存在的规律，但是现在又没有更多的特征，该怎么办呢？可以用特征的平方作为新的特征添加进数据集中。

??这个模型可以视为非线性模型，同样也可以通过线性回归算法来处理，在函数中转换后的数据集的形式如下：

??增加更多的特征以后，模型会不会有更好的表现呢？

??设置学习率为0.1，迭代次数为500次。经过特征缩放，训练后得到的参数如下，其中参数的第一项可以视为常数项：

??对应的假设函数与代价函数如下：

??似乎并没有太大的改变？试试其他的学习率。

??设置学习率为1，迭代次数为500次。经过特征缩放，训练后得到的参数如下，其中参数的第一项可以视为常数项：

??对应的假设函数与代价函数如下：

升维的方法与局限

??可以观察到相比于直线，新的模型可以更好地拟合数据，或许也能更准确的用于预测新的数据。至此可以总结出以下两点结论：

??1，学习率需要手动调整，这实在是太不智能了，以后我们将了解不需要手动设置学习率的方法。

??2，用现有特征的2次方，3次方，4次方......来构造新的特征，可能会得到更准确的模型。

??推而广之，有一个特征的时候，可以用特征的高次方构造新的特征：

??推而广之，有多个特征的时候，可以用特征的高次方的组合构造新的特征：

??需要注意的是，虽然用升维的方法可以构造新的特征，但是我们不想频繁地使用这种方法。如果缺少特征，首先应该想办法获取新的特征。相比于人工创造的特征，现实的特征或许会更好一些。

??比如我们有一个房子宽度的特征，和一个房子长度的特征。两者可以组合出房子面积的特征，这显然是有意义的。但是再添加面积的10次方作为新的特征，似乎失去了现实的意义，变成纯粹的数字。

一维空间与投影

??一个向量x可以构建一维空间（一条直线），另一个向量y与一维空间可以有以下几种关系：

??1，当向量y垂直一维空间时（内积为0），向量y在一维空间上的投影为0，对应的方程组无解。通过向量x无论如何也无法获得向量y。

??2，当向量y平行一维空间时，向量y在一维空间上的投影为向量本身，对应的方程组有解。在向量x上乘以某一个系数可以获得向量y。

??3，当向量y与一维空间即不平行也不垂直时，向量y在一维空间上存在投影，对应的方程组无解，但存在能够得到的最优解。在向量x上乘以某一个系数，不能得到全部的向量y，但可以得到部分的向量y。

??如上图所示，向量e是误差向量，向量p是投影向量。因为向量y不在一维空间中，只能得到向量y的投影向量。类似于有人告诉你，你得不到最好的，那么现实的问题是，第二好的是什么呢？

??投影向量p是我们能得到的第二好的向量，问题转变为如何使投影向量p最大化？向量y可以分解为投影向量p与误差向量e的组合，当误差向量e最小化的时候，投影向量p最大化。

??什么情况下误差向量e最小化？当误差向量e垂直一维空间时最小化，此时有投影向量p最大化。已知两个垂直的向量内积为0，根据这一点可以建立等式。

??注：此时的θ是一个标量；

二维空间与投影

??两个不在同一条直线的向量可以构建二维空间（一个平面），这两个向量称为基向量，另一个向量y与二维空间可以有以下几种关系：

??1，当向量y垂直二维空间时，向量y在二维空间上的投影为0。

??2，当向量y平行二维空间时，向量y在二维空间上的投影为向量本身。

??3，当向量y与二维空间即不平行也不垂直时，向量y在二维空间上存在投影，对应的方程组无解，但存在能够得到的最优解。在基向量上分别乘以某一个系数，不能得到全部的向量y，但可以得到部分的向量y。

??与之前类似，误差向量e同时垂直于基向量。已知两个垂直的向量内积为0，根据这一点可以建立等式。

??上述是已知的信息。

??以上等式可以写为矩阵的形式。

??X是基向量构成的矩阵，当矩阵可逆时，可写为如下形式。

最小二乘法

??推而广之无论是2维空间，3维空间还是m维空间，道理都是一样的。如果向量不在空间内，我们只能得到向量在空间内的投影，这种获得投影的方法称为最小二乘法。

??投影是基向量的线性组合，所谓能得到的最优解，是指这个线性组合的系数。当矩阵可逆时，通过上述公式可以直接求出系数。

??回顾《初识线性回归》中的例子，如今我们可以从一个新的视角来看问题，矩阵X有4个线性无关的基向量，构成完整的4维空间，向量y在空间中，用最小二乘法求出最优解。

??通常数据集中样本的数量m是远远大于特征的数量n，如下图所示。

??矩阵X有n个线性无关的基向量，构成m维空间中的n维子空间，无论向量y是否在子空间内，都可以使用最小二乘法求出能得到的最优解。

??因为最小二乘法中需要对矩阵进行求逆运算，比较消耗计算资源。当我们的样本数量比较大时，比如有10万个，100万个，1000万个样本，可能就无法通过这种方法来直接计算结果。

??因此什么情况下使用最小二乘法，什么情况下使用梯度下降法，只能根据具体情况具体分析，没有一定之规。至此，我们已经掌握了求解线性回归的第二种方法。

总结

??升维是用现有特征构造更多特征的方法，特征相乘可能具有某种意义，比如已知房屋的长度和宽度可以组合出表示面积的特征。类似的，也可以将特征进行相除。

??通过从空间的角度来看待矩阵，理解投影与方程组的解之间的联系。在矩阵可逆的情况下，可以通过最小二乘法获得投影，同时也就得到了线性回归的最优解。

??虽然线性回归还有部分内容没有介绍，至少目前我们对什么是算法，算法如何工作有了感性的认识。马上，我们就能掌握第二个用于分类的算法，这将是我们接下来的旅程。

非正规代码

??1，本文为原创文章，未经作者授权禁止引用、复制、转载、摘编。

??2，对于有上述行为者，作者将保留追究其法律责任的权利。

Tieven

2019.1.5

[email protected]

原文地址：https://www.cnblogs.com/tieven/p/10280102.html

时间： 2024-10-08 01:07:25

AI之旅（3）：升维与最小二乘法的相关文章

AI之旅（2）：初识线性回归

前置知识 ??矩阵.求导知识地图 ??学习一个新事物之前,先问两个问题,我在哪里?我要去哪里?这两个问题可以避免我们迷失在知识的海洋里,所以在开始之前先看看地图. ??此前我们已经为了解线性回归做了一点准备工作,现在开始正式进入主题,总共需要迈过三个台阶.希望文章结束的时候,我们能轻松愉悦地摘下这颗星星. 从一个例子开始 ??假设我们是市场营销人员,现在有一些房屋历史销售数据,这些数据中包含了房屋的楼盘.均价.面积,以及对应的房屋销售情况.现在有一个新开楼盘,已知新开楼盘的主要信息,如何预测楼

uva10559区间dp升维

/* 区间dp,为什么要升维? 因为若用dp[l][r]表示消去dp[l][r]的最大的分,那么显然状态转移方程dp[l][r]=max{dp[l+1][k-1]+(len[l]+len[k])^2+len[k+1][r]} 可是这样是直接消去l和k两个快的,有一种情况是在k.r两个块之间还有个同色块,那么这种情况就考虑不到了所以我们要考虑是否能先不直接消去l,k合并的块,而是将其保留下来,之后枚举到k,r区域的块时再一同合并进行考虑所以再加一维来记录l,k合并后的信息为了方便,再加一维来

AI之旅（1）：出发前的热身运动

前置知识 ??无知识地图自学就像在海中游泳 ??当初为什么会想要了解机器学习呢,应该只是纯粹的好奇心吧.AI似乎无处不在,又无迹可循.为什么一个程序能在围棋的领域战胜人类,程序真的有那么聪明吗?如果掌握机器学习,就能创造属于自己的AI吗? ??怀着这样的好奇心,开始了在机器学习领域的探索.学习的第一步是从<吴恩达机器学习>公开课开始的,不可否认对于一个初学者而言,这始终是最好的入门课程. ??同样的知识也有不同的学法,比如一个公式摆在面前,浅一点的学法是直接把它背下来便于应用.深一点的学法

cf1272F——经典升维dp，好题！

/* 给两个括号序列,用一个合法的括号串来覆盖这两个串,求出这个最短串这个问题可以分解成两个条件: 1.用一个最短的括号序列来覆盖这两个串 2.这个序列要合法首先考虑第一个条件: 不难想到用两个状态dp[i,j]来表示匹配s[1..i],t[1..j]时的最短长度转移也很简单:初始状态dp[0,0]=0,后面加'(',后面加')':都分别取更新对应状态最后的结果是dp[lens,lent] 然后再来考虑上第二个条件括号序列合法的条件是所有的前缀和>=0,且最后的和是0(懂我意思吧) 要

遇到复杂问题或者难题的时候，要考虑升维

数据结构一维升级到二维如遇到一维数据结构解决不了的问题,这个时候我们要考虑二维数据结构或者多维数据结构,一般来说,二维就可以了,更复杂的可能需要更多复杂问题科学的方法或者工具去解决有些问题本身就是很复杂的逻辑和结构,我们这个时候可以考虑有没有更好的工具帮助我们解决,我们的方法是否正确,有没有更科学的方法可以帮助我们去解决当前遇到的问题. 问题的本质在哪里,去找到问题的本质一定要找到问题的本质,从本质出发,考虑它的出现情况以及为什么会出现这种情况. 正确的方法和态度去解决问题遇到问题

AI之旅（4）：初识逻辑回归

前置知识 ??求导知识地图 ??逻辑回归是用于分类的算法,最小的分类问题是二元分类.猫与狗,好与坏,正常与异常.掌握逻辑回归的重点,是理解S型函数在算法中所发挥的作用,以及相关推导过程. 从一个例子开始 ??假设我们是信贷工作人员,有一个关于客户记录的数据集.数据集中有两个特征,x1表示月收入金额,x2表示月还贷金额.y称为标签,其中y=1表示客户发生违约. ??我们的目标是挖掘出数据间可能存在的规律,建立相应的模型,用于对新客户进行预测.假设一个新客户的收入金额是5.0,还贷金额是2.7,请

从华为P20开始的脑洞之旅：AI如何改变未来手机生活

春天到来,跟万物一起萌生的,还有各式各样的手机新品- 相比去年的全面屏风潮,今年的手机市场可以说是AI的天下.各式各样不同等级的AI拍照满天飞.而华为P20系列的到来,又把移动AI这个话题拉升到了新的热度.比如说,基于麒麟970搭载NPU带来的AI专项处理能力,华为P2O首次实现了AI摄影大师系统,在摄影上带给了用户瞬间成为大师体验:而AIS智能防抖系统则利用了NPU提供的图像识别能力,对成像质量显著提升,解决了我们拍照和拍摄视频时手抖的问题.但是,可能更多消费者的印象中,AI是一个非常强大,类

AI在运维中的应用

? 摘要:随着X86分布式技术应用,服务器数量越来越多,网络拓扑结构越来越复杂,运维越来越辛苦,风险越来越高.智能化运维AIOPS将AI技术应用在运维场景,是DevOps的运维部分,是"开发运维一体化云中心"的重要基础设施之一,其最大的价值在于缩短故障恢复时间,提高IT服务连续性. 本文描述一个运维及在这个场景下对AI的需求,目标是尝试将AI引入运维过程,提高运维效率.缩短故障恢复时间. 关键字:机器学习:DEVOPS.AIOPS.流量预测随着X86分布式架构应用,服务器规模越来越

AI+传媒：《深圳商报》读创执行总编辑莅临智搜，共谋传媒转型新出路！

<深圳商报>编委.读创执行总编辑张平照带领技术团队来到了清华信息港,对国内首家致力于大数据和人工智能技术在资讯领域研发和应用的深圳市智搜(Giiso)公司进行了参观考察. 深圳商报读创执行总编辑携技术团队与智搜(Giiso)高层深入交流 <深圳商报>是深圳市委直属的大型综合性日报,凭借着以经济报道为主的鲜明特色,成为深圳和华南地区极具权威性和影响力的主流大报.在高新科技飞速发展的今天,传媒产业再次迎来转型升级新挑战,这一次<深圳商报>将目光瞄准了时下最火的人工智能技术.