流数据:
(1)传感器数据 (2)图像、视屏数据 (3)互联网数据 (4)业务数据
机器学习:
(1)监督学习:给定训练集,预测测试集。训练集包括数据和响应。常见的有监督学习包括分类和回归。
(2)无监督学习:该训练集中只包括特征,没有人工标注的目标。常见的务监督学习方法包括聚类和密度估计。
(3)半监督学习:训练数据集有目标数据也有无标注数据。
(4)增强学习:观察学习相应的动作。每个动作都会对环境有影响。学习的对象根据环境的反馈进行判断。
学习方法:
(1)批量学习 (2)在线学习 (3)随机梯度学习
二者之间的区别:
批量学习:就是收集整个训练数据,对数据同时进行了训练获得最终的参数模型。
在线学习:一次训练一个样本:(1)接受一个样本 (2)预测目标值 (3)将真实值反馈误差,更新参数
在线学习常用的方法是随机梯度下降。
随机梯度下降: (1)随机抽样一个样本
(2)获取梯度并更新
优点在于:当数据集中有很多的冗余数据时,采用随机梯度下降方法可以避免冗余的影响。
常见的在线学习方法(按照线性模型还是稀疏模型,是否使用二阶信息):
表1:常见在线学习方法:
有监督的在线学习方法
基于有监督学习的在线学习算法
在线学习算法按照是否具有稀疏性可分为稀疏性模型和非稀疏性模型。这里的“稀疏”是指权值w是的大部分数值为0,而非稀疏性性模型的权值通常为非0.在非稀疏性模型中根据是否使用二阶信息,可分为一阶算法和二阶算法。
感知器(preceptron)是机器学习中最早的在线学习算法。准则:预测准确是模型不更新,不准确时,按照新样本的特征方向移动更新。此方法从理论上证明其产生的分类错误数与所有标准化的训练样本与最优平面的最短距离的平方成反比。因此当数据越分散时分类错误率越高;当数据距离离最优平面越近时,分类错误率越高。
随后出现了在线被动-主动算法:核心思想是基于一个样本的支持向量机,将支持向量机最大间隔的约束转化为寻找与当分类器最近邻的约束。当新来的数据没有误差时,该算法被动更新。当有误差时,算法主动更新,即投影到心有分类器最邻近的位置。上述算法有闭式解。
随着压缩感知技术的兴起,L1正则化得到关注,其中最著名的模型是套索模型(the Least absolute shrinkage and selectionator operator,LSSO)可学习模型的参数并进行特征选择。此类方法经常被用来实现L1范式与误差之和最小化。在批量训练的时候,由于整体训练,可以获得稀疏解。但当在线学习时,很难保证解的稀疏性。因此经常需要其他的方法获得稀疏解,其中最直接的方法是梯度截取方法,当更新的权值一定的值时,将其权值设置为0,否则继续更新。另一个典型的方法是,前进后退分离法(forward and backward splitting method)。其前进的步骤是根据新来的样本计算其梯度,并获得更新的权值,再通过L1范式最小化回退获得稀疏街。该理论框架具有很强的扩展性,其不仅可用于L1正则化,也可用于L2,L2的平方等等。。。另一个方法是正则化对偶平均法(regularized dual averageing method)。该方法主要有三个步骤:(1)计算函数的梯度值;(2)求解梯度的平均值(3)通过闭式解获得更新值。该方法的第三步由于带有L1正则化所以可以或得稀疏解。
二阶感知器(second order perceptron)是对感知器的直接拓展,其预测的标签值由之前的权重响亮、定置单位阵、更新增广矩阵之和的逆矩阵与当前样本的乘积获得,其中增广矩阵是将错分的数据以列的形式排放,之前的权重向量则是根据感知器的更新公式进行更新的。通过引入二阶矩阵,该算法可有效缓解濒临最有平面数据点的错分影响,并可以给出对应的数据误分类个数的上界。置信加权算法保持每个特征的不同的置信度,当权值更新时,具有较低置信度的特征对应的权值更新较激进;具有较高置信度的特征对应的权值更新比较保守。由于其权值假设为高斯分布,因此该模型引入了二阶信息。置信加权算法的更新方法通过使KL散度最小化保证每个新来的样本正确分类的该不低于某个固定参数。该方法可进一步拓展为解决多分类和自适应的正则权值更新模型。
非线性模型的在线学习
非线性模型通常使用和函数实现模型的非线性化,这是因为和函数可以有效衡量两个样本之间的相似度。典型的算法是核感知器,当样本分类错误时,该样本将加入支持向量集。
在线核函数存在的问题是随着样本增多,有效集合中支持向量的个数会不断增大。若样本的个数是无穷的,则该集合中支持向量的个数是无穷的。办法是采用截取法把核系数特别小的值设为0.
在线学习算法的挑战与机会
挑战:
(1)如何使用分布式数据?
(2)当样本与数据样本分布不一致时,如何保证其稳定性?
(3)当数据格式多种多样的时候,如何更准确地刻画数据之间的关系?
(4)如何将多个数据源融合一起进行预测?