在线学习

流数据:

(1)传感器数据 (2)图像、视屏数据 (3)互联网数据 (4)业务数据

机器学习:

(1)监督学习:给定训练集,预测测试集。训练集包括数据和响应。常见的有监督学习包括分类和回归。

(2)无监督学习:该训练集中只包括特征,没有人工标注的目标。常见的务监督学习方法包括聚类和密度估计。

(3)半监督学习:训练数据集有目标数据也有无标注数据。

(4)增强学习:观察学习相应的动作。每个动作都会对环境有影响。学习的对象根据环境的反馈进行判断。

学习方法:

(1)批量学习 (2)在线学习 (3)随机梯度学习

二者之间的区别:

批量学习:就是收集整个训练数据,对数据同时进行了训练获得最终的参数模型。

在线学习:一次训练一个样本:(1)接受一个样本 (2)预测目标值 (3)将真实值反馈误差,更新参数

在线学习常用的方法是随机梯度下降。

随机梯度下降:   (1)随机抽样一个样本

        (2)获取梯度并更新

优点在于:当数据集中有很多的冗余数据时,采用随机梯度下降方法可以避免冗余的影响。

常见的在线学习方法(按照线性模型还是稀疏模型,是否使用二阶信息):

表1:常见在线学习方法:

有监督的在线学习方法

基于有监督学习的在线学习算法

  在线学习算法按照是否具有稀疏性可分为稀疏性模型和非稀疏性模型。这里的“稀疏”是指权值w是的大部分数值为0,而非稀疏性性模型的权值通常为非0.在非稀疏性模型中根据是否使用二阶信息,可分为一阶算法和二阶算法。

  感知器(preceptron)是机器学习中最早的在线学习算法。准则:预测准确是模型不更新,不准确时,按照新样本的特征方向移动更新。此方法从理论上证明其产生的分类错误数与所有标准化的训练样本与最优平面的最短距离的平方成反比。因此当数据越分散时分类错误率越高;当数据距离离最优平面越近时,分类错误率越高。

  随后出现了在线被动-主动算法:核心思想是基于一个样本的支持向量机,将支持向量机最大间隔的约束转化为寻找与当分类器最近邻的约束。当新来的数据没有误差时,该算法被动更新。当有误差时,算法主动更新,即投影到心有分类器最邻近的位置。上述算法有闭式解。

  随着压缩感知技术的兴起,L1正则化得到关注,其中最著名的模型是套索模型(the Least absolute shrinkage and selectionator operator,LSSO)可学习模型的参数并进行特征选择。此类方法经常被用来实现L1范式与误差之和最小化。在批量训练的时候,由于整体训练,可以获得稀疏解。但当在线学习时,很难保证解的稀疏性。因此经常需要其他的方法获得稀疏解,其中最直接的方法是梯度截取方法,当更新的权值一定的值时,将其权值设置为0,否则继续更新。另一个典型的方法是,前进后退分离法(forward and backward splitting method)。其前进的步骤是根据新来的样本计算其梯度,并获得更新的权值,再通过L1范式最小化回退获得稀疏街。该理论框架具有很强的扩展性,其不仅可用于L1正则化,也可用于L2,L2的平方等等。。。另一个方法是正则化对偶平均法(regularized dual averageing method)。该方法主要有三个步骤:(1)计算函数的梯度值;(2)求解梯度的平均值(3)通过闭式解获得更新值。该方法的第三步由于带有L1正则化所以可以或得稀疏解。

  二阶感知器(second order perceptron)是对感知器的直接拓展,其预测的标签值由之前的权重响亮、定置单位阵、更新增广矩阵之和的逆矩阵与当前样本的乘积获得,其中增广矩阵是将错分的数据以列的形式排放,之前的权重向量则是根据感知器的更新公式进行更新的。通过引入二阶矩阵,该算法可有效缓解濒临最有平面数据点的错分影响,并可以给出对应的数据误分类个数的上界。置信加权算法保持每个特征的不同的置信度,当权值更新时,具有较低置信度的特征对应的权值更新较激进;具有较高置信度的特征对应的权值更新比较保守。由于其权值假设为高斯分布,因此该模型引入了二阶信息。置信加权算法的更新方法通过使KL散度最小化保证每个新来的样本正确分类的该不低于某个固定参数。该方法可进一步拓展为解决多分类和自适应的正则权值更新模型。

非线性模型的在线学习

  非线性模型通常使用和函数实现模型的非线性化,这是因为和函数可以有效衡量两个样本之间的相似度。典型的算法是核感知器,当样本分类错误时,该样本将加入支持向量集。

  在线核函数存在的问题是随着样本增多,有效集合中支持向量的个数会不断增大。若样本的个数是无穷的,则该集合中支持向量的个数是无穷的。办法是采用截取法把核系数特别小的值设为0.

  在线学习算法的挑战与机会

  挑战:

(1)如何使用分布式数据?

(2)当样本与数据样本分布不一致时,如何保证其稳定性?

(3)当数据格式多种多样的时候,如何更准确地刻画数据之间的关系?

(4)如何将多个数据源融合一起进行预测?

时间: 2024-10-10 01:33:53

在线学习的相关文章

从直播编程到直播教育:LiveEdu.tv开启多元化的在线学习直播时代

2015年9月,一个叫Livecoding.tv的网站在互联网上引起了编程界的注意.缘于Pingwest品玩的一位编辑在上网时无意中发现了这个网站,并写了一篇文章<一个比直播睡觉更奇怪的网站:直播程序员写代码> 来介绍它. Livecoding.tv是在2015年2月在美国正式上线的.公司的总部位于旧金山,创办人也是一位程序员. 网上直播已经不是新鲜事了,但正儿八经地直播程序员写代码确实少见.难怪品玩的编辑在他的文章中这样写道:"这么逗的一个东西,你跟我说它是一个教育平台?呃,然而好

2015年,在线学习平台发展之年

2015年到了,大学的小伙伴们也都放假了!是不是很期待快点过年呐?可是从现在到过年还有一个多月的时间哦! 既然有时间了,大家是不是天天睡到自然醒,第二天赖床到10点多才起呐! 在就业形势日益加剧的环境下,只想说学习吧,伙伴!一般情况下简历会有实习经历,证书技能,培训经历,那么寒假就是你丰富简历的好机会哦! 2015年,可以说是在线学习平台的发展之年,CSDN上线了"CSDN学院",现在平台有免费课程和用C币的收费课程(高校俱乐部可以通过编程比赛和活动获取哦,渠道还有很多比如博客,COD

【Ruby on Rails学习二】在线学习资料的整理

由于工作任务重,时间紧,没有太多学习的时间,大致找了些在线学习资料,这里做个整理,希望对同样准备学习的朋友有帮助 在线文档类: Ruby on Rails 实战圣经  使用 Rails 4.2 及 Ruby 2.3(简体中文版) Rails Guides(英文版)                        Rails Guides(简体中文版)                         Ruby on Rails API Ruby 中文社区                       

在线学习Java免费资源推荐

你想学习Java吗?来对地方了!这篇文章将会介绍很多高质量的免费资源,包括网页.论坛.电子书和速查表. Java是一种面向对象的编程语言,拥有独立.多线程.安全.动态和健壮的特点.归功于其多功能的特点,Java已经成为最流行的编程语言之一,可以让你开发出健壮的应用程序. Java几乎是所有商务应用程序的核心.它有多种脚本语言和流行的框架,可以开发客户端和服务端.因此,学习Java不仅仅可以提高你的知识储备,也有利于你在事业上的发展. 这篇文章将介绍各种各样的网络资源(不包含必读的Java书籍),

优质免费在线学习网站【自用】

现在网上已经有很多非常优质的在线学习网站,更让我们感到开心和幸运的是,很多网站竟然是免费的,所以放着这么多好的资源不用,真的是一种浪费. 所以,下面为大家提供几个在线学习网站,为你的学习和职业生涯插上一双腾飞的翅膀. 1. COURSERA Tips www.coursera.org 非常有名的在线学习网站,估计很多人都听说过.不过听说,最近好像收费了.该网站提供了美国,英国,亚洲,欧洲,南美洲,加拿大和南非的主要大学和研究所的付费课程; 如普林斯顿大学,开普敦大学,日内瓦大学,曼彻斯特大学,约

HTML5初学者福利!11个在线学习网站推荐

HTML5初学者福利!11个在线学习网站推荐 HTML5的强大及流行趋势,让更多的人想要系统的对它进行学习.而大多数人获取HTML5知识的重要途径都是网络,不过面对五花八门的搜索结果,是不是觉得摸不着头脑,无法抉择?在这里,文章作者Abhishek Thakur以自己长时间的实践经验,筛选出来11个在线学习HTML5开发的资源网站,让HTML5的学习可以跟随自己的节奏进行,不再那么困难. 学习HTML5的网站和博客 无论学习什么语言,最开始的当然是要从基础学起.如果你是一个对HTML5一无所知的

各大公司广泛使用的在线学习算法FTRL详解

各大公司广泛使用的在线学习算法FTRL详解 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-regularized-Leader)算法,在处理诸如逻辑回归之类的带非光滑正则化项(例如1范数,做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色,据闻国内各大互联网公司都第一时间应

[转]在线学习java资料集合

原文链接: fromdev 翻译: ImportNew.com- 赖 信涛译文链接: http://www.importnew.com/11910.html[ 转载请保留原文出处.译者和译文链接.] 本文由 ImportNew - 赖 信涛 翻译自 fromdev.欢迎加入Java小组.转载请参见文章末尾的要求. 你想学习Java吗?来对地方了!这篇文章将会介绍很多高质量的免费资源,包括网页.论坛.电子书和速查表. Java是一种面向对象的编程语言,拥有独立.多线程.安全.动态和健壮的特点.归功

在线学习网站

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px "Helvetica Neue"; color: #3e3e3e } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px "Helvetica Neue"; color: #3e3e3e; min-height: 18.0px } p.p3 { margin: 0.0px 0.0px 0.0px 0.0px;

HTML5在线学习网站推荐

因为HTML5流行及其功能的强大,越来越多的人加入HTML5的学习.当然,目前大部分人学习都是通过网络,HTML5同样有许多教学网站,那么HTML5在线学习网站有哪些?现在请看我为大家推荐的HTML5在线学习网站. 学习HTML5的网站和博客 无论学习什么语言,最开始的当然是要从基础学起.如果你是一个对HTML5一无所知的初学者,那么以下的几个网站绝对不容错过.网站中包括HTML5的基础教程.文章和博客,而且其中包含的不仅仅只是代码,还包含很多带有简单步骤讲解的例子. 1. W3Schools(