机器学习算法汇总

机器学习算法汇总

1. 前言

通过将工作中用到的机器学习算法归纳汇总,方便以后查找,快速应用。

2. 推荐算法

交叉最小方差

算法名字 交叉最小方差, Alternating Least Squares, ALS
算法描述 Spark上的交替性最小二乘ALS本质是一种协同过滤的算法
算法原理 1. 首先将用户推荐对象交互历史转换为矩阵,行表示用户,列表示推荐对象,矩阵对应 i,j 表示用户 i 在对象 j 上有没有行为 
2. 协同过滤就是要像填数独一样,填满1得到的矩阵,采用的方法是矩阵分解 算法原理图 

3. 原始矩阵 A 是一个很大的稀疏矩阵,然后利用 ALS 分解成近似两个矩阵 B 和 C 的乘,另外两个矩阵就比较密集,而且 B 矩阵的列可以解释为一个事物的几个方面。
4. 用户 k 对对象 h 的喜好程度就可以通过矩阵 B 的 k 行乘 矩阵 C 的 h 列得到
使用场景 当用户和推荐的对象本身属性数据没有,只存在用户和推荐对象历史交互数据的时候,当提炼出用户推荐对象的关系矩阵可以发现是一个大型的稀疏矩阵
算法优缺点 优点: 1. 此算法可伸缩 2. 速度很快 3. 适合大数据 4.新异兴趣发现、不需要领域知识 5. 随着时间推移性能提高 6. 推荐个性化、自动化程度高 7. 能处理复杂的非结构化对象 
缺点: 1. 稀疏问题 2. 可扩展性问题 3. 新用户问题 4. 质量取决于历史数据集 5. 系统开始时推荐质量差
参考资料 1. 算法原理 Large-scale Parallel Collaborative Filtering for the Netflix Prize 
2. MLlib实现 MLlib - Collaborative Filtering

时间: 2025-01-04 22:04:27

机器学习算法汇总的相关文章

机器学习算法汇总:人工神经网络、深度学习及其它

学习方式 根据数据类型的不同,对一个问题的建模有不同的方式.在机器学习或者人工智能领域,人们首先会考虑算法的学习方式.在机器学习领域,有几种主要的学习方式.将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果. 监督式学习: 在监督式学习下,输入数据被称为"训练数据",每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中"垃圾邮件""非垃圾邮件",对手写数字识别中的&

机器学习算法汇总大梳理

多分类问题优先选择SVM,随机森林,其次是逻辑回归. 朴素贝叶斯和线性回归都是比较简单的模型,对于数据的要求比较高,功能不是特别强大. 1.决策树 不需要对数据做任何预处理, 2.随机森林 3.数据预处理与特征工程 (1)数据预处理:只需要X 数据无量钢化:标准化(转化为正态分布).归一化(不改变数据原始分布,改变范围,默认(0-1)) 处理缺失值:可用均值.众数.中位数.其他字符型或者数值型值填补 处理分类型变量:使用编码处理字符型变量.一般对于有序变量或者有距变量可使用普通的编码方式:对于名

机器学习算法概览

本文是翻译文章,但我并未逐字句的翻译,而是有所删减,并加入了一些自己的补充. 机器学习(Machine Learning, ML)是什么,作为一个MLer,经常难以向大家解释何为ML.久而久之,发现要理解或解释机器学习是什么,可以从机器学习可以解决的问题这个角度来说.对于MLers,理解ML解决的问题的类型也有助于我们更好的准备数据和选择算法. 十个机器学习问题样例 想入门机器学习的同学,经常会去看一些入门书,比如<集体智慧编程>.<机器学习实战>.<数据挖掘>.<

斯坦福机器学习课程汇总

斯坦福机器学习课程汇总 前言 首先感谢吴恩达建立Coursera这样一个优秀的在线学习平台,以及他发布在这个平台上的机器学习课程. 这门课程将整个机器学习领域的基础知识,用浅显易懂的方式,深入浅出的进行了介绍.使得一个拥有高中数学知识的学生也能听得明白. 如果你想要涉足机器学习.人工智能领域,或者对这一领域有浓厚的兴趣想要深入了解,那么你会发现很多机器学习入门课程推荐的资料中,都有吴恩达老师的这一系列课程.甚至在大多数资料中,都把这门课放在了首选的位置上. 因此,我把吴恩达老师的课程整理成了Ma

收藏 | 数据分析师最常用的10个机器学习算法!

在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要. 举个例子来说,你不能说神经网络永远比决策树好,反之亦然.模型运行被许多因素左右,例如数据集的大小和结构. 因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项. 当然,你尝试的算法必须和你的问题相切合,其中的门道便是机器学习的主要任务.打个比方,如果你想打扫房子,你可能会用到吸尘器.扫帚或者拖把,但你肯定不会拿

Spark MLlib机器学习算法、源码及实战讲解pdf电子版下载

Spark MLlib机器学习算法.源码及实战讲解pdf电子版下载 链接:https://pan.baidu.com/s/1ruX9inG5ttOe_5lhpK_LQg 提取码:idcb <Spark MLlib机器学习:算法.源码及实战详解>书中讲解由浅入深慢慢深入,解析讲解了MLlib的底层原理:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础:并对此延伸机器学习的算法,循序渐进的讲解其中的原理,是读者一点一点的理解和掌握书中的知识. 目录 · · · · · · 第一部分 Spa

新的学习路径、学习想法和思路的头脑风暴:基于泰迪云课程,对数据分析和数据建模,机器学习算法进行统筹,接着是基于大数据的数据挖掘、进度、

新的学习路径.学习想法和思路的头脑风暴:基于泰迪云课程,对数据分析和数据建模,机器学习算法进行统筹,接着是基于大数据的数据挖掘.进度. 泰迪云代码已经下载,对相关内容进行应用和学习 想通视频之后对代码进行研究 专家经验.优秀经验工程师经验转化. 从论文中第三四大章,读取 设计和解决问题流程 找论文.使用benchmark 上有收录论文.找到论文.不建议自己先去想. 以后一定 偏分析,偏挖掘.偏决策的.不是执行者,执行者是最low的,最强的解决方案,都按论文来找. 高端会议.每年会出来十多篇研究成

利用机器学习算法寻找网页的缩略图

博客中的文章均为meelo原创,请务必以链接形式注明本文地址 描述一个网页 现在的世界处于一个信息爆炸的时代.微信.微博.新闻网站,每天人们在大海捞针的信息海洋里挑选自己感兴趣的信息.我们是如何判断哪条信息可能会感兴趣?回想一下,你会发现是标题.摘要和缩略图.通过标题.摘要和缩略图,就能够很好地猜测到网页的内容.打开百度搜索引擎,随便搜索一个关键字,每一条搜索结果也正是这三要素构成的. 那么一个自然的问题是搜索引擎是如何找到网页的标题.摘要和缩略图的呢. 寻找网页的标题其实是一个非常简单的问题.

机器学习系列(9)_机器学习算法一览(附Python和R代码)

本文资源翻译@酒酒Angie:伊利诺伊大学香槟分校统计学同学,大四在读,即将开始计算机的研究生学习.希望认识更多喜欢大数据和机器学习的朋友,互相交流学习. 内容校正调整:寒小阳 && 龙心尘 时间:2016年4月 出处:http://blog.csdn.net/han_xiaoyang/article/details/51191386 http://blog.csdn.net/longxinchen_ml/article/details/51192086 声明:版权所有,转载请联系作者并注