机器学习之路

机器学习入门教材有许多,入门方式多种多样,我是半路出家,简单总结一下我的机器学习之路。2011年考入北邮计算机研究生学院,主要是NLP方向。之前没有接触过机器学习,本科也不是计算机专业,而是工商管理。

2011年研究生阶段,两节课对我影响很大:

第一节课是计算语言学,最开始了解和接触机器学习,是在上这节课的时候,老师推荐的教材《统计自然语言处理基础》。在老师的课上,有讲到HMM(隐马尔科夫模型),可以用来做序列标注,在NLP(自然语言处理)中可以做分词,语音识别等各种任务。课上的大作业就是实现一个HMM模型,现在还记忆犹新。

另一节课是高级机器学习,推荐教材是 Tom M. Mitchell的《Machine Learning》。课上每个同学都要自己讲一下,对于某一个机器学习算法的认识,每个人一节课的时间。在这个课上,认识了最大熵(Max Entropy),支持向量机(SVM)。因为需要自己讲一节课,所以对自己讲的模型从整体概念上有了大概的了解,现在想起来映像最深的就是SVM。

在这个期间,看了stanford 的机器学习公开课,还有就是
52nlp 的博客,都是非常好的公开资源(coursera上面有很多其他资源)。

后来慢慢的接触到了更多的自然处理的任务,文本分类、聚类,分词,词性标注,命名实体识别,句法分析,语义角色标记,关系抽取,蕴含推理,文本摘要,自然语言生成,问答系统,情感分析(意见挖掘)等,也自然接触到了更多的机器学习算法,这些问题有一些比较好的工具或者解决的方案,会在另一个专题,NLP专题里面分析。

2012年期间, 师兄师姐们推荐了两本好书:

一本是李航  的 《统计学习基础》,比Mitchell的书更加偏应用;另一本是
pattern Recognition and machine learning,这本书被爱称为神书,比Mitchell的书更加深入。这个时候,我已经是研二,发现被机器学习涉及的庞杂内容越来越感兴趣,自己深入其中,不可自拔。那个时候,对概率统计,最优化方法,以及矩阵等数学理论不是很了解,纯粹是对这个学科的兴趣,坚定了我继续深造的想法,以上就是我入坑的原因。

断断续续看了一些书之后,又找到了一个叫做 机器学习10大经典算法 的文集:(在我微盘里面,点此打开

里面讲了很多实用的算法,参数估计-EM,模型组合-Adaboost,分类-knn,svm,naivebayes等十个经常用的机器学习算法。看完之后,更加发现了机器学习体系的庞大,以后会慢慢说这些基础算法LDA,CRF之类的,以及介绍各种工具包。

2013年

经过一段时间的阅读,深刻的了解到一句话:书读得越多,越觉得自己无知。一年前发现了水木上的机器学习书单,非常不错,涉及到机器学习的方方面面,但是没有全部读过,个人感觉不可能全部读完。(我的微盘分享

后来修了一门课,最优化理论,知道了一些最优化的方法:梯度下降,牛顿,共轭梯度,拟牛顿等等。刚觉得对机器学习有点感觉了,Deep Learning非常火了,之前是实验室有师兄一直在做基于GPU的DeepLearning的模型。图像,语音然后是NLP等各领域都被DeepLearning洗牌,NLP里面的词表示已经很火了,于是跟风看了一下DeepLearning。有专门讲DeepLearning的网站,点我

2014年

谷歌收购了一家名为DeepMind的人工智能初创公司,该公司发了一篇论文,是CNN+增强学习(Reinforce Learning)让机器玩游戏,然后就被收购了。可以认为,增强学习 可能才是让机器自己“学习“的算法框架。不知道你信不信,反正我是信了,因为我导师,已经安排了不少的学生在增强学习方向,听了他们的报告,感觉是挺有意思的。也在ACL上看到有关增强学习的论文,虽然少,但是可能会是一个趋势吧。

一直以来,都没有写博客或者总结,现在是需要好好总结一下以前的学习历程。一次一个算法,慢慢来,我会尽量结合一些已有工具,针对我接触过的任务,做一下分析和总结。

机器学习之路

时间: 2024-08-01 20:53:20

机器学习之路的相关文章

机器学习之路:python线性回归分类器 进行良恶性肿瘤分类预测

使用python3 学习了线性回归的api 分别使用逻辑斯蒂回归  和   随机参数估计回归 对良恶性肿瘤进行预测 我把数据集下载到了本地,可以来我的git下载源代码和数据集:https://github.com/linyi0604/kaggle 1 import numpy as np 2 import pandas as pd 3 from sklearn.cross_validation import train_test_split 4 from sklearn.preprocessin

机器学习之路--常用面试题目

该内容大部分来自<<百面机器学习算法工程师>> 1.特征工程 1.1为什么需要对数值类型进行归一化? 使各个指标处于同一数值量级,消除数据之间的量纲影响. 比如分析一个人的身高和体重对健康的影响. 1.2补充知识点 结构化数据:关系数据库的一张表,每列都有清晰的定义,包含了数值型和类别型 非结构化数据:文本,图像,音频,无法使用简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同 1.3方法 线性归一化(Min-Max Scaling) 它对原始数据进行线性变换,使结果

机器学习之路: python k近邻分类器 鸢尾花分类预测

使用python语言 学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/kaggle 1 from sklearn.datasets import load_iris 2 from sklearn.cross_validation import train_test_split 3 from sklearn.preprocessing import StandardScaler 4 from sklearn.neighbors i

机器学习之路: python 朴素贝叶斯分类器 预测新闻类别

使用python3 学习朴素贝叶斯分类api 设计到字符串提取特征向量 欢迎来到我的git下载源代码: https://github.com/linyi0604/kaggle 1 from sklearn.datasets import fetch_20newsgroups 2 from sklearn.cross_validation import train_test_split 3 # 导入文本特征向量转化模块 4 from sklearn.feature_extraction.text

机器学习之路: python 决策树分类 预测泰坦尼克号乘客是否幸存

使用python3 学习了决策树分类器的api 涉及到 特征的提取,数据类型保留,分类类型抽取出来新的类型 需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https://github.com/linyi0604/MachineLearning 1 import pandas as pd 2 from sklearn.cross_validation import train_test_split 3 from sklearn.feature_extraction

机器学习之路:python 综合分类器 随机森林分类 梯度提升决策树分类 泰坦尼克号幸存者

python3 学习使用随机森林分类器 梯度提升决策树分类 的api,并将他们和单一决策树预测结果做出对比 附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/linyi0604/MachineLearning 1 import pandas as pd 2 from sklearn.cross_validation import train_test_split 3 from sklearn.feature_extraction import DictVe

机器学习之路:python支持向量机回归SVR 预测波士顿地区房价

python3 学习使用api 支持向量机的两种核函数模型进行预测 git: https://github.com/linyi0604/MachineLearning from sklearn.datasets import load_boston from sklearn.cross_validation import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.svm impor

机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价

python3学习使用api 线性回归,和 随机参数回归 git: https://github.com/linyi0604/MachineLearning 1 from sklearn.datasets import load_boston 2 from sklearn.cross_validation import train_test_split 3 from sklearn.preprocessing import StandardScaler 4 from sklearn.linear

机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价

python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: 1 from sklearn.datasets import load_boston 2 from sklearn.cross_validation import train_test_split 3 from sklearn.preprocessing import StandardScaler 4 from sklearn.tree import De