机器学习——初识及实践选择

作为机器学习基础学习的开篇，记录一下自己对于机器学习基础的认识和实践选择。

参考书目：

机器学习实战

这里也给出电子版本的中英文pdf文件和code：here(azkx) 我不会告诉你Ctrl+A会有其它发现~

1、基础

对于机器学习的相关方法，最直观的认识是可以将其分为有监督和无监督两大类，可以使用思维导图来直观表示：

(使用MindNode来绘制的思维导图，源文件在这里)

其实在实际使用中，分类的方法和回归的方法的分界并不明显，有时还会结合起来使用的。

具体的开发步骤大致有这些过程：

　　①、收集获取数据

　　②、准备输入数据

　　③、分析预处理输入数据

　　④、训练算法-->无监督算法无需训练过程，核心内容集中在⑤

　　⑤、测试算法

　　⑥、使用算法

2、实践

目前机器学习的很多实践都是在Python上实现的，所以选择Python是理所当然的。

可能会使用到的Python第三方库有：

Numpy、Scipy、Matplotlib、Pandas、StatsModels、Scikit-Learn、Keras、Gensim等。

时间： 2024-11-05 18:44:26

机器学习——初识及实践选择的相关文章

《机器学习项目开发实践》链接失效的新地址

最近收到一本<机器学习项目开发实践>,快速翻了翻觉讲的挺基础,主要还可以顺带学习一下F#.但是细读的时候才发现本书会需要在OneDrive上下载一些训练数据,在第一个链接也就是1.3.1小节的第一段中"http://1drv.ms/1sDThtz"这个地址就已经失效了,翻到后面也没找到什么备用链接.最后只有联系出版社,在半个多月的交涉中责编终于回复我了.新的资源地址:https://github.com/mathias-brandewinder/machine-learni

Python机器学习库scikit-learn实践

原文:http://blog.csdn.net/zouxy09/article/details/48903179 一.概述机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出.当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘.随着机器学习社区的发展和实践验证,这群脱颖而出者也逐渐被人所认可和青睐,同时获得了更多社区力量的支持.改进和推广. 以

机器学习------平台和语言选择

机器学习语言一.机器学习常用的编程语言有哪些?机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论. 凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能. 它是人工智能的核心, 是使计算机具有智能的根本途径, 其应用遍及人工智能的各个领域, 它主要使用归纳. 综合而不是演绎. 目前机器学习语言主要有:R 语言,Python,MATLAB.JAVA.

机器学习相似度计算方法选择理论依据

在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法. 令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance)-EuclideanDistanceMeasure. ? 相当于高维空间内向量说表示的点到点之间的距离. 由于特征向量的各分量的量纲不一致,通常需

机器学习：SVM实践：Libsvm的使用

引言 ? ? 本文从应用的角度出发,使用Libsvm函数库解决SVM模型的分类与回归问题 ? ? 首先说明一下实验数据,实验数据是Libsvm自带的heart_sacle,是个mat文件 ? ? 加载数据集 ? ? 将mat文件导入MATLAB后会有270*13的实例矩阵变量heart_scale_inst和270*1的标签矩阵heart_scale_label ? ? ? ? ? ? 分类 ? ? 将数据集分为训练数据和测试数据 ? ? 首先我们将实验数据分为训练数据和测试数据 ? ? loa

常见机器学习算法原理+实践系列5（KNN分类+Keans聚类）

一,KNN分类 K-Nearest Neighbor K临近算法是一种有监督的分类算法,工作原理很简单,存在一个样本集合,也成为训练样本,样本中包含标签,将新数据的每个特征与样本集合的数据对应特征进行比较,然后提取样本最相似的分类标签,k就是选择的最相似的数据点,选择k个点中出现频率最高的分类,就是新数据的分类.一般来说k不会超过20个.Knn有两个细节需要注意,一个是相似度算法,常用包含欧式距离,余弦距离等等,另外一个在计算相似度之前需要归一化特征,比如使用离差标准化(Min-Max),把所有

常见机器学习算法原理+实践系列4（决策树）

决策树分类决策树算法借助于树的分支结构实现分类,决策树在选择分裂点的时候,总是选择最好的属性作为分类属性,即让每个分支的记录的类别尽可能纯.常用的属性选择方法有信息增益(Information Gain),增益比例(gain ratio),基尼指数(Gini index). 信息增益信息增益基于香浓的信息论,它找出的属性R具有这样的特点:以属性R分裂前后的信息增益比其他属性最大.这里信息(实际上就是熵)的定义如下: 其中的m表示数据集D中类别C的个数,Pi表示D中任意一个记录属于Ci的概率,

常见机器学习算法原理+实践系列3（PCA）

PCA主成份分析 PCA(Principal Component Analysis)主要是为了做数据降维,数据从原来的坐标系转换到登录新的坐标系,新坐标系的选择是由数据本身决定的,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差,该过程一直重复,重复次数为原始数据中特征的数据.通常情况下,大部分方差都包含在前面的几个新坐标轴中,所以一般情况下我们选择前面几个贡献值较大的(90%以上)就是主成份了. 通过这种降维技术,它能将大量相关变量转化为一组

机器学习基础与实践（三）----数据降维之PCA

写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法解释PCA,并举一个实例一步步计算,然后再进行数学推导,最后再介绍一些变种以及相应的程序.(数学推导及变种下次再写好了) 正文: 在数据处理中,经常会遇到特征维度比样本数量多得多的情况,如果拿到实际工程中去跑,效果不一定好.一是因为冗余的特征会带来一些噪音,影响计算的结果:二是因为无关的特征会加大计