机器学习——初识及实践选择

作为机器学习基础学习的开篇,记录一下自己对于机器学习基础的认识和实践选择。

参考书目:

机器学习实战

这里也给出电子版本的中英文pdf文件和code:here(azkx)   我不会告诉你Ctrl+A会有其它发现~

1、基础



对于机器学习的相关方法,最直观的认识是可以将其分为有监督和无监督两大类,可以使用思维导图来直观表示:

(使用MindNode来绘制的思维导图,源文件在这里)

其实在实际使用中,分类的方法和回归的方法的分界并不明显,有时还会结合起来使用的。

具体的开发步骤大致有这些过程:

  ①、收集获取数据

  ②、准备输入数据

  ③、分析预处理输入数据

  ④、训练算法-->无监督算法无需训练过程,核心内容集中在⑤

  ⑤、测试算法

  ⑥、使用算法

2、实践



目前机器学习的很多实践都是在Python上实现的,所以选择Python是理所当然的。

可能会使用到的Python第三方库有:

Numpy、Scipy、Matplotlib、Pandas、StatsModels、Scikit-Learn、Keras、Gensim等。

时间: 2024-08-29 12:09:37

机器学习——初识及实践选择的相关文章

《机器学习项目开发实践》链接失效的新地址

最近收到一本<机器学习项目开发实践>,快速翻了翻觉讲的挺基础,主要还可以顺带学习一下F#.但是细读的时候才发现本书会需要在OneDrive上下载一些训练数据,在第一个链接也就是1.3.1小节的第一段中"http://1drv.ms/1sDThtz"这个地址就已经失效了,翻到后面也没找到什么备用链接.最后只有联系出版社,在半个多月的交涉中责编终于回复我了.新的资源地址:https://github.com/mathias-brandewinder/machine-learni

Python机器学习库scikit-learn实践

原文:http://blog.csdn.net/zouxy09/article/details/48903179 一.概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出.当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘.随着机器学习社区的发展和实践验证,这群脱颖而出者也逐渐被人所认可和青睐,同时获得了更多社区力量的支持.改进和推广. 以

机器学习------平台和语言选择

机器学习语言 一.机器学习常用的编程语言有哪些?机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论. 凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以 获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能. 它是人工智能的 核心, 是使计算机具有智能的根本途径, 其应用遍及人工智能的各个领域, 它主要使用归纳. 综合而不是演绎. 目前机器学习语言主要有:R 语言,Python,MATLAB.JAVA.

机器学习相似度计算方法选择理论依据

在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法. 令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance)-EuclideanDistanceMeasure. ? 相当于高维空间内向量说表示的点到点之间的距离. 由于特征向量的各分量的量纲不一致,通常需

机器学习:SVM实践:Libsvm的使用

引言 ? ? 本文从应用的角度出发,使用Libsvm函数库解决SVM模型的分类与回归问题 ? ? 首先说明一下实验数据,实验数据是Libsvm自带的heart_sacle,是个mat文件 ? ? 加载数据集 ? ? 将mat文件导入MATLAB后会有270*13的实例矩阵变量heart_scale_inst和270*1的标签矩阵heart_scale_label ? ? ? ? ? ? 分类 ? ? 将数据集分为训练数据和测试数据 ? ? 首先我们将实验数据分为训练数据和测试数据 ? ? loa

常见机器学习算法原理+实践系列5(KNN分类+Keans聚类)

一,KNN分类 K-Nearest Neighbor K临近算法是一种有监督的分类算法,工作原理很简单,存在一个样本集合,也成为训练样本,样本中包含标签,将新数据的每个特征与样本集合的数据对应特征进行比较,然后提取样本最相似的分类标签,k就是选择的最相似的数据点,选择k个点中出现频率最高的分类,就是新数据的分类.一般来说k不会超过20个.Knn有两个细节需要注意,一个是相似度算法,常用包含欧式距离,余弦距离等等,另外一个在计算相似度之前需要归一化特征,比如使用离差标准化(Min-Max),把所有

常见机器学习算法原理+实践系列4(决策树)

决策树分类 决策树算法借助于树的分支结构实现分类,决策树在选择分裂点的时候,总是选择最好的属性作为分类属性,即让每个分支的记录的类别尽可能纯.常用的属性选择方法有信息增益(Information Gain),增益比例(gain ratio),基尼指数(Gini index). 信息增益 信息增益基于香浓的信息论,它找出的属性R具有这样的特点:以属性R分裂前后的信息增益比其他属性最大.这里信息(实际上就是熵)的定义如下: 其中的m表示数据集D中类别C的个数,Pi表示D中任意一个记录属于Ci的概率,

常见机器学习算法原理+实践系列3(PCA)

PCA主成份分析 PCA(Principal Component Analysis)主要是为了做数据降维,数据从原来的坐标系转换到登录新的坐标系,新坐标系的选择是由数据本身决定的,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差,该过程一直重复,重复次数为原始数据中特征的数据.通常情况下,大部分方差都包含在前面的几个新坐标轴中,所以一般情况下我们选择前面几个贡献值较大的(90%以上)就是主成份了. 通过这种降维技术,它能将大量相关变量转化为一组

机器学习基础与实践(三)----数据降维之PCA

写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法解释PCA,并举一个实例一步步计算,然后再进行数学推导,最后再介绍一些变种以及相应的程序.(数学推导及变种下次再写好了) 正文: 在数据处理中,经常会遇到特征维度比样本数量多得多的情况,如果拿到实际工程中去跑,效果不一定好.一是因为冗余的特征会带来一些噪音,影响计算的结果:二是因为无关的特征会加大计