机器学习读书笔记(一)

第1章 机器学习基础

1)学习分类

监督学习——是因为这类算法必须知道预测什么,即目标变量的分类信息。

无监督学习——数据没有类别信息,也不会给定目标值。

2)开发机器学习应用程序的步骤

  收集数据——制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据(风速、血糖等)、公开可用的数据源

  准备输入数据——得到数据之后,还必须确保数据格式符合要求。

  分析输入数据——人工分析以前得到的数据,确保数据集中没有垃圾数据。

  训练算法——得到的式化数据输入到算法,从中抽取知识或信息,这里得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。无监督学习算法,由于不存在目标变量值,故而也不需要训练算法。

  测试算法——这一步将实际使用第4步机器学习得到的知识信息。为了评估算法,必须测试算法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他的评测手段来检验算法的成功率。

  使用算法——将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以在实际环境中正常工作。

时间: 2024-10-12 07:21:15

机器学习读书笔记(一)的相关文章

机器学习读书笔记(开篇)

新近到手一本<机器学习实战>(Peter Harringtom),兴奋之余,本着好记性不如烂笔头的真理,打算将读书的过程记录下来,形成读书笔记,重点记录自己所理解的算法思想与应用示例.本人野生猿一枚,贻笑大方之处,敬请谅解. 机器学习可以揭示数据背后的真实含义,而数据以及基于数据做出的决策是非常重要的,机器学习的实现离不开数据挖掘算法,书中介绍了几个主要的算法,使用Python以及对应的科学计算包,如NumPy与SciPy等进行编程. 第一部分 分类 机器学习读书笔记01 机器学习基础 机器学

视觉机器学习读书笔记--------BP学习

反向传播算法(Back-Propagtion Algorithm)即BP学习属于监督式学习算法,是非常重要的一种人工神经网络学习方法,常被用来训练前馈型多层感知器神经网络. 一.BP学习原理 1.前馈型神经网络 是指网络在处理信息时,信息只能由输入层进入网络,随后逐层向前进行传递,一直到输出层,网络中不存在环路:前馈神经网络是神经网络中的典型分层结构,根据前馈网络中神经元转移函数.网络层数.各层基本单元数目以及权重调整方式的不同,可以形成不同功能特点的神经网络.前馈型神经网络由输入层.中间层(隐

机器学习读书笔记01 机器学习基础

顾名思义,机器学习的目的就是让机器具有类似于人类的学习.认识.理解事物的能力.试想一下,如果计算机能够对大量的癌症治疗记录进行归纳和总结,并能够给医生提出适当的建议和意见,那对病人的康复来说,是多么的重要.除了医疗领域,金融股票.设备维护.自动驾驶.航空航天等领域也对机器学习表现出了越来越多的关注. 大量的经济活动都依赖于信息,我们不能在海量的数据中迷失,机器学习将有助于我们穿越数据雾霭,从中抽取出有用数据. 开发机器学习应用的步骤 收集数据 准备输入数据 分析输出数据 训练算法 测试算法 使用

机器学习读书笔记01

k-近邻算法 概述:k-近邻算法采用测量不同特征值之间的距离方法进行分类 优点:精度高.对于异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高,并且它没有办法各处基础数据的一些内部信息数据. 算法描述:存在一个准确的数据集合样本,称作训练样本集,样本集合中每个item都附带自己所属分类标签.当需要判断新数据的分类是,只需要计算特征数据和样本数据中最相似的分类标签,选择k个最相似的标签,k个标签中占比最多的即为目标标签. 具体分类算法 #-*- coding=utf-8 -*- fro

视觉机器学习读书笔记--------SVM方法

SVM是一种有监督的统计学习方法,能够最小化经验误差和最大化几何边缘,被称为最大间隔分类器,可用于分类和回归分析. 一.基本原理 SVM是一个机器学习的过程,在高维空间中寻找一个分类超平面,将不同类别的数据样本点分开,使不同类别的点之间的间隔最大,该分类超平面即为最大间隔超平面,对应的分类器称为最大间隔分类器,对于二分类问题,下图可描述SVM的空间特征. 假设数据样本为x1,x2,...,xn,分类超平面可表示为:wTx-b=0.其中x为分类超平面上的点:w为垂直于分类超平面的向量:b为位移量,

Spark机器学习读书笔记-CH05

5.2.从数据中提取合适的特征 [[email protected] ch05]# sed 1d train.tsv > train_noheader.tsv[[email protected] ch05]# lltotal 42920-rw-r--r-- 1 root root 21972457 Jan 31 15:03 train_noheader.tsv-rw-r--r-- 1 root root 21972916 Jan 31 15:00 train.tsv[[email protect

机器学习读书笔记------支持向量机

一.间隔与支持向量 给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{-1,+1},分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.在众多划分超平面之间,我们需要找出一个泛化能力最强的.直观上看,我们应该找位于两类训练样本"正中间"的划分超平面,该平面对训练样本局部扰动的"容忍"性最好.换言之,这个划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强. 在样本空间中,划分超平面可

《机器学习实战》读书笔记2:K-近邻(kNN)算法

声明:文章是读书笔记,所以必然有大部分内容出自<机器学习实战>.外加个人的理解,另外修改了部分代码,并添加了注释 1.什么是K-近邻算法? 简单地说,k-近邻算法采用测量不同特征值之间距离的方法进行分类.不恰当但是形象地可以表述为近朱者赤,近墨者黑.它有如下特点: 优点:精度高.对异常值不敏感.无数据输入假定 缺点:计算复杂度高.空间复杂度高 适用数据范围:数值型和标称型 2.K-近邻算法的工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中

机器学习【1】(Python Machine Learning读书笔记)

依旧是作为读书笔记发布,不涉及太多代码和工具,作为了解性文章来介绍机器学习. 文章主要分为两个部分,machine learning的概述和 scikit-learn的简单介绍,两部分关系紧密,合并书写,以致整体篇幅较长,分为1.2两篇. 首先,是关于机器学习.要点如下: 1.1 机器学习三种主要方式 1.2 四大过程 1.3 python相关实现(安装包) [1.1] 机器学习方式主要有三大类:supervised learning(监督式学习), unsupervised learning(