机器学习读书笔记（一）

第1章机器学习基础

1）学习分类

监督学习——是因为这类算法必须知道预测什么，即目标变量的分类信息。

无监督学习——数据没有类别信息，也不会给定目标值。

2）开发机器学习应用程序的步骤

　　收集数据——制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据（风速、血糖等)、公开可用的数据源

　　准备输入数据——得到数据之后，还必须确保数据格式符合要求。

　　分析输入数据——人工分析以前得到的数据，确保数据集中没有垃圾数据。

　　训练算法——得到的式化数据输入到算法，从中抽取知识或信息，这里得到的知识需要存储为计算机可以处理的格式，方便后续步骤使用。无监督学习算法，由于不存在目标变量值，故而也不需要训练算法。

　　测试算法——这一步将实际使用第4步机器学习得到的知识信息。为了评估算法，必须测试算法工作的效果。对于监督学习，必须已知用于评估算法的目标变量值；对于无监督学习，也必须用其他的评测手段来检验算法的成功率。

　　使用算法——将机器学习算法转换为应用程序，执行实际任务，以检验上述步骤是否可以在实际环境中正常工作。

时间： 2024-10-12 07:21:15

机器学习读书笔记（一）的相关文章

机器学习读书笔记（开篇）

新近到手一本<机器学习实战>(Peter Harringtom),兴奋之余,本着好记性不如烂笔头的真理,打算将读书的过程记录下来,形成读书笔记,重点记录自己所理解的算法思想与应用示例.本人野生猿一枚,贻笑大方之处,敬请谅解. 机器学习可以揭示数据背后的真实含义,而数据以及基于数据做出的决策是非常重要的,机器学习的实现离不开数据挖掘算法,书中介绍了几个主要的算法,使用Python以及对应的科学计算包,如NumPy与SciPy等进行编程. 第一部分分类机器学习读书笔记01 机器学习基础机器学

视觉机器学习读书笔记--------BP学习

反向传播算法(Back-Propagtion Algorithm)即BP学习属于监督式学习算法,是非常重要的一种人工神经网络学习方法,常被用来训练前馈型多层感知器神经网络. 一.BP学习原理 1.前馈型神经网络是指网络在处理信息时,信息只能由输入层进入网络,随后逐层向前进行传递,一直到输出层,网络中不存在环路:前馈神经网络是神经网络中的典型分层结构,根据前馈网络中神经元转移函数.网络层数.各层基本单元数目以及权重调整方式的不同,可以形成不同功能特点的神经网络.前馈型神经网络由输入层.中间层(隐

机器学习读书笔记01 机器学习基础

顾名思义,机器学习的目的就是让机器具有类似于人类的学习.认识.理解事物的能力.试想一下,如果计算机能够对大量的癌症治疗记录进行归纳和总结,并能够给医生提出适当的建议和意见,那对病人的康复来说,是多么的重要.除了医疗领域,金融股票.设备维护.自动驾驶.航空航天等领域也对机器学习表现出了越来越多的关注. 大量的经济活动都依赖于信息,我们不能在海量的数据中迷失,机器学习将有助于我们穿越数据雾霭,从中抽取出有用数据. 开发机器学习应用的步骤收集数据准备输入数据分析输出数据训练算法测试算法使用

机器学习读书笔记01

k-近邻算法概述:k-近邻算法采用测量不同特征值之间的距离方法进行分类优点:精度高.对于异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高,并且它没有办法各处基础数据的一些内部信息数据. 算法描述:存在一个准确的数据集合样本,称作训练样本集,样本集合中每个item都附带自己所属分类标签.当需要判断新数据的分类是,只需要计算特征数据和样本数据中最相似的分类标签,选择k个最相似的标签,k个标签中占比最多的即为目标标签. 具体分类算法 #-*- coding=utf-8 -*- fro

视觉机器学习读书笔记--------SVM方法

SVM是一种有监督的统计学习方法,能够最小化经验误差和最大化几何边缘,被称为最大间隔分类器,可用于分类和回归分析. 一.基本原理 SVM是一个机器学习的过程,在高维空间中寻找一个分类超平面,将不同类别的数据样本点分开,使不同类别的点之间的间隔最大,该分类超平面即为最大间隔超平面,对应的分类器称为最大间隔分类器,对于二分类问题,下图可描述SVM的空间特征. 假设数据样本为x1,x2,...,xn,分类超平面可表示为:wTx-b=0.其中x为分类超平面上的点:w为垂直于分类超平面的向量:b为位移量,

Spark机器学习读书笔记-CH05

5.2.从数据中提取合适的特征 [[email protected] ch05]# sed 1d train.tsv > train_noheader.tsv[[email protected] ch05]# lltotal 42920-rw-r--r-- 1 root root 21972457 Jan 31 15:03 train_noheader.tsv-rw-r--r-- 1 root root 21972916 Jan 31 15:00 train.tsv[[email protect

机器学习读书笔记------支持向量机

一.间隔与支持向量给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{-1,+1},分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.在众多划分超平面之间,我们需要找出一个泛化能力最强的.直观上看,我们应该找位于两类训练样本"正中间"的划分超平面,该平面对训练样本局部扰动的"容忍"性最好.换言之,这个划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强. 在样本空间中,划分超平面可

《机器学习实战》读书笔记2：K-近邻(kNN)算法

声明:文章是读书笔记,所以必然有大部分内容出自<机器学习实战>.外加个人的理解,另外修改了部分代码,并添加了注释 1.什么是K-近邻算法? 简单地说,k-近邻算法采用测量不同特征值之间距离的方法进行分类.不恰当但是形象地可以表述为近朱者赤,近墨者黑.它有如下特点: 优点:精度高.对异常值不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高适用数据范围:数值型和标称型 2.K-近邻算法的工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中

机器学习【1】（Python Machine Learning读书笔记）

依旧是作为读书笔记发布,不涉及太多代码和工具,作为了解性文章来介绍机器学习. 文章主要分为两个部分,machine learning的概述和 scikit-learn的简单介绍,两部分关系紧密,合并书写,以致整体篇幅较长,分为1.2两篇. 首先,是关于机器学习.要点如下: 1.1 机器学习三种主要方式 1.2 四大过程 1.3 python相关实现(安装包) [1.1] 机器学习方式主要有三大类:supervised learning(监督式学习), unsupervised learning(

猜你喜欢

javaScript之深拷贝与浅拷贝

js中有两种数据类型: 1. 基本类型 : Number.String.Boolean.Null.Undefined 2. 复杂类型 : Object .Array 深拷贝和浅拷贝只针对复 ...

201510212059_《JavaScript——八种转义符》

1. /b //后退一格 2. /f //换页 3. /n //换行 4. /r //返回 5. /t //制表符 6. /' //单引号 7. /“ //双引号 8. / //反斜杠

javascript学习-闭包

javascript学习-闭包 1.什么是闭包大多数书本中对闭包的定义是:“闭包是指有权访问另一个函数作用域中的变量的函数.”.这个概念过于抽象了,对初学者而言没啥帮助.好在<Javascri ...

JQuery选择器转义说明

JQuery选择器 JQuery选择器规则, 借用了css1-3的规则(css选择器规则), 因为css本身也需要一套规则来索引DOM元素, 进而进行样式渲染,例如div.blue 表示目标DOM为 ...

解耦设计手法小结

设计是一个平衡的产物,需要在各个约束条件下(组织目标,业务目标,开发流程,技术能力,学习及维护成本等)不断地进行演进. 我们虽然不提倡做大而全的设计,但会坚持进行基础性设计,以保证我们的设计一直在正确 ...

[LeetCode] Sudoku Solver（迭代）

Write a program to solve a Sudoku puzzle by filling the empty cells. Empty cells are indicated by th ...

继承多态个人理解

继承就是父子关系你老爸把他想留给你的东西留给你 ,你就继承了他那部分,比如财富. 所以老爸有财富,你也有了. 如果有些东西他不想给你虚方法,需要你自己获得,你就得重写override这个方法 ...

increment/decrement/dereference操作符

1 #include<iostream> 2 using namespace std; 3 class INT 4 { 5 friend ostream& operator< ...

D22_04_将DataSet对象绑定到TreeView

<Window x:Class="demo.BoundTreeViewDataSet" xmlns="http://schemas.microsoft.com/wi ...

Python Web 应用：WSGI基础

在Django,Flask,Bottle和其他一切Python web 框架底层的是Web Server Gateway Interface,简称WSGI.WSGI对Python来说就像 Servle ...

2.使用iptables监控上传流量

我们可以通过在网关上添加iptables规则来监控某台主机的上传或下载流量,以下是具体步骤: 添加iptables规则: /sbin/iptables -I INPUT -s 10.0.5.110 创 ...

fail2ban安装(debian centos)

一.简介: fail2ban可以监视你的系统日志,然后匹配日志的错误信息(正则式匹配)执行相应的屏蔽动作 (一般情况下是调用防火墙屏蔽),如:当有人在试探你的SSH.SMTP.FTP密码,只要达到你预 ...

用GO语言开发editplus编辑器插件(附源码)

我要开发的插件功能极为简单,就是对用户选中的内容进行base64编码或解密工作. 其中所涉及的技术部分主要是GO语言程序开发和editplus插件配置的部分,首先我们来看一下GO语言代码的写法,如下: ...

1.opaitg→fultar(0-100) 2.png符号→导包(插件) 3.图包→导包.图片 4.BFC→zoom:1(无限值) hork layowt技术 5.双倍margin兼容问题 6.IE ...

SQL最常用基础语句

查询当天的所有与记录 select * from sys_student_record where date(check_ins) = curdate(); select r.stu_ ...

C#正则表达式编程（三）：Match类和Group类用法

原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://zhoufoxcn.blog.51cto.com/792419/281956 前面 ...

Delphi ComboBox的属性和事件、及几个鼠标事件的触发

临时做了两个小的测试程序,为了彻底弄清楚combobox的OnClick.OnChange.OnDropDown.OnCloseUp.OnSelect事件的触发及其先后顺序. 另附常用鼠标事件的触发情 ...

HTML meta标签总结与属性使用介绍

之前学习前端中,对meta标签的了解仅仅只是这一句. <meta charset="UTF-8"> 但是打开任意的网站,其head标签内都有一列的meta标签.比如我博 ...

初识zookeeper（二）之与Dubbo-admin关联

1.简介:dubbo-admin,即dubbo管理控制台,管理控制台为内部裁剪版本,开源部分主要包含:路由规则,动态配置,服务降级,访问控制,权重调整,负载均衡,等管理功能,主要是用于Dubbo服务的 ...

Uber是如何基于Go语言构建高QPS服务的？

在2015年初,我们构建了一个只做一件事(也的确做的非常好)的微服务——查找地理围栏(geofence lookup).一年后,这项服务已经成为Uber数百个正在运行的服务中每秒查询次数(QPS)最高 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.