1 机 器 学 习 介 绍
1 机器学习介绍
“机器学习研究的是如何赋予计算机在没有被明确编程的情况下仍能够学习的能力。
(Field of study that fives computers the ability to learn without being explicitly programmed.)”
“对于某个任务 T 和表现的衡量 P,当计算机程序在该任务 T 的表现上,经过 P 的衡量,随着经验 E 而增长,我们便称计算机程序能够通过经验 E 来学习该任务。
(computer program is said to learn from experience E with respect to some task T and some performance
measure P, if its performance on T, as measured by P, improves with experience E.)”
在跳棋游戏的例子中,任务 T 是玩跳棋游戏,P 是游戏的输赢,E 则是一局又一局的游戏。
一些机器学习的应用举例:
1. 数据库挖掘
2. 一些无法通过手动编程来编写的应用:如自然语言处理,计算机视觉
3. 一些自助式的程序:如推荐系统
4. 理解人类是如何学习的
1.2 监 督 学 习 ( SUPERVISED LEARNING)
监督式的学习,预先给了算法“正确结果”——即所有我们观察到的变量。
回归问题(Regression),因为我们能预测的结果是连续地值
分类问题(Classification),我们希望算法能够学会如何将数据分类到不同的类里。
1.3 非 监 督 学 习 ( UNSUPERVISED LEARNING)
在非监督学中,我们的现有数据中并没有结果,我们有的只是特征,因而非监督学习要解决的问题是发现这些数据是否可以分为不同的组
非监督学习的一个例子是聚类问题(Clustering),例如对一个大型的数据中心的网络传输数据情况进行分析,发现那些多数时候是在协作的计算机
2 单 变 量 线 性 回 归 ( LINEAR REGRESSION WITH ONE VARIABLE)
2.1 模 型 表 达 ( MODEL REPRESENTATION)
m 代表训练集中实例的数量
? x 代表特征/输入变量
? y 代表目标变量/输出变量
? (x,y) 代表训练集中的实例
? (x(i),y(i) ) 代表第 i 个观察实例
? h 代表学习算法的解决方案或函数也称为假设(hypothesis)
2.2 代 价 函 数 ( COST FUNCTION)
2.3 梯 度 下 降 ( GRADIENT DESCENT)
梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数 J(θ0,θ1)的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,…,θn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
2.4 对 线 性 回 归 运 用 梯 度 下 降 法
2.5 特 征 缩 放 ( FEATURE SCALING)
解决的方法是尝试将所有特征的尺度都尽量缩放到-1 到 1 之间。最简单的方法是令
2.6 正规方程( NORMAL EQUATION)
查准率(Precision)和查全率(Recall)
我们将算法预测的结果分成四种情况:
1. 正确肯定(True Positive,TP):预测为真,实际为真
2. 正确否定(True Negative,TN):预测为假,实际为真
3. 错误肯定(False Positive,FP):预测为真,实际为假
4. 错误否定(False Negative,FN):预测为假,实际为假
则:
查准率=TP/(TP+FP)
例,在所有我们预测有恶性肿瘤的病人中,实际上有恶性肿瘤的病人的百分比,越高越好。
查全率=TP/(TP+FN)
例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。这样,对于我们刚才那个总是预测病人肿瘤为良性的算法,其查全率是 0