机器学习学习指南

统计学习三要素:模型、策略、算法

模型分为概率模型(由条件概率表示的模型)和非概率模型(决策函数)

策略包括1、损失函数和风险函数;2、经验风险最小化与结构风险最小化

算法:根据相应的策略求解最优解,即求解最优化问题。

生成模型与判别模型

分类、回归、标注问题


K-近邻算法(KNN)

算法原理

优点:精度高、对异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

    无法给出任何数据的基础结构信息,因此我们也无法知晓平均实例样本和典型事例样本具有什么特征。

KNN算法是分类数据最简单最有效的算法。


决策树

优势:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

缺点:可能会产生过度匹配问题。

创建分支的伪代码函数createBranch()如下所示:
if 数据集中的每个子项是否属于同一分类
    return 类的标签;
else
    寻找划分数据集的最好特征
    划分数据集
    创建分支节点
    for 每个划分的子集
        调用函数createBranch并增加返回结果到分支节点中
    return 分支节点

如何选取关键性特征划分数据?

采用信息增益进行判断,在划分数据集之前之后信息发生的变化成为信息增益,获得信息增益最高的特征就是最好的选择。

信息增益为总的熵减去某个分类标准对应的熵。

如果数据集已经处理了所有属性,但是分类标签依然不唯一,则常常采用多数表决的方法决定该叶子节点的分类。

时间: 2024-10-10 18:16:57

机器学习学习指南的相关文章

【转载】机器学习入门者学习指南(经验分享)

机器学习入门者学习指南(经验分享) 2013-09-21 14:47 本人计算机研二,专业方向自然语言处理,个人对于机器学习挺感兴趣,于是开始学习.所以,原来这家伙是个菜鸟……正是由于自己是个菜鸟,所以体会到自学机器学习的艰辛,于是在这里分享一下个人的经验,希望能对入门者有所帮助.一些有关机器学习的介绍在这里就不做详细介绍了,感兴趣的同学可以去维基百科.就直接进入正题.1.去Coursera上Andrew Ng的<机器学习>,完成所有作业,最好能全部拿满分.这是相当入门的课程,老师是机器学习领

机器学习实践指南:案例应用解析

试读及购买链接 <机器学习实践指南:案例应用解析>是机器学习及数据分析领域不可多得的一本著作,也是为数不多的既有大量实践应用案例又包括算法理论剖析的著作,作者针对机器学习算法既抽象复杂又涉及多门数学学科的特点,力求理论联系实际,始终以算法应用为主线,由浅入深以全新的角度诠释机器学习. 前 言第一部分 准备篇第1章 机器学习发展及应用前景 21.1 机器学习概述 21.1.1 什么是机器学习 31.1.2 机器学习的发展 31.1.3 机器学习的未来 41.2 机器学习应用前景 51.2.1 数

theano学习指南

开始 这些教程并不在于成为本科生或者研究生的机器学习课程,而是给出一些快速的概念上的认同.为了继续接下来的教程,你需要下载本章中提到的数据库. 下载 在每个学习算法的网页上,你都可以下载相关的文件.如果你想同时下载这些文件的话,你可以克隆本教程的仓库: git clone https://github.com/lisa-lab/DeepLearningTutorials.git 数据库 MNIST数据库 (mnist.pkl.gz) MNIST数据库是关于手写数字的数据库,它包含了60000幅用

机器学习自学指南【转】

事实上有许多的途径可以了解机器学习,也有许多的资源例如书籍.公开课等可为所用,一些相关的比赛和工具也是你了解这个领域的好帮手.本文我将围绕这个话题,给出一些总结性的认识,并为你由程序员到机器学习高手的蜕变旅程中提供一些学习指引. 机器学习的四个层次 根据能力可以将学习过程分成四个阶段.这也是一个有助于我们将所有学习资源进行分类的好方法. 初学阶段 新手阶段 中级阶段 高级阶段 我之所以把初学阶段和新手阶段区分开来,是因为我想让那些完全初学者(对这个领域感兴趣的程序员)在初学阶段对机器学习有一个大

『Python』Numpy学习指南第十章_高端科学计算库scipy入门(系列完结)

简介: scipy包包含致力于科学计算中常见问题的各个工具箱.它的不同子模块相应于不同的应用.像插值,积分,优化,图像处理,,特殊函数等等. scipy可以与其它标准科学计算程序库进行比较,比如GSL(GNU C或C++科学计算库),或者Matlab工具箱.scipy是Python中科学计算程序的核心包;它用于有效地计算numpy矩阵,来让numpy和scipy协同工作. 在实现一个程序之前,值得检查下所需的数据处理方式是否已经在scipy中存在了.作为非专业程序员,科学家总是喜欢重新发明造轮子

《Python机器学习时间指南》一、Python机器学习的生态系统

本文主要记录<Python机器学习时间指南>第一章中1.2Python库和功能中的内容.学习机器学习的工作流程. 一.数据的获取和检查 requests获取数据 pandans处理数据 1 import os 2 import pandas as pd 3 import requests 4 5 PATH = r'E:/Python Machine Learning Blueprints/Chap1/1.2/' 6 r = requests.get('https://archive.ics.u

【Python机器学习时间指南】一、Python机器学习的生态系统

本文主要记录<Python机器学习时间指南>第一章中1.2Python库和功能中的内容.学习机器学习的工作流程. 一.数据的获取和检查 requests获取数据 pandans处理数据 1 import os 2 import pandas as pd 3 import requests 4 5 PATH = r'E:/Python Machine Learning Blueprints/Chap1/1.2/' 6 r = requests.get('https://archive.ics.u

一步一步入门机器学习之五:机器学习自学指南

事实上有许多的途径可以了解机器学习,也有许多的资源例如书籍.公开课等可为所用,一些相关的比赛和工具也是你了解这个领域的好帮手.本文我将围绕这个话题,给出一些总结性的认识,并为你由程序员到机器学习高手的蜕变旅程中提供一些学习指引. 机器学习的四个层次 根据能力可以将学习过程分成四个阶段.这也是一个有助于我们将所有学习资源进行分类的好方法. 初学阶段 新手阶段 中级阶段 高级阶段 我之所以把初学阶段和新手阶段区分开来,是因为我想让那些完全初学者(对这个领域感兴趣的程序员)在初学阶段对机器学习有一个大

最棒的 JavaScript 学习指南(2018版)

译者注:原文作者研究了近2.4万篇 JavaScript 文章得出这篇总结,全文包含学习指南.新人上手.Webpack.性能.基础概念.函数式编程.面试.教程案例.Async Await.并发.V8.机器学习.数据可视化.调试.单元测试等章节,非常适合用于对自己 JavaScript 技术栈的比对,用于查漏补缺,适合收藏阅读.有删减.文中如有错误,欢迎评论指出. 在过去的一年间(2017年),我们对比了近24000篇 JavaScript 文章,并从中挑选出了最好的55篇.我们做了这个目录,认为