机器学习课程1-笔记

课程1

授课讲师: 黄志洪(tigerfish),ITPUB创始人,中山大学海量数据与云计算研究中心主任。数据库专家，数据分析专家，有丰富的IT领域、数学领域的知识经验。
R语言、Hadoop、Python、Matlab,推荐的这些软件，是为了不用写程序，核心不是掌握工具
是一门算法课程、面向数学建模,如电子商务数据、推荐系统。脱离具体软件讲算法
懂原理，要经得起别人问什么。
基本统计知识、线性代数。90%讲数据分析
怎样把复杂的算法用浅显易懂的方式和例子，向非专业人士清晰表达

数学为什么难？剥去包装，其实都是很简单的东西。例如；关系代数，规范化、关系代数、第一范式、第二范式。不是知识本身很抽象，而是时机不到。

数据分析系统中的位置

- 面向工具

- 面向应用领域

- 面向算法与建模

大数据与云计算

目标

各算法细节
算法结合场景
熟悉机器学习和数据挖掘软件，浅尝即止
数据分析师、算法设计师(数学基础好、比较聪明，对算法做些微调)、具备算法设计能力的高层次程序员

参考书

Data+Mining+Practical+Machine+Learning+Tools+and+Techniques，有个副产品Weka
数据挖掘、韩家伟(美国)，河南郑州大学、伊利诺伊州大学，20多个诺贝尔奖。非常简练、只读相关章节就会收获很大。
国内机器学习，没前两本好，对初学者不太好
Machine Learning in Action 和机器学习案例解析。这两本数例子多算法讲的少
神经网络与机器学习。比如图形识别、比如识别雪梨、苹果，神经网络。特别难懂，100个买有99个看不懂
Building Machine Learing Systems with Python, Python里面有些扩展包

什么是机器学习

Wiener ,开创出控制论，40年代写的，就提出机器智能的前景，机器控制人类，而当时甚至还没有计算机，非常具有前瞻性。
机器学习是门交叉学科，模拟实现人类的学习能力，以获取新的知识或技能，重新组织已有知识结构使之不断改善自身性能。
与人工智能的区别，人工智能是个很老的名词，新瓶装旧酒，自动推理、自然语言理解、模式(常见的东西有规律的东西)识别。
机器学习与数据挖掘，是同一座山峰的不同侧影
提高体验和降低人力成本
第二次机器革命-以具备人类智能为核心，机器占主导（第一次是动力系统革命）

机器学习比较活跃的领域

数据分析、挖掘：提炼有价值的知识、规则和模式，如推荐.
- 贝叶斯分类器-判定垃圾邮件。云上判断更准确，
- 分词、计算概率。学习集，扔到分类器中判断
- 网页自动分类：如百度分类，爬虫抓回来。学习集分好类的文章、分词。
- 评论自动分析：
图形和语言识别：OCR、手写输入、指纹识别、虹膜识别、车牌识别
- 小波分析，早先信号分析，把复杂波形变成有规律的波形，叫做傅里叶展开
- 比傅里叶展开更适合做高频信号，提高识别度
机器人，
- 电脑博弈，下象棋：局面标准化、局面评估函数、棋谱学习
- 决策树、如何走下一步
- 开局、子比较多，计算比较长。所以不用评估函数、改为棋谱学习。

机器学习软件

R S(statistics)语言进行数据探索、统计分析、作图的解释型语言.
- 与S-Plus商业兼容。
- 发明者是生物学家、非软件行业和统计行业。
- 比C和Java更方便统计分析
- http://www.r-project.org
- packages看扩展包
- CRAN Task Views CRAN是R的下载网站统称。Task Views按着任务来组织
- 人工神经网络比较差
Weka
- Waikato(新西兰的大学) Environment for Knowledge Analysis Weka也是新西兰的一个大学
- R是命令行的，Weka是图形。
- 基于JAVA环境下开源的机器学习以及数据挖掘软件
- 天生容易像大数据迁移(Hadoop等大数据是Java的)
- 下载:官网或者Petaho
- 不过weka作为开源项目,官方竟然还在用老旧的svn，gitHub有其镜像，可以搜到很多个，我选了个点赞多的，
Matlab
- matrix+laboratory
- 和Mathematica、Maple并称三大数学软件
- 神经网络包特别强大
- 太贵，可以下载试用版 Matlab R2012B,
Python
- 荷兰1989年创立python，在谷歌公司，I wrote python
- 在操作系统里面写脚本
- 开发网络爬虫、写网站类式php
- 可以把各种语言粘合在一起
- 性能比较差，适合原型开发，小孩学编程语言的首选。等到开发产品时用c、java替换掉
- NumPy多维数组
- SciPy算法封装

时间： 2024-10-04 22:14:10

机器学习课程1-笔记的相关文章

Andrew Ng机器学习课程笔记（五）之应用机器学习的建议

Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.html 前言学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录了Andrew Ng课程第五章应用机器学习的建议,主要介绍了在测试新数据出现较大误差该怎么处理,这期间讲到了数据集的分类,偏差,方差,学习曲线等概念,帮

Stanford机器学习课程笔记4-Kmeans与高斯混合模型

这一部分属于无监督学习的内容,无监督学习内容主要包括:Kmeans聚类算法.高斯混合模型及EM算法.Factor Analysis.PCA.ICA等.本文是Kmeans聚类算法.高斯混合模型的笔记,EM算法是适用于存在latent/hidden变量的通用算法,高斯混合模型仅仅是EM算法的一种特殊情况,关于EM算法的推到参见Andrew Ng讲义.由于公式太多,最近时间又忙实习的事就简单写一些,回头看时还得参考Ng的笔记和自己的打印Notes上的笔记,这里的程序对理解可能能提供另外的一些帮助. K

Andrew Ng机器学习课程笔记（二）之逻辑回归

Andrew Ng机器学习课程笔记(二)之逻辑回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364598.html 前言学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录了Andrew Ng课程第二章逻辑回归的笔记,主要介绍了梯度下降法,逻辑回归的损失函数,多类别分类等等简要介绍:逻辑回归算法是分类算法,我们将它作为分类算法使用.

Stanford机器学习课程笔记——神经网络的表示

Stanford机器学习课程笔记--神经网络的表示 1. 为什么要引入神经网络其实这个问题等价与神经网络和之前的回归模型有什么区别,如果你没有学过其他机器学习算法的话.这个问题可以通过一个例子来说明:如果样本都是60*60的图像,那么每个样本的特征维数都是3600个,使用前面讲的线性回归模型,那么需要建立的参数个数就有3600的:如果是非线性回归模型,还要考虑高次项的情况,需要求解的参数就更加多了.此时的回归模型将会变得异常复杂,故我们需要其余比较高效的模型来解决这些实际的问题.这个时候我们就

Andrew Ng机器学习课程笔记（四）之神经网络

Andrew Ng机器学习课程笔记(四)之神经网络版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录Andrew Ng课程第四章和第五章的神经网络,主要介绍前向传播算法,反向传播算法,神经网络的多类分类,梯度校验,参数随机初始化,参数的更新等等 1.神经网络概述

Stanford机器学习课程笔记——SVM

Stanford机器学习课程笔记--SVM 前面已经学习过SVM,写了几片博文,如下: 入门SVM:http://blog.csdn.net/puqutogether/article/details/39894835 SVM中的线性不可分情况:http://blog.csdn.net/puqutogether/article/details/41309745 SVM中的多类分类问题:http://blog.csdn.net/puqutogether/article/details/4167960

Stanford机器学习课程笔记——单变量线性回归和梯度下降法

Stanford机器学习课程笔记--单变量线性回归和梯度下降法 1. 问题引入单变量线性回归就是我们通常说的线性模型,而且其中只有一个自变量x,一个因变量y的那种最简单直接的模型.模型的数学表达式为y=ax+b那种,形式上比较简单.Stanford的机器学习课程引入这个问题也想让我们亲近一下machine learning这个领域吧~吴恩达大神通过一个房屋交易的问题背景,带领我们理解Linear regression with one variable.如下: 不要看这个问题简答,大神就是大神

《机器学习》学习笔记（一）

今天看了两集Stanford 的Machine Learning,先说说感受,在看的过程中,脑海里冒出来一个念头:在中国的大学里,教授们都是好像在做研究,而学生们都是好像在上课,到头来不知道学到了什么,我在屏幕的这边都能感受到他们和我们的不一样. 其实对于机器学习,我是真心不懂,也不知道为什么忽然就想学习一下了,然后看了第一集就觉得实在是太牛X了,他们做的那个爬越障碍物的狗和快速避障的小车,都不是我们能搞出来的,说来也奇怪,我们不是也有他们一样的课程体系吗?照理说在大学里能做出来的东西,我们也应

斯坦福大学机器学习课程原始讲义(含公开课视频) （转载）

http://blog.csdn.net/v_july_v/article/details/7624837 斯坦福大学机器学习课程原始讲义本资源为斯坦福大学机器学习课程原始讲义,为Andrew Ng 所讲,共计20个PDF,基本涵盖了机器学习中一些重要的模型.算法.概念,此次一并压缩上传分享给大家,朋友们可以直接点击右边下载:斯坦福大学机器学习课程原始讲义.zip. 斯坦福大学机器学习公开课视频与之配套的则是斯坦福大学的机器学习公开课的视频: 1. 网易翻译的公开课视频:http://v.1

（转载）[机器学习] Coursera ML笔记 - 监督学习（Supervised Learning） - Representation

[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation http://blog.csdn.net/walilk/article/details/50922854