课程1
- 授课讲师: 黄志洪(tigerfish),ITPUB创始人,中山大学海量数据与云计算研究中心主任。数据库专家,数据分析专家,有丰富的IT领域、数学领域的知识经验。
- R语言、Hadoop、Python、Matlab,推荐的这些软件,是为了不用写程序,核心不是掌握工具
- 是一门算法课程、面向数学建模,如电子商务数据、推荐系统。脱离具体软件讲算法
- 懂原理,要经得起别人问什么。
- 基本统计知识、线性代数。90%讲数据分析
- 怎样把复杂的算法用浅显易懂的方式和例子,向非专业人士清晰表达
数学为什么难?剥去包装,其实都是很简单的东西。例如;关系代数,规范化、关系代数、第一范式、第二范式。不是知识本身很抽象,而是时机不到。
数据分析系统中的位置
- 面向工具
- 面向应用领域
- 面向算法与建模
大数据与云计算
目标
- 各算法细节
- 算法结合场景
- 熟悉机器学习和数据挖掘软件,浅尝即止
- 数据分析师、算法设计师(数学基础好、比较聪明,对算法做些微调)、具备算法设计能力的高层次程序员
参考书
- Data+Mining+Practical+Machine+Learning+Tools+and+Techniques,有个副产品Weka
- 数据挖掘、韩家伟(美国),河南郑州大学、伊利诺伊州大学,20多个诺贝尔奖。非常简练、只读相关章节就会收获很大。
- 国内机器学习,没前两本好,对初学者不太好
- Machine Learning in Action 和 机器学习案例解析。这两本数例子多算法讲的少
- 神经网络与机器学习。比如图形识别、比如识别雪梨、苹果,神经网络。特别难懂,100个买有99个看不懂
- Building Machine Learing Systems with Python, Python里面有些扩展包
什么是机器学习
- Wiener ,开创出控制论,40年代写的,就提出机器智能的前景,机器控制人类,而当时甚至还没有计算机,非常具有前瞻性。
- 机器学习是门交叉学科,模拟实现人类的学习能力,以获取新的知识或技能,重新组织已有知识结构使之不断改善自身性能。
- 与人工智能的区别,人工智能是个很老的名词,新瓶装旧酒,自动推理、自然语言理解、模式(常见的东西有规律的东西)识别。
- 机器学习与数据挖掘,是同一座山峰的不同侧影
- 提高体验和降低人力成本
- 第二次机器革命-以具备人类智能为核心,机器占主导(第一次是动力系统革命)
机器学习比较活跃的领域
- 数据分析、挖掘:提炼有价值的知识、规则和模式,如推荐.
- 贝叶斯分类器-判定垃圾邮件。云上判断更准确,
- 分词、计算概率。学习集,扔到分类器中判断
- 网页自动分类:如百度分类,爬虫抓回来。学习集分好类的文章、分词。
- 评论自动分析:
- 图形和语言识别:OCR、手写输入、指纹识别、虹膜识别、车牌识别
- 小波分析,早先信号分析,把复杂波形变成有规律的波形,叫做傅里叶展开
- 比傅里叶展开更适合做高频信号,提高识别度
- 机器人,
- 电脑博弈,下象棋:局面标准化、局面评估函数、棋谱学习
- 决策树、如何走下一步
- 开局、子比较多,计算比较长。所以不用评估函数、改为棋谱学习。
机器学习软件
- R S(statistics)语言进行数据探索、统计分析、作图的解释型语言.
- 与S-Plus商业兼容。
- 发明者是生物学家、非软件行业和统计行业。
- 比C和Java更方便统计分析
- http://www.r-project.org
- packages看扩展包
- CRAN Task Views CRAN是R的下载网站统称。Task Views按着任务来组织
- 人工神经网络比较差
- Weka
- Matlab
- matrix+laboratory
- 和Mathematica、Maple并称三大数学软件
- 神经网络包特别强大
- 太贵,可以下载试用版 Matlab R2012B,
- Python
- 荷兰1989年创立python,在谷歌公司,I wrote python
- 在操作系统里面写脚本
- 开发网络爬虫、写网站类式php
- 可以把各种语言粘合在一起
- 性能比较差,适合原型开发,小孩学编程语言的首选。等到开发产品时用c、java替换掉
- NumPy多维数组
- SciPy算法封装
时间: 2024-10-04 22:14:10