数据挖掘与机器学习技术探索培训

五、培训内容


时间


培训大纲


内容


第一天上午


第一章

机器学习及数据挖掘

基础原理


1) 什么是机器学习?

2) 什么是数据挖掘?

3) 什么是大数据?

4) 典型应用

5) 机器学习基本思想与原理

a) 假设空间

b) 主要流派

(机械学习/示教学习/类别学习/归纳学习)

c) 归纳学习(有监督的学习/无监督的学习)

6) 机器学习应用的一般流程

(收集数据/准备数据/分析数据/训练/测试/应用)

7) 大数据下机器学习算法的特点

8)基础知识

a) 常见文本处理流程

(分词、词性标注、实体识别、句法分析、索引)

b) 向量空间模型

c) 高维数据降维

c) 相似度计算方法

d) 基本概率统计知识

9) 常用工具


第一天下午


第二章

机器学习及数据挖掘

常用技术


1)  分类方法

a)  特征选择及降维

b)  朴素贝叶斯

c)  决策树

d)  回归分类器


第二天上午


第二章

机器学习及数据挖掘

常用技术


e)  中心向量法

f)  KNN

g)  SVM

h)  线性分类器

2)  分类的研究进展及趋势

a)  大数据下的分类算法

b)  情感分析

c)  众包标注


第二天下午


第二章

机器学习及数据挖掘

常用技术


3)  常见聚类算法

a)  k-Means

b)  层次聚类

c)  DBSCAN

4)  聚类的研究进展及趋势

a)  大数据下的聚类算法

b)  Science上最新发表的聚类算法

c)  社交网络中的社区发现


第三天上午


第二章

机器学习及数据挖掘

常用技术


5)  回归算法

a)  线性回归

b)  Logistic回归

c)  岭回归

d)  Lasso回归

6)  回归的研究进展及趋势

a)  树回归

b)  支持向量回归


第三天下午


第二章

机器学习及数据挖掘

常用技术


7)  推荐算法

a)  基于内容的推荐

b)  基于协同的推荐

8)  推荐的研究进展及趋势

c)  社交化推荐


第四天上午


第三章

数据挖掘实战1

大数据基础应用之

分类问题:垃圾邮件过滤


1)  实验环境

a)  开发语言

b)  软件包

2)  问题定义

a)  目标

b)  可用数据

c)  预期输出

3)  算法分析

a)  贝叶斯方法回顾

b)  理论与应用结合

c)  算法应用过程

4) 数据预处理

a)  获取原始数据

b)  查看数据样本

c)  编写数据过滤程序

d)  获取训练样本与测试样本

5) 特征提取

a)  使用哪些特征?

b)  使用什么类型的特征?

c)  编写特征提取程序

6) 模型训练

a)  一般过程

b)  训练与测试

c)  参数化模型选择

d)  关于 overfitting 模型实验

e)  回顾


第四天下午


第三章

数据挖掘实战2

大数据基础应用之

回归问题:美国社区犯罪率预测


1) 实验环境

2) 问题定义

a)  目标

b)  可用数据

c)  预期输出

3) 算法分析

a)  回归方法回顾

b)  理论与应用结合

c)  算法应用过程

4) 数据预处理

a)  获取原始数据

b)  查看数据样本

c)  编写数据过滤程序

d)  获取训练样本与测试样本

5) 模型训练

a)  一般过程

b)  训练与测试

c)  参数化模型选择

d)  关于 overfitting 模型实验

e)  回顾


第三章

数据挖掘实战3

分布式计算: 大数据基础设施


1)  分布式环境简介

a)  分布式环境的基石

b)  Apache Hadoop生态环境

2)  分布式计算举例

a)  Mapreduce原理

b)  WordCount: 基本案例

c)  WordMedian: WordCount的深化

d)  计算π值:统计学与大数据

e)  分布式Naïve Bayes:从单机小数据到分布式大数据


第三章

数据挖掘实战4

大数据应用问题


1)  大数据在实际场景中面临的问题与挑战

2)  大数据系统方案选型

3)  大数据应用常见误区


第五天上午


实践教学

中国科学院计算技术研究所网络数据科学与技术重点实验室

网络数据科学与技术重点实验室致力于面向网络空间的大规模数据感知与获取、存储与管理、分析与挖掘等方面的基础理论、关键技术与应用系统的研究工作。研究方向包括网络数据复杂性与数据计算理论、网络空间感知与数据表示、大数据存储与管理、网络数据挖掘和社会化计算、网络数据管理引擎相关技术、大数据与信息安全等,以此支撑国家网络空间战略性任务,并推动网络数据的产业发展。

 

时间: 2024-10-19 17:09:10

数据挖掘与机器学习技术探索培训的相关文章

Python数据挖掘与机器学习技术入门实战

摘要: 什么是数据挖掘?什么是机器学习?又如何进行Python数据预处理?本文将带领大家一同了解数据挖掘和机器学习技术,通过淘宝商品案例进行数据预处理实战,通过鸢尾花案例介绍各种分类算法. 课程主讲简介:韦玮,企业家,资深IT领域专家/讲师/作家,畅销书<精通Python网络爬虫>作者,阿里云社区技术专家. 以下内容根据主讲嘉宾视频分享以及PPT整理而成. 本次课程包含了五个知识点:1.数据挖掘与机器学习技术简介 2.Python数据预处理实战 3.常见分类算法介绍 4.对鸢尾花进行分类案例实

数据挖掘与机器学习——weka应用技术与实践

第一章 weka介绍 1.1 weka简介 weka是怀卡托智分析环境(Waikato Environment for Knowledge Analysis)的英文缩写,官方网址为:<http://www.cs.waikato.ac.nz/ml/weka/>,在该网站可以免费下载可运行软件和代码,还可以获得说明文档.常见问题解答.数据集和其他文献等资源. 1.1.1 Weka的历史 团队宣称:我们的目标是要建立最先进的软件开发机器学习技术,并将其应用于解决现实世界的数据挖掘问题.目标:是机器学

推荐数据挖掘入门教材《数据挖掘与机器学习 WEKA应用技术与实践》

该书由于去年刚出比较新,所以很难在网上下载到电子书,本人很幸运找到了前两章的电子版,而第二章又是本书的关键,所以建议大家先看看第二章,如果觉的写的好,可以再买书,或寻求电子版的全书,下载前两章请到:http://download.csdn.net/detail/u010968153/8686369 图书简介: 本书借助代表当今数据挖掘和机器学习最高水平的著名开源软件Weka,通过大量的实践操作,使读者了解并掌握数据挖掘和机器学习的相关技能,拉近理论与实践的距离.全书共分8章,主要内容包括Weka

数据挖掘与机器学习介绍

数据挖掘 1.定义: 数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术. 2.数据挖掘与机器学习的关系: 机器学习可以用来作为数据挖掘的一种工具或手段: 数据挖掘的手段不限于机器学习,譬如还有诸如统计学等众多方法: 但机器学习的应用也远不止数据挖掘,其应用领域非常广泛,譬如人工智能: 机器学习 1.定义: 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸

机器学习技术在达观数据的实践

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测.支付平台的欺诈交易监测等等.达观数据技术团队长期以来一直致力于钻研和积累各种大数据技术,曾获得cikm2014数据挖掘竞赛冠军,也开发过智能文本内容审核系统.作弊监测系统.用户建模系统等多个基于大数据技术的应用系统.机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享(达观数据联合创始人 纪传俊) CIK

了解微软开源核心机器学习技术DMTK

还记得11月9日Google Research推出第二代开源机器学习软件库TensorFlow吧,谷歌称在建立和训练神经网络方面,TensorFlow速度要比第一代系统快5倍,可支持 CPU.GPU.桌面机.服务器和移动计算等平台.TensorFlow吸引了开发者广泛的眼球. 就在同一天,微软亚洲研究院也开源了分布式机器学习工具包DMTK.开源版DMTK包含了目前世界上最大规模的主题模型和分布式词向量模型,据称比同类模型高了好几个数量级.以至于有开发者惊呼,怎么微软也能把这样的核心技术给开源了?

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

SPSS Modeler数据挖掘项目实战(数据挖掘、建模技术)

SPSS Modeler是业界极为著名的数据挖掘软件,其前身为SPSS Clementine.SPSS Modeler内置丰富的数据挖掘模型,以其强大的挖掘功能和友好的操作习惯,深受用户的喜爱和好评,成为众多知名企业在数据挖掘项目上的软件产品选择. 本课程以SPSS Modeler为应用软件,以数据挖掘项目生命周期为线索,以实际数据挖掘项目为例,讲解了从项目商业理解开始,到最后应用Modeler软件实现的挖掘过程. 作为数据挖掘项目的重要干系人,数据挖掘专家需要对数据挖掘项目的生命周期.整体管理

数据挖掘和机器学习

机器学习: 是人工智能的核心研究领域,目前把他定义为:利用经验来改善计算机系统性能. 对于“经验”,实际上在计算机中,“经验”是以数据的形式存在的,所以机器学习需要对数据进行分析运用.     提高泛化能力(generalization ability)是机器学习中最重要的问题之一.泛化能力表征了机器学习系统对新事件的适应能力,简单来说泛化能力越强,系统对事件做出的预测就越准确. 数据挖掘: “数据挖掘”和“知识发现”通常被认为是一样的.在许多场合是可替代的术语. 数据挖掘顾名思义:从海量数据中