2017.06.29 数据挖掘概念知识第一章

第一章
1、数据仓库技术:
1、数据清理 2、数据集成 3、联机分析处理
2、数据挖掘(知识发现)过程P5详见图
1、数据清理 2、数据集成 3、数据选择 4、数据变换
5、数据挖掘 6、模式评估 7、知识表示
3、大数据的特点:
1、量大 2、种类多 3、处理速度快 4价值密度低 5、复杂性
4、类与概念描述方法过程:
1、数据特征化 2、数据区分 3、数据特征化和区分
5、分类如何提供导出的模型:
导出的模型可以多种形式表示:分类规则、决策树、数学公式或神经网络
6、一个模型是有趣的:
1、易于被人理解 2、在某种确信度上,对于新的或检验数据是有效的
3、是潜在有用的 4、是新颖的
7、数据挖掘系统能够产生所有有趣的模式吗?
涉及数据挖掘算法的完全性,期望数据挖掘系统产生所有可能的模式通常是不现实的和低效的。实际上,应当根据用户提供的约束和兴趣度量对搜索聚焦。
8、数据挖掘系统能够 仅 产生有趣的模式吗
是数据挖掘优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统都更加有效,因为这样就不需要搜遍所产生的模式来识别真正有趣的模式。在这方面已经有了一些进展。然而,在数据挖掘中,这种优化仍然是个挑战。
9、数据挖掘使用的技术
1、统计学 2、机器学习 3、模式识别 4、数据库和数据仓库 5、信息检索
6、可视化 7、算法 8、高性能计算和许多应用领域的大量技术
10、机器学习:
1、监督学习 2、半监督学习 3、无监督学习 4、主动学习
11、数据仓库与数据库有何不同?他们有哪些相似之处
异同:
1、数据库是面向事务设计,数据仓库是面向主题
2、数据库一般储存在线交易数据,数据仓库存储的一般是历史数据
3、数据库设计时尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计有意引入冗余,采用反范式的方式来设计
4、数据库是为捕获数据而设计,数据仓库是为分析数据而设计
相同点:
他们都为数据挖掘提供了源数据,都是数据的组合
12、解释区分与分类、特征化与聚类、分类与回归之间的区别和相似之处
区分与分类:数据区分是将目标类书籍对象的一般特性与一个或多个对比类对象的一般特性进行比较;而分类则是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测
特征化与聚类:数据特征化是目标类数据的一般特性或特征的汇总,即在进行数据特征化时很清楚特征化的这些数据的特点是什么;而聚类则只是分析数据对象,按照“最大化类内相似度、最小化类间相似度”的原则进行聚类或分组
分类与回归:分类在第一点时已经说过;回归主要是建立连续值得函数模型,回归主要用来预测缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别
13、定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析(例子书本10-14)
数据特征化是目标类数据的一般特性或特征的汇总
数据区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较
关联:发现关联规则这些规则表示一起频繁发生在给定数据集的特征值的条件
分类:找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号
回归:用来预测缺失的或难以获得的数据值
相关分析:在分类和回归之前进行,试图识别与分类和回归过程显著相关的属性
聚类:分析数据对象,而不考虑类标号
离群点分析:数据集中的一些数据对象与数据的一般行为或模型不一致
14、与挖掘少量数据(例如,几百个元组的数据集合)相比,挖掘海量数据(数十亿个元的
元组)主要挑战是什么?
1、 在挖掘海量数据时,如何去保护人们的隐私。
2、 海量数据一般存储在云上,如何保证数据的安全性
3、 如何在海量数据中快速的挖掘出感兴趣的模式;
4、 海量数据中挖掘出有趣的、有价值的模式之后,如何以可视化形式展现出来
15、描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战
1、涉及数据挖掘挑战自然是比较有深度、难度的数据挖掘,诸如交通拥堵、环境恶化、
能耗增加等三个领域,交通拥堵,可以通过GPS、北斗导航的定位系统进行定位,
将以上已知数据信息进行融合,加之一定的数据挖掘算法从而去解决交通拥堵问题。
将拥堵的情况动态的展现给司机则设计到了数据的可视化,那么如何将这些实时的
车流情况以及解决方式动态的呈现给司机则又是一大挑战
2、环境恶化、能耗增加:这两大难题在现实生活中同样表现得比较突出,但是仅从单
方面来讲,我们可以获取的信息也是比较充足的,比如气象条件、各项环境指标的
检测数据等等,那么如何将这些数据有效的融合并且提出有效的解决方案或者说是建立良好的数字模型则是摆在众多科研人员面前的一大挑战
16、挖掘方法:
1、挖掘各种新的知识类型 2、挖掘多维空间中的知识
3、数据挖掘——跨学科能力 4、提升网络环境下的发现能力
5、处理不确定性、噪声或不完全数据 6、模式评估和模式或约束指导的挖掘
17、比较数据挖掘算法时的两个考虑因素
1、数据挖掘算法的有效性和可伸缩性 2、并行、分布式和增量挖掘算法
18、用户界面
1、交互挖掘 2、结合背景知识
3、特定的数据挖掘和数据挖掘查询语言 4、数据挖掘结果的表示和可视化
19、面向什么类型的应用:
1、商务智能
2、web搜索引擎:(1)必须处理大量并且不断增加的数据
(2)web搜索引擎通常需要处理在线数据
(3)Web搜索引擎常常需要处理多次出现次数不多的查询
20、什么是数据仓库
一种用来长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称做OLAP

时间: 2024-12-26 08:47:13

2017.06.29 数据挖掘概念知识第一章的相关文章

2017.06.29数据挖掘基础概念第二.三章

第二章21.研究的属性类型标称属性:值是一些符号或事物的名称,代表某种类型.编码或状态二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)22.数据散布常见的度量量(数据如何分散的方法/识别离群点)极差 四分位数.四分位数极差.五数概括图.方差和标准差23.审视数据的图形条形.饼图.线图.分位数图.分位数-分位数图.直方图和散点图

2017.06.29数据挖掘基础概念第六,八,九章

第六章51.关联规则的挖掘的两个过程1.找出所有的频繁项集2.由频繁项集产生强关联规则52.频繁项集挖掘方法 1.Apriori算法 2.挖掘频繁项集的模式增长方法 3.使用垂直数据格式挖掘频繁项集53.提高Apriori算法的效率 1.基于散列的技术 2.事务压缩 3.划分 4.抽样 5.动态项集计数 第八章54.如何进行分类 数据的分类是一个两阶段过程,包括学习阶段和分类阶段. 在第一阶段,建立描述预先定义的数据类或概念集的分类器 在第二阶段,使用模型进行分类,首先评估分类器的预测准确率55

2017.06.29数据挖掘基础概念第十,十一章

第十章63.什么是聚类分析 一个把数据对象划分成子集的过程.每一个子集市一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似.由聚类分析产生的簇的集合称做一个聚类.64.数据挖掘对聚类的要求 1.可伸缩性 2.处理不同属性类型的能力 3.发现任意形状的簇 4.对于确定输入参数的领域知识的要求 5.出来噪声数据的能力 6.增量聚类和对输入次序不敏感 7.聚类高维数据的能力 8.基于约束的聚类 9.可解释性和可用性 10.划分准则 11.簇的分离性 12.相似性度量 13.聚类空间65.基本聚类

2017.06.29数据挖掘基础概念第四章

第四章39.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行 1.提高两个系统的性能 2.操作数据库支持多事务的并发处理,需要并发控制和恢复机制,确保一致性和事务的鲁棒性 3.两者有着不同的数据的结构.内容和用法40.什么是数据仓库 数据仓库是一种数据库,它与单位的操作数据库分别维护,数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持,是一个面向主题的.集成的.时变得.非易失的数据集合,支持管理者

excel 小知识-------第一章

如何修改excel默认的字体: office 2007方式:  "页面布局"----"主题"------"有文字的那个按钮"如下图所示: 2.设置 表格边框 方式: 在"单元格"点击"右键"---"设置单元格格式"-----"边框"如下图所示: 3. excel 小知识-------第一章,布布扣,bubuko.com

Work 2(演讲类) (2017.06.29)

2017上半年软考 第一章 重要知识点

第一章 信息化的知识,具体讲了:重要的知识点是: 融合,信息技术和工业制造深度融合.人和机器的融合.信息资源和材料资源的融合 :信息论奠基者:香农: 信息的传输技术是信息技术的核心: 恰当的冗余编码可以在信息收到噪声侵扰时被恢复: 信息系统的基本规律应包括信息的度量.信源特性饿信源编码.信道特性和新到编码.检测理论.估计理论以及密码学: 信息系统特性:目的性.可嵌套行性.稳定性.开放性.脆弱性.健壮性: 信息系统生命周期:立项[规划].开发[分析.设计.实施].运维.消亡: 信息化层次:产品信息

高项3.7日第一次课,第一章信息化基础知识与第二章信息系统服务管理梳理

第一章 信息化的基础知识 1.国家信息化体系要素: 主要包括6要素,信息技术应用(龙头).信息资源(关键).信息网络(必要手段).信息技术产业(基础).信息化人才(成功之本).信息化法规政策和规范(保障). 2.电子政务: 电子政务建设的指导原则: (1)统一规划,加强领导. (2)需求主导,突出重点. (3)统一规划,拉动产业. (4)统一标准,保障安全. 主要任务: (1)电子政务网络由政务内网和政务外网构成,两网之间物理隔离,政务外网与互联网之间逻辑隔离.政务内网主要是副省级以上政务部门的

知识图谱文献综述(第一章)

既然决定了以知识图谱作为研究方向,文献综述是必不可少的. 本文主要总结<知识图谱发展报告(2018)-中国中文信息学会> 1. 知识图谱的研究目标与意义 (略) 2. 知识工程的发展历程 3. 知识图谱技术 人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将 人们对世界认知联系在一起的纽带.知识图谱以结构化的形式描述客观世界中概 念.实体及其关系.实体是客观世界中的事物,概念是对具有相同属性的事物的 概括和抽象.本体是知识图谱的知识表示基础,可以形式化表示为,O={C,H, P