第一章 绪论

1.什么是数据挖掘

  数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

  VS  信息检索(information retrieval)

2.数据挖掘与知识发现

  数据挖掘是数据库中知识发现(knowledge Discovery  in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。

3.数据挖掘任务

  (1)预测任务

    这些任务的目标是根据其他属性的值,预测特定属性的值。

  (2)描述任务

    其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。

4.预测建模(predictive modeling)

  涉及以说明变量函数的方式为目标变量建立模型。

  有两类预测建模任务:

  分类(classification),用于预测离散的目标变量。

  回归(regression),用于预测连续的目标变量。

5.关联分析(association analysis)

  用来发现描述数据中关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效方式提取最有趣的模式。

6.聚类分析(cluster analysis)

  旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。

7.异常检测(anomaly detection)

  识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。

时间: 2024-12-20 07:12:32

第一章 绪论的相关文章

【深入理解Linux内核】《第一章 绪论》笔记

1.商用Unix操作系统包括: - AT&T公司开发的(System V Release 4) SVR4. - 加州伯克利分校发布的4.4BSD - Dec公司(现属于HP)的Digital Unix - IBM公司的AIX - HP公司的HP-UX - Sun公司的Solaris   - Apple公司的Mac OS X 所有商业版本都是SVR4或4.4BSD的变体,并且都趋向于遵循某些通用标准:如IEEE的POSIX(Portable Operating Systems based on U

数据结构期末复习第一章绪论

前言: 最近快期末了,复习下数据结构,下列习题和答案解析,大部分来源于网络,如有不对之处还请指出. 在这里,星云祝各位考生期末考试顺利,新年快乐! 第一章绪论 1. 数据结构是一门研究非数值计算的程序设计问题中计算机的(操作对象)以及它们之间的(关系)和(操作)的学科. 2. 下列关于数据结构的基本概念中,叙述正确的是( C ). A. 数据元素是数据的最小单位. B. 数据的逻辑结构是指数据的各数据项之间的逻辑关系. C. 任何一个算法的设计取决于选定逻辑结构,而算法的实现依赖于采用的存储结构

《软件开发工具》知识点-第一章绪论

第一章 绪论 1.软件开发工具的概念: 在高级程序设计语言基础上,为提高软件开发的质量和效率,从规划.分析.设计.测试.成文和管理各方面,对软件开发者提供各种不同程度的帮助的一类广泛的软件. 理解: (1)是在高级程序语言之后,软件技术进一步发展的产物 (2)目的是在开发软件过程中,给予不同方面.不同程度的支持和帮助. (3)它支持软件开发全过程,而不是仅限于某个特定的阶段 2.计算机软件发展的几个阶段: 四个阶段: (1)第一代计算机语言——机器语言阶段 (2)第二段计算机语言——汇编语言阶段

数据库系统概论学习笔记-第一章绪论

数据库系统概论-第一章绪论 写在前面:寒假来临,除却走亲戚和同学聚餐,王者荣耀等游戏上分花销一点时间之外,自认为要花一点时间学习数据库和Android,以此来为下学期和共建项目打下一丢丢的基础.为了鞭策自己,定了一个小目标( 一个亿),每个两至三天我会发表一篇数据库或Android学习笔记.还是那句话你的才华撑不住你的野心时,那就静下来学习吧 . 数据库系统概述 数据库常用的术语和基本概念 数据库基本概念 数据(Data) 数据是数据库中存储的基本对象,可以对数据做如下定义:描述事物的符号记录称

机器学习总结之第一章绪论

机器学习总结之第一章绪论 http://www.cnblogs.com/kuotian/p/6141728.html 1.2基本术语 特征向量:即示例,反映事件或对象在某方面的性质.例如,西瓜的色泽,敲声. 属性:例如 青绿 乌黑 清脆. 数据集:例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=浅白,根蒂=硬挺,敲声=清脆),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)-- 例如,D = {X1,X2,--,Xm}表示包含m个示例的数据集. Xi = (xi1:xi2:--:xid)每个示例有d个

【数据库原理】第一章 绪论

数据库原理 第一章   绪论 1.1   数据库系统概述 1.1.1      数据库的4个基本概念 1.数据 (1)数据是数据库中存储的基本对象 (2)数据:描述事物的符号记录,可以是数字.文字.图像等 (3)数据的含义称为数据的语意,数据与其语意密不可分 2.数据库 (1)数据库:长期储存在计算机内,有组织的.可共享的大量数据集合 (2)特点 <1>按照一定的数据模型组织.描述和存储 <2>具有较小的冗余度 <3>较高的数据独立性和易扩展性 <4>可为各

《机器学习》西瓜书 第一章 绪论

机器学习绪论 基本术语 基础 模型:泛指从数据中学得的结果 数据集 data set:一组记录的集合 示例 instance/样本 sample:关于一个事件或对象的描述 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项 属性值 attribute value:属性上的取值 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间 特征向量 feature vector:

[MOOC笔记]第一章 绪论(数据结构)

1.  计算 学习DSA的目的是实现有效的和高效的计算,同时在资源消耗的方面做到足够的低廉. 计算 = 信息处理:借助某些工具,遵照一定规则,以明确而机械的形式进行. 计算模型 = 计算机 = 信息处理工具 算法:在特定的计算模型下,旨在解决特定问题的指令序列. 算法的要素: 输入 待处理的信息(问题) 输出 经处理的信息(答案) 正确性 的确可以解决指定的问题 确定性 任一算法都可以描述为一个由基本操作组成的序列 可行性 每一基本操作都可实现,且在常数时间内完成 有穷性 对于任何输入,经有穷次

操作系统第一章绪论

第一节:存储程序式计算机 一.操作系统在计算机系统中的位置 1.计算机系统是由硬件和软件两部组成,软件又可以分为系统软件 应用软件 工具 软件等 而操作系统是所有软件中与硬件相邻的第一层软件. 2.操作系统对硬件实施控制和管理: 控制CPU的工作 访问储存器 设备 驱动 和 中断处理 3.与用户及应用程序之间的关系 提供方便点的用户界面 提供优质的服务 二.存储程序式计算机的结构 1.基本部件:控制器 运算器 存储器 输入装置 输出装置 2.特点:集中顺序过程控制---- 过程性:模拟人工操作过

补基础:自学:计算机科学导论 第一章 绪论

1.1 图灵模型 Alan Turing(阿兰·图灵) 在1937年首次提出了一个通用计算设备的设想,也就是图灵机. 1.1.1  数据处理器 计算机会被定义成一个数据处理器,用来输入数据.处理数据并产生输出数据的黑盒. 1.1.2可编程数据处理器 图灵模型在上面的图中添加了额外的元素--程序. 程序是用来告诉计算机对数据进行处理的指令合集. 此模型中,输出数据依赖两方面因素的结合作用 输入数据 程序 1.2 冯·诺依曼模型 1.2.1 4个子系统 存储器 用来存储的区域,在计算机的处理过程中存