零基础学习大数据挖掘的33个知识点整理

下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下。

  1. 数据、信息和知识是广义数据表现的不同形式。
  2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识
  3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘
  4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。
  5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型
  6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

  1. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。
  2. 从使用的主要技术上看,可以把分类方法归结为四种类型:

基于距离的分类方法

决策树分类方法

贝叶斯分类方法

规则归纳方法

  1. 关联规则挖掘问题可以划分成两个子问题:

发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。

生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。

  1. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:

数据库等信息技术的发展

统计学深入应用

人工智能技术的研究和应用

  1. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:

准确性:挖掘出的规则必须反映数据的实际情况。

实用性:挖掘出的规则必须是简洁可用的。

新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。

  1. 约束的常见类型有:

单调性约束;

反单调性约束;

可转变的约束;

简洁性约束.

  1. 根据规则中涉及到的层次,多层次关联规则可以分为:

同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。

层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规

  1. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。

划分法:基于一定标准构建数据的划分。

属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

层次法:对给定数据对象集合进行层次的分解。

密度法:基于数据对象的相连密度评价。

网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。

模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

  1. 类间距离的度量主要有:

最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。

最长距离法:定义两个类中最远的两个元素间的距离为类间距离。

中心法:定义两类的两个中心间的距离为类间距离。

类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平方和。

  1. 层次聚类方法具体可分为:

凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。

分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。

层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。

  1. 文本挖掘(TD)的方式和目标是多种多样的,基本层次有:

关键词检索:最简单的方式,它和传统的搜索技术类似。

挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。

信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。

自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。

  1. 在web访问挖掘中常用的技术:

路径分析

路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。

关联规则发现

使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。

序列模式发现

在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。

分类

发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。

聚类

可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。

  1. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:

数据挖掘查询语言:希望以一种像SQL这样的数据库查询语言完成数据挖掘的任务。

数据挖掘建模语言:对数据挖掘模型进行描述和定义的语言,设计一种标准的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循。

通用数据挖掘语言:通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言标准化是目前解决数据挖掘行业出现问题的颇具吸引力的研究方向。

  1. 规则归纳有四种策略:减法、加法,先加后减、先减后加策略。

减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。

加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。

先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件。

先减后加策略:道理同先加后减,也是为了处理属性间的相关性。

  1. 数据挖掘定义有广义和狭义之分。

从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。

从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。

  1. web挖掘的含义: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。
  2. K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
  3. K-means算法的性能分析:

主要优点:

是解决聚类问题的一种经典算法,简单、快速。

对处理大数据集,该算法是相对可伸缩和高效率的。

当结果簇是密集的,它的效果较好。

主要缺点

在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。

必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。

不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。

  1. ID3算法的性能分析:

ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。

ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。

ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。

  1. Apriori算法有两个致命的性能瓶颈:

多次扫描事务数据库,需要很大的I/O负载

对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。

可能产生庞大的侯选集

由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a基于数据分割的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

  1. 改善Apriori算法适应性和效率的主要的改进方法有:

基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于散列的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于采样的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。

其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

  1. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:

异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。

数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。

动态变化的应用环境:

Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。

这种高变化也体现在页面的动态链接和随机存取上。

Web上的用户是难以预测的。

Web上的数据环境是高噪音的。

  1. 简述知识发现项目的过程化管理I-MIN过程模型。

MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。

IM1任务与目的:它是KDD项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中。

IM2任务与目的:它是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目标数据。

IM3任务与目的:它是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识(Knowledge Concentrate),为最终用户提供可使用的模型。

IM4任务与目的:它是KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。

IM5任务与目的:它是KDD的知识表示阶段,按指定要求形成规格化的知识。

IM6任务与目的:它是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。

  1. 改善Apriori算法适应性和效率的主要的改进方法有:

基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。

其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

  1. 数据分类的两个步骤是什么?

建立一个模型,描述预定的数据类集或概念集

数据元组也称作样本、实例或对象。

为建立模型而被分析的数据元组形成训练数据集。

训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。

通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。

使用模型进行分类

首先评估模型(分类法)的预测准确率。

如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。

  1. web访问信息挖掘的特点:

Web访问数据容量大、分布广、内涵丰富和形态多样

一个中等大小的网站每天可以记载几兆的用户访问信息。

广泛分布于世界各处。

访问信息形态多样。

访问信息具有丰富的内涵。

Web访问数据包含决策可用的信息

每个用户的访问特点可以被用来识别该用户和网站访问的特性。

同一类用户的访问,代表同一类用户的个性。

一段时期的访问数据代表了群体用户的行为和群体用户的共性。

Web访问信息数据是网站的设计者和访问者进行沟通的桥梁。

Web访问信息数据是开展数据挖掘研究的良好的对象。

Web访问信息挖掘对象的特点

访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。

访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。

每个页面的内容可以被抽象出不同的概念,访问顺序和访问量部分决定概念。

用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。

  1. web页面内文本信息的挖掘:

挖掘的目标是对页面进行摘要和分类。

页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。

页面分类:分类器输入的是一个Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一个新输入的页面。

{在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:

每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。

每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次,那么其值就为k;页面中的词如果不出现在列集上,可以被放弃。这种方法可以表征出页面中词的频度。

对中文页面来说,还需先分词然后再进行以上两步处理。

这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法进行分类挖掘。

在挖掘之前,一般要先进行特征子集的选取,以降低维数。

数据分析 9月17日

下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下。

  1. 数据、信息和知识是广义数据表现的不同形式。
  2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识
  3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘
  4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。
  5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型
  6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。
  7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。
  8. 从使用的主要技术上看,可以把分类方法归结为四种类型:

基于距离的分类方法

决策树分类方法

贝叶斯分类方法

规则归纳方法

  1. 关联规则挖掘问题可以划分成两个子问题:

发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。

生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。

  1. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:

数据库等信息技术的发展

统计学深入应用

人工智能技术的研究和应用

  1. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:

准确性:挖掘出的规则必须反映数据的实际情况。

实用性:挖掘出的规则必须是简洁可用的。

新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。

  1. 约束的常见类型有:

单调性约束;

反单调性约束;

可转变的约束;

简洁性约束.

  1. 根据规则中涉及到的层次,多层次关联规则可以分为:

同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。

层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规

  1. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。

划分法:基于一定标准构建数据的划分。

属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

层次法:对给定数据对象集合进行层次的分解。

密度法:基于数据对象的相连密度评价。

网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。

模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

  1. 类间距离的度量主要有:

最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。

最长距离法:定义两个类中最远的两个元素间的距离为类间距离。

中心法:定义两类的两个中心间的距离为类间距离。

类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平方和。

  1. 层次聚类方法具体可分为:

凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。

分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。

层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。

  1. 文本挖掘(TD)的方式和目标是多种多样的,基本层次有:

关键词检索:最简单的方式,它和传统的搜索技术类似。

挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。

信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。

自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。

  1. 在web访问挖掘中常用的技术:

路径分析

路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。

关联规则发现

使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。

序列模式发现

在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。

分类

发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。

聚类

可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。

  1. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:

数据挖掘查询语言:希望以一种像SQL这样的数据库查询语言完成数据挖掘的任务。

数据挖掘建模语言:对数据挖掘模型进行描述和定义的语言,设计一种标准的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循。

通用数据挖掘语言:通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言标准化是目前解决数据挖掘行业出现问题的颇具吸引力的研究方向。

  1. 规则归纳有四种策略:减法、加法,先加后减、先减后加策略。

减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。

加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。

先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件。

先减后加策略:道理同先加后减,也是为了处理属性间的相关性。

  1. 数据挖掘定义有广义和狭义之分。

从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。

从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。

  1. web挖掘的含义: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。
  2. K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
  3. K-means算法的性能分析:

主要优点:

是解决聚类问题的一种经典算法,简单、快速。

对处理大数据集,该算法是相对可伸缩和高效率的。

当结果簇是密集的,它的效果较好。

主要缺点

在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。

必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。

不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。

  1. ID3算法的性能分析:

ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。

ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。

ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。

  1. Apriori算法有两个致命的性能瓶颈:

多次扫描事务数据库,需要很大的I/O负载

对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。

可能产生庞大的侯选集

由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a基于数据分割的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

  1. 改善Apriori算法适应性和效率的主要的改进方法有:

基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于散列的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于采样的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。

其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

  1. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:

异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。

数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。

动态变化的应用环境:

Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。

这种高变化也体现在页面的动态链接和随机存取上。

Web上的用户是难以预测的。

Web上的数据环境是高噪音的。

  1. 简述知识发现项目的过程化管理I-MIN过程模型。

MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。

IM1任务与目的:它是KDD项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中。

IM2任务与目的:它是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目标数据。

IM3任务与目的:它是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识(Knowledge Concentrate),为最终用户提供可使用的模型。

IM4任务与目的:它是KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。

IM5任务与目的:它是KDD的知识表示阶段,按指定要求形成规格化的知识。

IM6任务与目的:它是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。

  1. 改善Apriori算法适应性和效率的主要的改进方法有:

基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。

其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

  1. 数据分类的两个步骤是什么?

建立一个模型,描述预定的数据类集或概念集

数据元组也称作样本、实例或对象。

为建立模型而被分析的数据元组形成训练数据集。

训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。

通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。

使用模型进行分类

首先评估模型(分类法)的预测准确率。

如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。

  1. web访问信息挖掘的特点:

Web访问数据容量大、分布广、内涵丰富和形态多样

一个中等大小的网站每天可以记载几兆的用户访问信息。

广泛分布于世界各处。

访问信息形态多样。

访问信息具有丰富的内涵。

Web访问数据包含决策可用的信息

每个用户的访问特点可以被用来识别该用户和网站访问的特性。

同一类用户的访问,代表同一类用户的个性。

一段时期的访问数据代表了群体用户的行为和群体用户的共性。

Web访问信息数据是网站的设计者和访问者进行沟通的桥梁。

Web访问信息数据是开展数据挖掘研究的良好的对象。

Web访问信息挖掘对象的特点

访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。

访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。

每个页面的内容可以被抽象出不同的概念,访问顺序和访问量部分决定概念。

用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。

  1. web页面内文本信息的挖掘:

挖掘的目标是对页面进行摘要和分类。

页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。

页面分类:分类器输入的是一个Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一个新输入的页面。

{在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:

每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。

每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次,那么其值就为k;页面中的词如果不出现在列集上,可以被放弃。这种方法可以表征出页面中词的频度。

对中文页面来说,还需先分词然后再进行以上两步处理。

这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法进行分类挖掘。

在挖掘之前,一般要先进行特征子集的选取,以降低维数。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

原文地址:http://blog.51cto.com/14042734/2314214

时间: 2024-08-29 00:26:19

零基础学习大数据挖掘的33个知识点整理的相关文章

零基础学习大数据需要掌握的基础

大数据已经成为时代发展的趋势,很多人纷纷选择学习大数据,想要进入大数据行业.大数据技术体系庞大,包括的知识较多,系统的学习大数据可以让你全面掌握大数据技能.学习大数据需要掌握哪些知识? 我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,不定期分享干货,包括我整理的一份适合零基础学习大数据资料和入门教程. 1.学习大数据首先要学习Java基础 怎样进行大数据学习的快速入门?学大数据课程之前要先学习一种计算机编程语言.Java是

零基础学习大数据之前,你不得不面对的几个问题

大数据作为当前前景广阔.薪资优渥的新兴行业,很多零基础者也萌生了想要学习大数据的想法,随之而来的,就会产生诸如我不是计算机专业到底能不能学大数据?我到底适不适合学大数据技术?大数据到底要学什么?等等一系列问题.下面我们就从零基础学习大数据的角度,来说一说学习前需要考虑的问题. 首先说一下学习大数据的基本要求,学历需要在大专及以上,因为这是企业用人时需求的最低学历要求,学习者年龄最好在20-32岁比较适宜,如果不在这个年龄段内,恐怕就需要根据个人实际情况具体分析了. 作为零基础者在学习大数据前,尤

零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台.今天加米谷大数据就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备.狭义上,Hadoop就是单独指代Hadoop这个软件: 广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件. Hadoop的起源 1.2001年,Nutch问世.Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,但随着抓取

零基础学习大数据的完整学习路线

最近很多人都想学习大数据开发,但是却不知道如何开始学习,今天软妹子专门整理了一份针对大数据初学者的大数据开发学习路线. 下面分十个章节来说明大数据开发要学习的内容: 以上就是一个大数据新手,想要学会大数据开发,需要学习的内容,大数据学习是一个持续的过程,只要用心学,没有学不会的东西哦!我要推荐下我自己建的大数据开发学习群:119599574,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享都是学大数据开发的,如果你正在学习大数据,欢迎初学和进阶中的小伙伴.

零基础学习大数据人工智能,学习路线篇!

大数据处理技术怎么学习呢?首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后. 大数据学习群:870097548 Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经成为了语言排行第一名. 分享之前推荐一个大数据学习交流群:870097548未来将是大数据时代,需要学习大数据的抓紧时间学习,群内不定期分享视频资料,欢迎加入 从学习难易度来看,作为一个为“优雅”而生的语言,Python语法简捷而清晰,对底层做了很好的封装,是一

零基础学习大数据怎样入门Spark

1.什么是Spark Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势,一起来看看吧. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Spark可以将Hadoop集

零基础学习web前端,大神给你们指路

随着web前端的飞速发展,学习web前端的人员也是越来越多,在移动 互联网 时代,相信我们每个人的手机上都装有数十个APP,这些APP的开发其实也和当下热门的 Web 前端开发息息相关. 事实上,如今一半以上的APP都是采用Hybrid混合模式开发,即结合安卓和Web端技术开发.而纯 Web开发 的APP也不在少数,比如我们众所周知的 QQ 空间就是使用 Web前端 的React Native技术开发.除了APP,我们在手机端常看到的H5页面,也是主要运用了Web端的 HTML5 技术开发. 当

零基础学习Mahout之一:搭建单机环境

一.Mahout是什么? Mahout是Apache的一个开源项目(http://mahout.apache.org/),提供了机器学习领域的若干经典算法,以便开发人员快速构建机器学习和数据挖掘方面的应用. Mahout是基于Hadoop的.从名称上看也很有意思,Hadoop是一个大象的名字,而Mahout则是象夫.看象人,可见二者联系之紧密.(这让我自然联想到Sun和Eclipse...) 我此时是一个完全没用过Mahout的门外汉,对Hadoop也没有实际使用经验,算是真正的零基础.我的目标

salesforce零基础学习(八十九)使用 input type=file 以及RemoteAction方式上传附件

在classic环境中,salesforce提供了<apex:inputFile>标签用来实现附件的上传以及内容获取.salesforce 零基础学习(二十四)解析csv格式内容中有类似的使用此标签进行解析附件内容,后台只要声明String类型变量用来存储附件名称,Blob类型变量用来存储附件的内容即可. 但是当我们的项目整体使用第三方的前端框架,例如VUE或者angular等前端框架时,有时使用apex:inputFile反而不是很方便,需要用到html的原生的附件上传的标签<inpu