第二章:数据挖掘概述

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等

2.1数据挖掘的发展历史

.....

2.2数据分析与数据挖掘的主要区别

相对于传统的统计分析技术,数据挖掘有如下特点:

  • 数据挖掘擅长处理大数据(几十几百万行或者更多的数据)
  • 数据挖掘在实践应用中一般都会借助数据挖掘工具
  • 数据分析应用的趋势是用大型数据库中抓取数据

数据挖掘是统计分析技术的延伸和发展

数据挖掘和统计分析的差别:

统计分析的基础之一就是概率论,对数据进行统计分析需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性,数据挖掘应用中,不需要对数据发布做任何假设,数据挖掘中的算法会自动寻找变量间的关系,相对于海量数据数据挖掘有明显的应用优势

统计分析在预测中常常表现为一个或者一组函数关系式,数据挖掘在预测应用中重点在于预测结果,很多时候不会从结果中产生明确的函数关系式,有时候不知道那些变量起作用,如何起作用

2.3数据挖掘的主要成熟技术以及在数据化运营中的主要应用

2.3.1决策树:是一种非常成熟、普遍采用的数据挖掘技术,建模过程类似树的成长过程,分析的数据样本先是集成为一个树根,经过层层分支,最终形成N个节点,每个节点代表一个结论

最常用的3种决策树算法分别是

  • CHAID(卡方自动相互关系检测):依据局部最优原则,利用卡方检验来选择对应变量最有影响的自变量,应用前提是因变量为类别型变量
  • CART(分类和回归树):依据总体最优原则,利用基尼系数等不纯度的指标
  • ID3(包括C4.5\C5.0)

CHAID和CART的区别:

CHAID局部最优原则,利用卡方检验来选择对应变量最有影响的自变量

CART依据总体最优原则,利用基尼系数等

2.4互联网行业数据挖掘应用的特点

原文地址:https://www.cnblogs.com/jp-mao/p/9778873.html

时间: 2024-08-01 03:51:27

第二章:数据挖掘概述的相关文章

【转载】Gradle学习 第二章:概述

转载地址:http://ask.android-studio.org/?/article/6 Here is a list of some of Gradle's features.<翻译>以下是关于Gradle特点的描述 Declarative builds and build-by-convention 宣言和公约At the heart of Gradle lies a rich extensible Domain Specific Language (DSL) based on Gro

大数据第二章hadoop概述

hadoop简介 hadoop是基于Java语言开发的,具有很好的跨平台性,并且可以部署在廉价的计算机群众,hadoop的核心是分布式文件系统HDFS(hadoop distributed file system)和mapreduce,HDFS具有较高的读写速度和和好的容错性和可伸缩性并且具有大规模的数据分布存储性以及较高的安全性. MAPRDUCE是一套计算速度很快的计算模型. hadoop的特性 高可靠性 .高效性.高扩展性.高容错性.成本低.支持多种语言.跨平台性. hadoop的生态系统

Delphi知识点与技术概述【第二章 核心类库】

第三章 核心类库 Delhpi可视化编程依赖于庞大的巨型类库.Delphi 标准类库包含了数百个类以及数以千计的方法. 内容提要: *RTL包.CLX与VCL CLX用作linux中,VCL用作Windows中 VCL是一个独立的大型库(组件,控件,非可视组件,数据集合,数据感应控件,等等). 库的核心非可视化组件与类属于RTL包. Vcl结构: CLX结构: BaseCLX VisualCLX DateCLX NetCLX 库的VCL专用部分: VCL还提供了Windows专用的: Delph

用 WEKA 进行数据挖掘——第二章: 回归

回归 回归是最为简单易用的一种技术,但可能也是最不强大(这二者总是相伴而来,很有趣吧).此模型可以简单到只有一个输入变量和一个输出变量(在 Excel 中称为 Scatter 图形,或 OpenOffice.org 内的 XYDiagram).当然,也可以远比此复杂,可以包括很多输入变量.实际上,所有回归模型均符合同一个通用模式.多个自变量综合在一起可以生成一个结果 — 一个因变量.然后用回归模型根据给定的这些自变量的值预测一个未知的因变量的结果. 每个人都可能使用过或看到过回归模型,甚至曾在头

《TCP/IP详解 卷1:协议》读书笔记(第一章 概述 &amp; 第二章 链路层)

第一章 概述 TCP/IP协议族:四层协议系统 链路层(数据链路层.网络接口层)设备驱动程序和网络接口卡. 网络层(互联网层)处理分组在网络中的活动,点对点服务.IP.ICMP.IGMP 运输层提供端对端通信.TCP.UDP 应用层处理应用程序细节.Telnet.FTP.SMTP.SNMP 部分概念 构造互联网最简单的方法是把两个或多个网络通过路由器(Router)进行连接.路由器的好处是为不同类型的物理网络提供连接:以太网.令牌环网.点对点的链接等等. 网络层IP协议提供的是一种不可靠的服务.

[Learn Android Studio 汉化教程]第二章:Android Studio概述(一)

[Learn Android Studio ]第二章:Android Studio概述(一) Android Studio是一个视窗化的开发环境.为了充分利用有限的屏幕空间,不让你束手束脚,Android Studio 在特定的时间仅仅显示一小部分可用窗口.除了一些上下文敏感的窗口和上下文相关的窗口显示出来外,其他的仍旧隐藏,除非你主动打开它们.或者相反,一些可见的窗口直到你主动隐藏它们.为了充分利用Android Studio,你就需要明白这些窗口的功能以及如何.何时去显示它们.在这一章,我们

Delphi知识点与技术概述【第二章 运行时库(RTL)】

内容提要: *RTL概述 运行时库简称RTL,是一个非常庞大的函数集合. RTL的单元 SysUtils与SySConst单元 Sysconst单元定义了一些由其他RTL单元显示消息的常量字符串,这些字符串用resourcestring关键字来声明,并保存在程序资源中.它一些特性我们经常使用,如:IntToStr或Format,windows版本信息等. 时间日期操作,不会引起异常. TryStrToDate 将字符串转换为日期 TryEncodeDate 对日期进行编码 TryEncodeTi

【C Primer Plus笔记】第二章 C语言概述

第二章主要通过分析一个简单的实例来介绍C语言. 一.程序细节内容 1 #include <stdio.h> 此语句的作用相当于在文件中该行所在的位置键入了文件stdio.h的完整内容.实际上是一种剪切和粘贴操作. #include语句是C预处理器指令(preprocessor directive)的一个例子.stdio.h文件作为所有C编译包的一部分提供,它包含了有关输入和输出函数的信息供编译器使用.这个名字代表标准输入输出头文件. 最重要的是头文件中包含了建立最终可执行程序时编译器需要用到的

C#本质论读书笔记:第一章 C#概述|第二章 数据类型

第一章 1.字符串是不可变的:所有string类型的数据,都不可变,也可以说是不可修改的,不能修改变量最初引用的数据,只能对其重新赋值,让其指向内存中的一个新位置. 第二章 2.1 预定义类型或基本类型: C#语言的基本类型包括8种整数类型,2种用于科学计算的二级制浮点类型,1种用于金融计算的十进制浮点类型,1种布尔类型以及一种字符类型. 2.1.1 整数类型: 要注意int32的范围,如果是要保存10位以上的数字编号的时候,要么使用string,要么使用int64,因为int32只能保存到10

集体智慧编程_第二章(提供推荐)_1

前言:最近正在拜读Toby Segaran先生写的集体智慧编程,首先感谢Toby Segaran先生将知识以书本的方式传播给大家,同时也感谢莫映和王开福先生对此书的翻译,谢谢各位的不辞辛苦.首先在写随笔之前,跟各位分享一下我的编程环境:win7系统,python版本是2.7.10,开发环境我选择的是pycharm程序.本书的第一章为集体智慧导言,主要介绍的何为集体智慧和机器学习的相关概念和其局限性,以及与机器学习相关的例子和应用场景.下面开始机器学习第二章--提供推荐的相关内容. 本章主要内容: