《大话数据挖掘》学习笔记——案例教学法

"我们沉浸在数据的海洋里,却渴望着知识的淡水。"

数据挖掘的最高境界就是“从数据中获取知识,辅助科学决策”。

历史使命:“建设创新型国家”

第一章

故事一:课外知识:

    萨姆。沃尔顿(沃尔玛创始人)

  (1)服务理念:“日落原则”、“十英尺态度”、“三米微笑”。

  (2)营销策略:“女裤理论”(薄利多销)、”啤酒与尿布“(关联规则分析,数据挖掘经典案例)。

数据挖掘的含义(是什么):“从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程”。

  •   “不完全”的理解:不完全或缺失的数据(删除or补上or选择使用可以自动处理缺失数据的算法)
  •   “噪音”的理解:由于异常情况的干扰,是我们获得的数据偏离了真实值,这样的数据就是噪音数据。(实际问题中噪音(失误或误差造成的)往往难以避免)
  •   “模糊”“随机”的理解:在数据挖掘过程中,事物的不确定性(包括模糊性和随机性)往往不可避免。模糊性是指事物本身从属概念的不确定性,随机性是指事件发生与否的不确定性。(参考用书:《模糊集的应用》《概率统计》)

个人感悟:

在信息时代,人们的生产生活模式如下:“获取大量数据——对数据进行清洗预处理(去噪音干扰)等加工——(放入数据库等)储存清洗后的数据——查询所需数据——建立一套处理、分析、归纳数据规律的系统或模型——运用建立的模型在同一领域或不同领域进行结果预测或分析(通过增加、删除或改变一些系统或模型原有的规律,使其具有领域自适应性)——将得到的结果应用于决策中”。

数据挖掘产生和发展

数据挖掘的功能(能够干什么)

数据挖掘技术(及应用)

数据挖掘方法及常用算法:

关联规则

聚类分析

预测(分类和回归)

时间序列

第二章

时间: 2024-10-08 07:30:23

《大话数据挖掘》学习笔记——案例教学法的相关文章

大话设计模式学习笔记——面向对象基础

前言 好记性不如烂"笔头"系列--大话设计模式学习笔记 目录 面向对象基础 面向对象基础 什么是类与实例 一切事物皆为对象,即所有的东西老师对象,对象就是可以看到.感觉到.听到.触摸到.尝到.或闻到的东西.准确地说,对象是一个自包含的实体,用一组可识别的特性和行为来标识.面向对象编程,英文叫 Object-Oriented Programming,其实就是针对对象来进行编程的意思.类就是具有相同属性和功能的对象的抽象集合.实例就是一个真实的对象.比如我们属于'人'类,而个人就是'人'类

数据挖掘学习笔记一:引论

数据挖掘(又称从数据中发现知识,KDD) 例1.1 数据挖掘把大型数据集转换成知识.Google的Flu Trends(流感趋势)使用特殊的搜索项作为流感活动的指示器.它发现了搜索流感相关信息的人数与实际具有流感症状的人数之间的紧密联系.当与流感相关的所有搜索都聚集在一起时,一个模式就出现了.使用聚集的搜索数据,Google的Flu Trends可以比传统的系统早两周对流感活动作出评估. 数据挖掘 == 数据中的知识发现.只是发现的过程由一下步骤的迭代序列组成: 数据清理(消除噪声和删除不一致数

大话设计模式学习笔记

大话设计模式笔记 1. 使用简单工厂模式(使用反射可以解决避免分支判断问题) 注重创建不同的对象 2. 使用策略模式处理 不同的时间应用不同的业务规则 3. 单一原则:一个类仅有一个变化的原因  发现职责并把职责分离 4. 开放-封闭原则:软件实体可以扩展但不能修改  对扩展开放 对更改封闭 开发人员对程序中呈频繁变化的那部分做出抽象 5. 依赖倒转原则: A.高层模块不应依赖底层模块.两者都应该依赖抽象. B.抽象不应该依赖细节,细节应该依赖于抽象.即针对接口编程, 不应针对实现编程. 里氏替

数据挖掘学习笔记 多维数据模型-数据立方体

多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing). 其中,每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值,如count或sum.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据. <数据挖掘:概念与技术>中例举如下模型 数据立方体允许以多维数据建模和观察.它由维和事实定义.维是关于一个组织想要记录的视角或观点.每个维都有一

[大话设计模式]学习笔记——简单工厂模式

序 说好的每天进步一点点的,结果工作太忙,一直在加班,都没有学习新东西.我还要进BAT呢. 坚持每天学习新东西. 写代码时,意识到在代码结构上还是有点欠缺.赶紧补上. 纪录对设计模式的认识.小菜变大鸟.进攻BAT. 应用场景: 编写一个计算器控制台程序,要求输入两个数和运算符号,得到结果. 这本书使用C#写的.已有博主用JAVA写出来,参考:http://blog.csdn.net/ghsau/article/details/8163418 常见的做法: 写一个方法封装计算机的功能,我们只需传参

数据挖掘学习笔记:分类器(二)

人工神经网络(ANN) ANN是有相互连接的结点和有项链构成. (1)感知器.感知器的一般模型如下所示

大话存储学习笔记(5)

九.磁盘阵列 1.关于LUN LUN是SCSI ID的更细一级的地址号,每个SCSI ID下有更多的LUN ID.对大型磁盘阵列来说,可以生产几百几千个虚拟磁盘,为每个磁盘分配一个SCSI ID是远远不够的.因为每个SCSI总线最多允许16个设备接入(目前32位SCSI标准可以接入32个).LUN是一个次级寻址ID.磁盘阵列可以在一个SCSI ID下虚拟多个LUN地址,每个LUN对应一个虚拟磁盘.硬件层次生成的虚拟磁盘,称为LUN:软件生成的虚拟磁盘,称为卷. 2.双控制器的磁盘阵列 如果盘阵内

数据挖掘——学习笔记:关联规则挖掘

一.概念 关联规则挖掘:从食物数据库.关系数据库等大量数据的项集之间发现有趣的.频繁出现的模式.关联和相关性. 关联规则的兴趣度度量:support.confidence K-项集:包含K个项的集合 项集的频率:包含项集的事务数 频繁项集:如果项集的频率大于最小支持度*事务总数,则该项集成为频繁项集 二.关联规则挖掘的分类 1.根据规则中所处理的值类型:布尔关联规则.量化关联规则 2.根据规则中涉及的数据维:单维关联规则.多维关联规则 3.根据规则所涉及的抽象层:单层关联规则.多层关联规则 4.

大话存储学习笔记(1)

一.存储历史 二.计算机IO 1.什么叫IO I表示in,对于CPU来说,从内存中取数据:O表示out,CPU运算完后将数据发送至内存 同理,对于磁盘来说,将数据写入磁盘表示in,将输入从磁盘读出来叫out 2.总线 PCI总线:一种南桥与外设连接的总线技术 PCI总线特点:中断共享,即不同设备使用同一中断而不发生冲突.硬件上采用电平触发:软件上采用中断链,即,假设系统启动时,发现板卡A用了中断7,就会将中断7对应的内存区指向A卡对应的中断服务程序入口ISR_A:系统发现板卡B也用了中断7,这是