"我们沉浸在数据的海洋里,却渴望着知识的淡水。"
数据挖掘的最高境界就是“从数据中获取知识,辅助科学决策”。
历史使命:“建设创新型国家”
第一章
故事一:课外知识:
萨姆。沃尔顿(沃尔玛创始人)
(1)服务理念:“日落原则”、“十英尺态度”、“三米微笑”。
(2)营销策略:“女裤理论”(薄利多销)、”啤酒与尿布“(关联规则分析,数据挖掘经典案例)。
数据挖掘的含义(是什么):“从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程”。
- “不完全”的理解:不完全或缺失的数据(删除or补上or选择使用可以自动处理缺失数据的算法)
- “噪音”的理解:由于异常情况的干扰,是我们获得的数据偏离了真实值,这样的数据就是噪音数据。(实际问题中噪音(失误或误差造成的)往往难以避免)
- “模糊”“随机”的理解:在数据挖掘过程中,事物的不确定性(包括模糊性和随机性)往往不可避免。模糊性是指事物本身从属概念的不确定性,随机性是指事件发生与否的不确定性。(参考用书:《模糊集的应用》《概率统计》)
个人感悟:
在信息时代,人们的生产生活模式如下:“获取大量数据——对数据进行清洗预处理(去噪音干扰)等加工——(放入数据库等)储存清洗后的数据——查询所需数据——建立一套处理、分析、归纳数据规律的系统或模型——运用建立的模型在同一领域或不同领域进行结果预测或分析(通过增加、删除或改变一些系统或模型原有的规律,使其具有领域自适应性)——将得到的结果应用于决策中”。
数据挖掘产生和发展
数据挖掘的功能(能够干什么)
数据挖掘技术(及应用)
数据挖掘方法及常用算法:
关联规则
聚类分析
预测(分类和回归)
时间序列
第二章
时间: 2024-10-08 07:30:23