读 Introduction to Data Mining 的笔记而已。
数据挖掘简介
背景
It行业的发展使得数据的体量越来越大,我们希望从这些数据中提取出有用的信息。面对这些规模巨大而且本身属性不太传统的数据,传统的数据分析工具表示无能为力。于是乎,挑战带来了机遇,数据挖掘抓住了这个机会,直面了挑战,并在实战中证明了自己。
数据挖掘是啥玩意儿
数据挖掘是一个在大量数据中自动发掘有用信息的过程。这些有用信息通常是藏得很深的,不用点奇淫技巧一般难以发现。那数据挖掘就是致力于去寻找这些隐藏的数据模式的一些方法。骚等一下,这样看起来是不是我用baidu或者Google搜索也算在搞数据挖掘嘞?看起来好像是,不过这要归于另一个领域,信息检索(Information Retrieval)。当然咯,搜索引擎或者信息检索系统可以通过数据挖掘的方法来优化...
数据挖掘的过程
事实上数据挖掘是知识发现过程中的一部分,那么数据挖掘是怎样来发现知识的嘞?先看下大概的流程图:
一般我们最初获得的数据是粗糙的,不规整的,在将数据提交给数据挖掘算法前要做些预处理,例如特征选取,减少维度等...所谓“好的数据胜过好的算法”,也就是说如果提供给算法是数据是很烂的(例如有很多噪声),那再好的算法也没法获得令人满意的结果。要得到好的数据,一方面可以改进原始数据收集的过程,另一方面则要进行合理的数据预处理。可见数据预处理是灰常重要的,同时也是很费时费力的。
通过数据挖掘算法处理后,我们从数据得到了信息,而要进一步理解这些信息,就需要做后处理。后处理就是将挖掘到的信息解释,得到一些不懂技术不懂数据的领导也能看明白的结果。于是乎领导就能据此拍脑袋,做决策... 后处理的过程中,模式过滤确保只有那些合理且有用的数据模式被保留,可视化和解释就是为了更直观地理解和呈现信息。
数据挖掘的分类
预测模型
预测就是要通过数据的一些推测另一些属性。被用于预测的这些数据(属性)是自变量(Independent Variables),而被预测的属性就是因变量了。根据因变量是连续的还是离散的,可以把预测分为两类。若要预测的因变量是连续变量,通常称为回归问题,而如果因变量离散的,就称为分类问题了...应该说这俩类的界线并不很明确,比如一个分类问题,但是一直要划分的类别很多很多很多,多着多着变成了回归问题了。另外Logistics回归是用来做分类问题的...
关联规则分析
关联规则通常用属性的子集来表示。子集的数量是指数增长的,那就要想办法在可接受的时间复杂度内找到最有用的模式。关联规则在推荐系统,基因组分析等方面很实用。
聚类分析
聚类分析要找到一种对数据分组的模式,使得同一组的数据尽可能更相似,而不同组之间的数据尽可能不相似。
异常检查
异常检查致力于寻找那些异常的数据记录,英文叫anomalies或者outliers,就是那些不合群的孩子...可用于信用卡欺诈,网络入侵等的检测。