1、数据挖掘的特点:
数据挖掘的数据源必须是真实的;
数据挖掘所处理的数据必须是海量的;
查询一般是决策制定者(用户)提出的随机查询;
挖掘出来的知识一般是不能预知的;
2、数据挖掘算法的组成:
模型或模式结构;
数据挖掘任务;
评分函数;
搜索和优化方法;
数据管理策略;
3、根据数据分析者的目标,可以将数据挖掘任务分为:
模式挖掘:致力于从数据中寻找模式,比如寻找频繁模式,异常点等;
描述建模:目标是描述数据的全局特征。
预测建模:根据现有数据先建立一个模型,然后应用这个模型来对未来的数据进行预测。
当被预测的变量是范畴型(category)时,称之为分类;
当被预测的变量是数量型(quantitative)时,称之为回归。
描述和预测的关键区别是:预测的目标是唯一的变量,如信用等级、疾病种类等,而描述并不以单一的变量为中心。
描述建模的典型例子是聚类分析。
4、评分函数
评分函数用来对数据集与模型(模式)的拟合程度进行评估。
如果没有评分函数,就无法说出一个特定的已拟合的模型是否比另一个要好。或者说,就没有办法为模型(模式)选择出一套好的参数值来。
常用的评分函数有:似然(likelihood)函数、误差平方和、准确率等。
在为模型(模式)选择一个评分函数时,既要能够很好地拟合现有数据,又要避免过度拟合(对极端值过于敏感),同时还要使拟合后的模型(模式)尽量简洁。
不存在绝对“正确”的模型(模式),所有模型(模式)都是对现有数据的一种近似。从这个角度来讲,如果模型(模式)没有随着现有数据的变化而剧烈变化,这个模型(模式)就是能够接受的了。换句话说,对数据的微小变化不太敏感的模型(模式)才是一个好的模型(模式)。
评分函数衡量了提出的模型(模式)与现有数据集的拟合程度。
搜索和优化的目标是确定模型(模式)的结构及其参数值,以使评分函数达到最小值(或最大值)。
5、搜索和优化方法
如果模型(模式)的结构已经确定,则搜索将在参数空间内进行,目的是针对这个固定的模型(模式)结构,优化评分函数。
如果模型(模式)的结构还没有确定的话(例如,存在一族不同的模型(模式)结构),那么搜索既要针对结构空间又要针对和这些结构相联系的参数空间进行。
针对特定的模型,发现其最佳参数值的过程通常被称为优化问题。
而从潜在的模型(模式)族中发现最佳模型(模式)结构的过程通常被称为搜索问题。
6、组件化思想的应用
在实践中,数据挖掘算法的组件化思想是非常有用的。它通过将算法分解成一些核心组件而阐明了算法的实现机制。更重要的是,该观点强调了算法的本质,而不仅仅是算法的罗列。
当面对一个新的应用时,数据挖掘人员应该从组件的角度,根据应用需求,考虑应该选取哪些组件,来组成一个新的算法,而不是考虑选取哪个现成的算法。
确定模型(模式)结构和评分函数的过程通常由人来完成,而优化评分函数的过程通常需要计算机辅助来实现。实践中,通常要根据前一次的计算结果来改进模型(模式)结构和评分函数,所以整个过程要重复很多次。
实际上,一个数据挖掘算法的所有组件都是至关重要的。
对于小的数据集,模型(模式)的解释和预测能力相对于计算效率来说可能要重要的多。
但是,随着数据集的增大,计算效率将变得越来越重要。对于海量数据,必须在模型(模式)的完备性和计算效率之间进行平衡,以期对现有数据达到某种程度的拟合。