大数据价值的体现离不开数据挖掘,它的主要目的是从各种各样的数据来源中,提取出隐藏的信息,然后将这些信息合并发现其内在关系。
数据挖掘任务除了专门的一些工具外,实际上BI工具也可以进行数据挖掘,市面上的一些BI工具不单单是数据分析工具,而且内置了很多模型算法,无需分析人员自己建模就可以完成数据挖掘,探索数据之间的关系。
文章主要围绕数据挖掘方法和BI工具做数据挖掘的实例进行讲解。
数据挖掘的主要方法
数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘。
1.分类。它首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的数据进行分类。
2.估值。估值与分类类似,但估值最终的输出结果是连续型的数值,估值的量并非预先确定。估值可以作为分类的准备工作。
3.预测。它是通过分类或估值来进行,通过分类或估值的训练得出一个模型,如果对于检验样本组而言该模型具有较高的准确率,可将该模型用于对新样本的未知变量进行预测。
4.相关性分组或关联规则。其目的是发现哪些事情总是一起发生。
5.聚类。它是自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似样本划分在一个簇中。
BI工具如何做数据挖掘
这里我就不介绍类似RapidMiner、R、Weka、KNIME、GGobi、Orange等数据挖掘工具了,我们看看傻瓜式的数据挖掘工具-敏捷BI工具,可以快速进行数据探索和数据分析。我们以永洪BI工具操作为例做演示,因为它内置了逻辑回归、决策树、聚类、关联规则、时序分析算法;Python和R脚本,因此能很好地支持数据挖掘。
Step1:数据库的导入,导入需要进行数据挖掘的数据表。在右侧会显示导入的元数据。
Step2:对元数据进行采样和数据分区,为训练模型做数据准备。
Step3:从右侧拖拽分析算法到工作区,在右侧设置自变量和因变量参数,即完成了进一步的数据挖掘工作。
Step4: 模型算法完成后,最后可以用测试数据对模型的准确性进行测试。
永洪敏捷BI工具利用自身性能优势,省去复杂的建模流程,仅仅简单的4步就完成了模型算法的深度数据挖掘,确实是一款友好便捷的数据分析和数据挖掘工具。
原文地址:https://blog.51cto.com/14612873/2465516