《BI那点儿事》数据挖掘初探

什么是数据挖掘？

数据挖掘（Data Mining），又称信息发掘（Knowledge Discovery），是用自动或半自动化的方法在数据中找到潜在的，有价值的信息和规则。
数据挖掘技术来源于数据库，统计和人工智能。

数据挖掘能够做什么

对企业中产生的大量的数据进行分析，找出其中潜藏的规则
更加清晰的了解目前的业务运行状况
使得决策者把握未来的决策方向有了科学的依据
预测销售额

向特定客户发送邮件
确定可能需要搭售的产品
查找客户将产品放入购物车的顺序序列
......

数据挖掘算法
数据挖掘是从特定形式的数据中提炼知识的过程，其主要任务是对数据的描述、分类和预测。数据挖掘常用的数据预测技术包括线性回归、最小二乘法和神经网络。

关于分析服务另外一个比较有意思的就是数据挖掘，在商业智能中，数据挖掘是其中最高的一个层次。现在流行的大数据，最终往往也要靠数据挖掘来体现其价值。

如果说，BI的过程可以看成是数据的昨天，今天和明天，数据的昨天，通过报表告诉你的业务之前发生了什么，数据的今天，通过多维分析等工具告诉你这些为什么会发生，那么数据的明天，就是通过数据挖掘算法，对已有的海量历史数据进行挖掘，从而让你知道你的业务未来会是什么样。

微软的数据挖掘工具包含了很多算法，比较常见的比如贝叶斯，决策树，关联规则和时序分析等。
数据挖掘会分析样本数据，从中发现规则，然后用于对未来未知数据的预测。通常用来比如电商网站的商品推荐，潜在客户分析，以及客户分类等问题之上。

序号	数据挖掘技术	说明
1	Microsoft Naive Bayes 贝叶斯模型	Microsoft Naive Bayes 算法将所有输入属性都看作是独立的，并计算每对输入属性值和预测属性值的概率。此算法可用于分类和预测。
2	Microsoft 关联规则	Microsoft 关联算法使用各属性值或事务项之间的相关性统计来分析数据。
3	Microsoft 聚类分析	Microsoft 聚类分析算法查找属性值的多维表示形式中数据的自然分组。此算法在需要发现一般分组时很有用。
4	Microsoft 决策树	Microsoft 决策树算法是一种适合预测性建模的分类算法。该算法支持离散属性和连续属性的预测。
5	Microsoft 逻辑回归	Microsoft 逻辑回归算法是一种适合回归建模的回归算法。该算法是 Microsoft 神经网络算法的一种，是通过消除隐藏层获得的。该算法支持对离散属性和连续属性进行预测。
6	Microsoft 神经网络	Microsoft 神经网络算法
7	Microsoft 时序	Microsoft 时序算法可以分析与时间相关的数据，以便根据时序分析发现各种模式，如月销售额模式和年利润模式。
8	Microsoft 顺序分析和聚类分析	Microsoft 顺序分析和聚类分析算法综合了其他两项数据挖掘技术: 顺序分析和聚类分析。此算法分析与顺序相关的模式并对进行聚类。
9	Microsoft 线性回归	Microsoft 线性回归算法是一种适合回归建模的回归算法。该算法是 Microsoft 决策树算法的一种，是通过禁用拆分(整个回归公式放在单个根节点中)获得的。该算法支持对连续属性进行预测。

数据挖掘的过程，跟其它IT项目一样，大概可以划分为如下几个过程。首先，定义问题，然后准备和浏览数据，然后生成和验证模型，最后部署和更新模型。

这个过程不一定是一口气道底的，比如在模型中发现没有需要的数据那么就需要重新对数据进行准备，或者在模型验证阶段发现有问题那么可能需要重新定义模型。
数据挖掘用到的查询语句是DMX，它可以用来创建和处理挖掘模型，并且做预测查询。

时间： 2024-10-11 06:49:28

《BI那点儿事》数据挖掘初探

《BI那点儿事》数据挖掘初探的相关文章

《BI那点儿事》数据挖掘的主要方法

《BI那点儿事》浅析十三种常用的数据挖掘的技术

《BI那点儿事—数据的艺术》目录索引

《BI那点儿事》Microsoft 神经网络算法

《BI那点儿事》Microsoft 线性回归算法

《BI那点儿事》Microsoft 顺序分析和聚类分析算法

《BI那点儿事》数据流转换——百分比抽样、行抽样

《BI那点儿事》数据流转换——逆透视转换

《BI那点儿事》数据流转换——数据转换

《BI那点儿事》数据流转换——透视