SQL Server 2008中的9种数据挖掘算法

1.决策树算法

决策树,又称判定树,是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息量最大的属性,中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶结点是样本的类别值。

从树的根结点出发,将测试条件用于检验记录,根据测试结果选择适当的分支,沿着该分支或者达到另一个内部结点,使用新的测试条件或者达到一个叶结点,叶结点的类称号就被赋值给该检验记录。决策树的每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。决策树算法能从一个或多个的预测变量中,针对类别因变量,预测出个例的趋势变化关系。

SQL Server 2008中,我们可以通过挖掘模型查看器来查看决策树模型。如图1所示。

在图1中,我们可以看到决策树显示由一系列拆分组成,最重要的拆分由算法确定,位于“全部”节点中查看器的左侧。其他拆分出现在右侧。依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。并能通过滑块来筛选依赖关系强度。

2.聚类分析算法

聚类分析算法就是衡量个体间的相似度,是依据个体的数据点在几何空间的距离来判断的,距离越近,就越相似,就越容易归为一类。在最初定义分类后,算法将通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程,直到它不能再通过重新定义分类来改进结果为止。简单得说,聚类就是将数据对象的集合分组成为由类似的对象组成的多个类的过程。聚类用在商务方面的客户分析中,可以从客户库中发现不同的客户群,并分析不同客户群的行为模式。

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看聚类分析模型。如图2所示。

在图2中,分类关系图表现个类间关联性的强弱。分类剖面图了解因变量与自变量的关联性强弱程度。分类特征主要呈现每一类的特性。分类对比主要呈现出两类间特性的比较。

3.Naive Bayes 算法

Naive Bayes 算法是 Microsoft SQL Server Analysis Services 提供的一种分类算法,用于预测性建模。Naive Bayes算法使用贝叶斯定理,假定一个属性值对给定类的影响独立于其他属性的值。与其他算法相比,该算法所需的运算量小,因而能够快速生成挖掘模型,以发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测,在用于大型数据库时,该算法也表现出了高准确率与高速度,能与决策树和神经网络相媲美。

算法采用监督式的学习方式,在分类之前,需要事先知道分类的类型。通过对训练样本的学习,来有效得进行分类。就是通过训练样本中的属性关系,产生训练样本的中心概念,用这些已经产生的中心概念,对未分类的数据对象进行预测。

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看Naive Bayes模型。如图3所示。

在图3中,依赖关系网络可以对数据的分布进一步了解。属性配置文件可以了解每个变量的特性分布情况。属性特征可以看出不同群分类的基本特性概率。属性对比就是呈现属性之间的特性对比。

4.关联规则算法

关联算法规则是要发现数据库中变量和个体之间关系程度,也就是要发现大量数据中项集之间有趣的关联或相关联系。例如,在关联规则挖掘中,典型的例子就是购物篮分析,该分析过程就是通过分析顾客所购买的不同商品之间的联系,来挖掘顾客的购买习惯,并帮助销售商制定营销策略。关联规则算法中有两个重要的参数支持度和置信度。支持度就是指X项集和Y项集中,同时发生X,Y事件的概率。置信度就是指X项集和Y项集中,X事件发生的概率下,Y事件发生的概率。

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看关联规则模型。如图4所示

在图4中,规则可以查看算法中产生的关联规则,我们可以通过此来了解关联规则内容以及其支持度和置信度。项集可以查看算法中产生的对象组,我们可以通过此来了解各个对象组内容及其支持。依赖关系网络可以呈现产品间的相关性,并通过图形了解产品间的相关性。

5.顺序分析和聚类分析算法

顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。可以使用该算法来研究包含可通过下面的路径或顺序链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看顺序分析模型。如图5所示

在图5中分类关系图可以显示挖掘模型中的所有分类,分类之间连线的明暗程度表示分类的相似程度。通过调整分类右侧的滑块,可以调整显示的连线数。分类剖面图提供算法创建的分类的总体视图,显示了分类中的每个属性以及属性的分布。分类特征可以检查分类的组成特征。分类对比可以比较两个分类的属性。状态转换可以在选中一个分类后,可在选中的分类中浏览序列状态之间的转换。

6.时序算法

时序算法提供了一些针对连续值预测进行了优化的回归算法,并将时间序列分解成主要趋势成分,季节变化成分,并检验理论模型是否能反应现象。

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看时序模型。如图6所示

在图6中,图表栏显示预测变量个产品过去值以及预测值,以及误差区间。模型将算法以完成的模型显示为树。

7.神经网络算法

神经网络是一组连接的输入输出单元,其中每一个连接都与一个权相连接。在训练学习阶段,通过调整训练网络的权,使得能够预测输入样本的正确类标号。神经网络算法创建由多至三层神经元组成的网络。这些层分别是输入层、可选隐藏层和输出层。输入层:输入神经元定义数据挖掘模型的所有输入属性值及其概率。隐藏神经元接收来自输入神经元的输入,并向输出神经元提供输出。隐藏层是向各种输入概率分配权重的位置。权重说明某一特定输入对于隐藏神经元的相关性或重要性。输入所分配的权重越大,则输入的值越重要。输出神经元代表数据挖掘模型的可预测属性值。

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看神经网络模型。如图7所示

在图7中,输入选择神经网络模型将用作输入的属性和属性值。输出指定使用输出的神经网络的属性。变量指定属性右侧的条表示指定输入属性状态所倾向的输出属性状态。 条的大小则表示输出状态倾向于输入状态的程度。

8.逻辑回归算法

逻辑回归是根据输入域值对记录进行分类的统计方法,通过建立一组方程,把输入域值与输出字段每一类的概率联系起来。模型在分析二分类或有序因变量与解释变量的关系,用自变量去预测因变量在给定某个值的概率。一旦生成模型,便可用于估计新的数据的概率。概率最大的目标类被指定为该记录的预测输出值。逻辑回归算法是神经网络算法的一种变体,用于确定多个因素对一对结果的影响。通过对输入和输出之间的关系进行建模。来测量每个输入对输出的影响,并权衡不同输入在完成的模型中的作用。

9.线性回归算法

线形回归算法是一种常用的用于统计并作出预测的方法,使决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,根据输入字段估计预测输出字段的最佳线形方程,然后使用该关系进行预测。使用线性回归确定两个连续列之间的关系,代表一条直线或者平面,以评估数据列之间的关系。

时间: 2024-10-12 12:42:56

SQL Server 2008中的9种数据挖掘算法的相关文章

【转载】SQL Server 2008 中新建用户登录并指定该用户的数据库

提要:我在 SQL Server 中新建用户登录时,出现了三种错误,错误代码分别是 18456.15128.4064 -----------------------------------  正 文 ----------------------------------- 一.实验环境 Windows 7SQL Server 2008数据库实例名为 TestDB,新建的用户名为 testUser 二.操作步骤 1.打开 SQL Server Management Studio,以 Windows身

利用Ring Buffer在SQL Server 2008中进行连接故障排除

原文:利用Ring Buffer在SQL Server 2008中进行连接故障排除 出自:http://blogs.msdn.com/b/apgcdsd/archive/2011/11/21/ring-buffer-sql-server-2008.aspx SQL Server 2008中包含一个新功能,旨在帮助解决特别棘手的连接问题.这个新功能是Connectivity Ring Buffer,它可以捕捉每一个由服务器发起的连接关闭记录(server-initiated connection

SQL Server 2008中的数据压缩

SQL Server 2008中引入了数据压缩的功能,允许在表.索引和分区中执行数据压缩.这样不仅可以大大节省磁盘的占用空间,还允许将更多数据页装入内存中,从而降低磁 盘IO,提升查询的性能.当然,凡事有利有弊,在启用数据压缩后,数据库服务器就需要额外的CPU资源来进行压缩处理.一般说来,数据库服务器的CPU占 用率不会太高,而磁盘IO容易成为瓶颈,所以在大多数情况下对大数据库特别是数据仓库启用该项功能还是利大于弊.SQL Server 2008的数据压缩分为行压缩和页压缩两种.行压缩主要是通过

在windows 2008 R2中SQl Server 2008中代理启动失败的一个原因总结

启动SQL代理的时候报错如下: 关调用实时(JIT)调试而不是此对话框的详细信息,请参见此消息的结尾. ************** 异常文本 **************System.NullReferenceException: 未将对象引用设置到对象的实例. Server stack trace: 在 Microsoft.SqlServer.Management.UI.VSIntegration.ObjectExplorer.ObjectExplorer.FindObjectExplore

使用变量向SQL Server 2008中插入数据

QT通过ODBC连接数据库SQL Server 2008,进行数据插入时遇到的问题: 先把数据存入变量中,如何使用变量进行插入?插入语句该怎么写? QSqlQuery query(db); query.exec("insert into device values('"+datetime+"','"+splantNum+"','"+sdeviceNum+"','"+stemper+"','"+spress+

SQL SERVER 2008中使用VARBINARY(MAX)进行图像存取的实现方法

在数据库应用项目开发中,经常会使用一些二进制的图像数据,存储和读取显示图像数据主要采用的是路径链接法和内存流法.路径链接法是将图像文件保存在固定的路径下,数据库中只存储图像文件的路径和名称,此方法数据库容量小,存取速度快,但安全性较差:内存流法是将二进制数据直接存储在数据库中,此方法对数据的共享非常方便,安全性相对较高,常用于图像容量不是很大的时候. 本文主要讨论通过SQL Server 2008使用内存流法如何实现二进制图像数据的存储. 1 VARBINARY(MAX)数据类型简介 在SQL

在SQL Server 2008中调用.net,dll

T-SQL的在执行普通的查询的时候是很高效的,但是在执行循环,判断这样的语句的时候效率就不那么的高了.这时可以借助CLR了,我们可以在SQL Server 2008中扩展C#程序来完成循环等过程式的查询,或者其他SQL不便实现的功能.这个随笔中将介绍在SQL Server中扩展C#程序实现正则表达式的替换功能. 新建一个类库程序命名为Regex,打开Visual Studio 2008,点击File,点击New,点击Project,在弹出的New Project对话框中选择Class Libra

SQL Server 2008中增强的汇总技巧

SQL Server 2008中增强的汇总技巧 SQL Server 2008中SQL应用系列--目录索引 SQL Server 2008中对汇总有明显的增强,有点像Oracle的语法了.请看下面五个例子: 假定场景如下:某几位员工在不同时间参加了不同的项目,获取了相应的收入,现在需要按各种分类进行统计. 基本表如下: USE testDb2 GOIF NOT OBJECT_ID('tb_Income') IS NULL DROP TABLE [tb_Income]/****** Object:

SQL Server 2008中SQL增强之一:Values新用途

SQL Server 2008中新增功能:可以使用单个Insert命令插入多行. Create table Demo_Values (PKID int not null identity(1,1) primary key ,DName Nvarchar(20) null ,DCode NVarchar(30) null ,DDate datetime null ) go--this SQL is only for SQL Server 2008 Insert into Demo_Values (