数据挖掘算法Analysis Services-基于SQL Server的数据挖掘

数据挖掘算法(Analysis Services – 数据挖掘)

data mining algorithm is a set of heuristics and calculations that creates a data mining model from data.” xml:space=”preserve”>“数据挖掘算法”是根据数据创建数据挖掘模型的一组试探法和计算。 为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。 算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。 然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

算法根据您的数据创建的挖掘模型可以采用多种形式,这包括:

  • 说明数据集中的事例如何相关的一组分类。
  • 预测结果并描述不同条件是如何影响该结果的决策树。
  • 预测销量的数学模型。
  • 说明在事务中如何将产品分组到一起的一组规则,以及一起购买产品的概率。

Microsoft SQL Server Analysis Services 提供了多种在数据挖掘解决方案中使用的算法。 这些算法是在数据挖掘中使用的一些最流行方法的实现方式。 通过使用提供的 API 或者使用 SQL Server Integration Services 中的数据挖掘组件,所有 Microsoft 数据挖掘算法都是可以自定义且完全可编程的。

您还可以使用符合 OLE DB for Data Mining 规范的第三方算法,或者开发可注册为服务、然后在 SQL Server 数据挖掘框架中使用的自定义算法。

为特定的分析任务选择最佳算法很有挑战性。 您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。 例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。

按类型选择算法

Analysis Services 包括了以下算法类型:

  • Classification algorithms predict one or more discrete variables, based on the other attributes in the dataset. ” xml:space=”preserve”>分类算法基于数据集中的其他属性预测一个或多个离散变量。
  • Regression algorithms predict one or more continuous variables, such as profit or loss, based on other attributes in the dataset.” xml:space=”preserve”>回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。
  • Segmentation algorithms divide data into groups, or clusters, of items that have similar properties.” xml:space=”preserve”>分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。
  • Association algorithms find correlations between different attributes in a dataset.” xml:space=”preserve”>关联算法查找数据集中的不同属性之间的相关性。 这类算法最常见的应用是创建可用于市场篮分析的关联规则。
  • Sequence analysis algorithms summarize frequent sequences or episodes in data, such as a Web path flow. ” xml:space=”preserve”>顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。

但是,限制为您的解决方案中的一种算法是没有必要的。 有经验的分析人员有时候将使用一种算法来确定最高效的输入(即变量),然后应用其他算法以便基于这些数据预测特定结果。 SQL Server 数据挖掘使您可以在单个挖掘结构的基础上生成多个模型,这样,在单个数据挖掘解决方案内,您可以使用聚类分析算法、决策树模型和 naïve Bayes 模型来针对您的数据获取不同视图。 您还可以在单个解决方案内使用多种算法来执行单独的任务:例如,您可以使用回归来获取财务预测,并且使用神经网络算法执行销售影响因素分析。

按任务选择算法

为帮助您选择用于特定任务的算法,下表给出了每种算法在传统上用于的任务类型的建议。

任务示例 可使用的 Microsoft 算法
预测离散属性

  • 将预期购买者列表中的客户标记为好或差的潜在客户。
  • 计算服务器在未来 6 个月内将出现故障的概率。
  • 将患者结果分类并探讨相关因素。
决策树算法

Naive Bayes 算法

聚类分析算法

神经网络算法

预测连续属性

  • 预测下一年的销售额。
  • 根据过去的历史信息和季节趋势,预测网站访问者。
  • 根据人口统计信息生成风险评分。
决策树算法

时序算法

线性回归算法

预测顺序

  • 执行公司网站的点击流分析。
  • 分析导致服务器故障的因素。
  • 捕获和分析门诊访问期间活动的顺序,以便围绕一般的活动形成最佳做法。
顺序分析和聚类分析算法
查找事务中常见项的组

  • 使用市场篮分析来确定产品摆放。
  • 建议客户购买其他产品。
  • 分析来自事件访问者的调查数据,确定哪些活动或展台是相关的,以便计划将来的活动。
关联算法

决策树算法

查找相似项的组

  • 基于人口统计信息和行为之类的属性,创建患者风险配置文件组。
  • 按照浏览和购买模式分析用户。
  • 标识具有相似使用特性的服务器。
聚类分析算法

顺序分析和聚类分析算法

算法的明细,大家可以参考后续的文章,或者在MSDN的技术文档中心进行查找

来源:MSDN

摘自 :http://www.datafew.com/archive/160.html

时间: 2024-10-05 17:32:25

数据挖掘算法Analysis Services-基于SQL Server的数据挖掘的相关文章

数据库原理与应用 基于SQL Server 2005pdf

下载地址:网盘下载 <数据库原理与应用 基于SQL Server 2005>介绍数据库基本原理,并以sql server 2005为平台介绍数据库管理系统的应用.全书分为3部分,第l-5章介绍数据库的一般原理,第6-18章介绍sql server 2005的数据管理功能,第19-20章介绍以vb作为前端设计工具.以sql server 2005作为数据库平台开发数据库应用系统的技术.本书最后的附录还给出了一个数据库系统设计过程. 本书由浅入深.循序渐进地介绍各个知识点.书中提供了大量例题,有助

基于SQL Server搭建主从复制实现读写分离实战演练

一.课程介绍 读写分离(主从同步)从字面意思就可以理解,就是把对数据库的读操作和写操作分离开.读写分离在网站发展初期可以一定程度上缓解读写并发时产生锁的问题,将读写压力分担到多台服务器上.读写分离的基本原理是让主数据库处理事务性增.改.删操作(INSERT.UPDATE.DELETE),而从数据库处理SELECT查询操作.随着系统的业务量不断增长数据多了之后,对数据库的读.写就会很多.分库减少单台数据库的压力.本文以MS SQL Server数据库为例主库负责写数据.读数据.读库仅负责读数据.写

SQL Server Reporting Services (SSRS): Reporting Services in SQL Server 2012 (codename &quot;Denali&quot;) will support XLSX, DOCX formats. Bye bye 65536 rows limit in XLS files ;)

当SSRS报表的时候,若相应EXCEL是2003以下,在行数超过65536的时候报表会报错 "Microsoft.ReportingServices.ReportProcessing.HandledReportRenderingException: Excel Rendering Extension: Number of rows exceeds the maximum possible rows per sheet in this format; Rows Requested: NNNNNN,

277.SQL Server 2008的安装、简介和使用

1.安装 1.1安装SQL Server 2008的硬件和软件要求 为了正确安装和运行SQL Server 2008,计算机必须满足以下配置要求. (1)硬件处理器:需要 Pentium III 兼容处理器或更高速度的处理器,处理器速度不低于1 GHz,为了获得更好的运行效果,建议为2 GHz或以上.内存:512 MB以上,建议为2 GB 或更大.硬盘:1.7 GB的安装空间以及必要的数据预留空间. (2)软件① 操作系统要求(32位).SQL Server 2008只能运行在Windows操作

SQL Server群集知识介绍

集群CLUSTER种类介绍 基于iSCSI的SQL Server 2012群集测试(一)--SQL群集安装 SQL Server群集如何在线检测 群集中的MS DTC分布式事务协调器 一.SQL Server群集基本架构 无论群集还是非群集SQL Server服务器,都是需要有以下基本组成部分才能提供数据服务: SQL Server实例,也可以认为是SQL Server二进制可执行文件,它组成数据库管理系统运行的各个服务,管理数据库数据和客户端的需求,执行操作等.不管是群集还是非群集这些实例都是

3.3 SQL Server Business Intelligence Development Studio

3.3 SQL Server Business Intelligence Development Studio在 SQL Server 2000 Reporting Services 发布时,Visual Studio 是用户唯一可用的一种创 建和管理报表的方法.不过,许多非幵发人员都对这种他们不熟悉的界面感到恐惧.在 SQL Server 2005发布吋,Microsoft知道他们必须考虑到用户的顾虑,要提供一个新界面,不仅 能管理报表,而且可用于Analysis Services和 Inte

SQL Server Analysis Services 数据挖掘

假如你有一个购物类的网站,那么你如何给你的客户来推荐产品呢?这个功能在很多 电商类网站都有,那么,通过SQL Server Analysis Services的数据挖掘功能,你也可以轻松的来构建类似的功能. 将分为三个部分来演示如何实现这个功能. 构建挖掘模型 为挖掘模型编写服务接口 开发简单的前端应用 此篇介绍如何使用SQL Server Analysis Services基于此问题来构建简单的挖掘模型. 关于数据挖掘,简单的就是说从海量数据中发现信息的一个过程.如果说商业智能分为三个层次:告

SQL Server 2008中的9种数据挖掘算法

1.决策树算法 决策树,又称判定树,是一种类似二叉树或多叉树的树结构.决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布.它对大量样本的属性进行分析和归纳.根结点是所有样本中信息量最大的属性,中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶结点是样本的类别值. 从树的根结点出发,将测试条件用于检验记录,根据测试结果选择适当的分支,沿着该分支或者达到另一

添加条码生成和打印功能到SQL Server Reporting Services report 中

Barcode Professional for Reporting Services 是一款灵活和强大的.NET组件(.NET DLL 类库),它让您轻松地添加条码生成和打印功能到您的SQL Server Reporting Services report 中.支持几乎所有当前常用的条码:Code 39, Code 128, GS1-128, GS1 DataBar (RSS-14), EAN 13 & UPC, Postal (USPS, British Royal Mail, Austra