SPSS Clementine 数据挖掘入门1

SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中，仅有两家厂商被列为领导者：SAS和SPSS。SAS获得了最高ability to execute评分，代表着SAS在市场执行、推广、认知方面有最佳表现；而SPSS获得了最高的completeness of vision，表明SPSS在技术创新方面遥遥领先。

客户端基本界面

SPSS Clementine（在此简称clementine）在安装好后会自动启用服务，服务端的管理需要使用SPSS Predictive Enterprise Manager，在服务端clementine没有复杂的管理工具，一般的数据挖掘人员通过客户端完成所有工作。下面就是clementine客户端的界面。

一看到上面这个界面，我相信只要是使用过SSIS+SSAS部署数据挖掘模型的，应该已经明白了六、七分。是否以跃跃欲试了呢，别急，精彩的还在后面 ^_’

项目区

顾名思义，是对项目的管理，提供了两种视图。其中CRISP-DM （Cross Industry Standard Process for Data Mining，数据挖掘跨行业标准流程）是由SPSS、DaimlerChrysler（戴姆勒克莱斯勒，汽车公司）、NCR（就是那个拥有Teradata的公司）共同提出的。Clementine里通过组织CRISP-DM的六个步骤完成项目。在项目中可以加入流、节点、输出、模型等。

工具栏

工具栏总包括了ETL、数据分析、挖掘模型工具，工具可以加入到数据流设计区中，跟SSIS中的数据流非常相似。Clementine中有6类工具。

源工具（Sources）

相当SSIS数据流中的源组件啦，clementine支持的数据源有数据库、平面文件、Excel、维度数据、SAS数据、用户输入等。

记录操作（Record Ops）和字段操作（Field Ops）

相当于SSIS数据流的转换组件，Record Ops是对数据行转换，Field Ops是对列转换，有些类型SSIS的异步输出转换和同步输出转换（关于SSIS异步和同步输出的概念，详见拙作：http://www.cnblogs.com/esestt/archive/2007/06/03/769411.html）。

图形（Graphs）

用于数据可视化分析。

输出（Output）

Clementine的输出不仅仅是ETL过程中的load过程，它的输出包括了对数据的统计分析报告输出。

※在ver 11，Output中的ETL数据目的工具被分到了Export的工具栏中。

模型（Model）

Clementine中包括了丰富的数据挖掘模型。

数据流设计区

这个没什么好说的，看图就知道了，有向的箭头指明了数据的流向。Clementine项目中可以有多个数据流设计区，就像在PhotoShop中可以同时开启多个设计图一样。

比如说，我这里有两个数据流：Stream1和Stream2。通过在管理区的Streams栏中点击切换不同的数量流。

管理区

管理区包括Streams、Outputs、Models三栏。Streams上面已经说过了，是管理数据流的。

Outputs

不要跟工具栏中的输出搞混，这里的Outputs是图形、输出这类工具产生的分析结果。例如，下面的数据源连接到矩阵、数据审查、直方图工具，在执行数据流后，这个工具产生了三个输出。在管理区的Outputs栏中双击这些输出，可看到输出的图形或报表。

Models

经过训练的模型会出现在这一栏中，这就像是真表（Truth Table）的概念那样，训练过的模型可以加入的数据流中用于预测和打分。另外，模型还可以导出为支持PMML协议的XML文件，但是PMML没有给定所有模型的规范，很多厂商都在PMML的基础上对模型内容进行了扩展，Clementine除了可以导出扩展的SPSS SmartScore，还可以导出标准的PMML 3.1。

时间： 2024-08-29 11:03:13

SPSS Clementine 数据挖掘入门1

SPSS Clementine 数据挖掘入门1的相关文章

SPSS Modeler数据挖掘项目实战（数据挖掘、建模技术）

下载SPSS Modeler数据挖掘项目实战（数据挖掘、建模技术）

数据挖掘入门算法整理

数据挖掘入门必看10个问题

Python数据挖掘入门与实践pdf

Python数据挖掘入门与实践彩图 pdf

分享《Python数据挖掘入门与实践》高清中文版+高清英文版+源代码

分享《Python数据挖掘入门与实践》+PDF+源码+]Robert Layton+杜春晓

数据挖掘入门系列教程（一）之亲和性分析