SPSS学习系列之SPSS Modeler的功能特性(图文详解)

    不多说,直接上干货!

    我这里,是以SPSS Modeler 18.0为例

IBM SPSS Modeler 18.0功能特色:

1、访问各种类型的数据
  借助SPSS Modeler,您可以使用各种分析技术访问数据源, 如数据仓库、数据库、Hadoop 分布或平面文件,以便从您 的数据中发现隐含的模式。这些统计技术使用历史数据来预 测当前状况或未来事件。这些统计技术还包括数据访问、数 据准备、数据建模和交互可视化功能。借助准备和建模自动 化流程,该产品适用于各种分析能力。

2、通过一系列技术拓宽您的分析范围
  借助 SPSS Modeler,您的分析师可利用设计用于处理简单 的描述性分析问题、最复杂的优化问题以及这两者之间的一 切问题的单一平台,解决业务问题。SPSS Modeler 具有超 出当今分析师标准分析要求的功能。一系列模型以及自动建 模和数据准备、文本分析、实体分析和社交网络分析功能, 可以帮助您处理最复杂的问题。

3、一系列模型及算法
  分类算法-根据历史数据和技术进行预测。分段算法-利用自动聚类、异常检测和聚类神经网络技术 将工作人员进行分组或检测不寻常的模式。关联算法-发现先验、CARMA 和序列关联性的关联、链 接或序列。时间系列和预测-随着时间的推移,利用统计建模技术生成一个或多个系列的预测。可扩展性与 R 编程语言-应用转型,用脚本进行分析, 并用 R 编程语言汇总或生成文本和图形输出。

4、数据准备和操作
  SPSS Modeler 使数据准备自动化,以简化流程并帮助您确 保您的数据格式为便于分析的最好格式。自动化任务包括进 行分析数据和识别修复工具,筛选字段,必要时派生新属性, 并通过智能筛选技术提高性能。

5、自动数据建模
  借助 SPSS Modeler 的自动建模功能,非分析师人员无需 专业技能即可迅速构建准确的模型。此外,先进的预测建 模功能可支持专业分析人员创建最复杂的流。

6、地理空间分析
  借助 SPSS Modeler,您可探索与某个位置有关的各个数 据元素之间的关系并对您的数据进行地理空间分析,以发掘在图表或表格中不可见的洞察力。通过空间挖掘,您可 利用 ESRI shape file 文件轻松挖掘地理空间数据。通过分 析空间数据和非空间数据,可以提高整个模型的准确性, 且您可以获取对人员和事件的更深入洞察力。

7、文本分析
  借助可定制 的特定行业文本分析包,您可以对正确的上下文里的除首 字母缩写、表情符号和俚语之外的相关术语和词组进行分 析。交互式图表可帮助您探索和显示文本数据和模式,以 便进行快速分析。

8、实体分析
  借助 SPSS Modeler 的实体分析功能,您可非常轻松高效地 将身份、行为和行动数据与各自的实体实时或批量关联起来。 您还可适时合并记录或将它们分离开来。结果会怎样呢?您 的组织将具有可帮助提高模型质量的关联企业数据。

9、社交网络分析
  SPSS Modeler 可提供相关社交网络分析功能,将与关系有 关的信息转为显示个人和团队的社会行为的关键业绩指标。 您可以利用这些指标来识别影响网络中他人行为的社交领导 者。结合这些结果与其他措施,您可以创建全面的个人资料 文件,并以此作为您的预测性模型的基础。

10、借助灵活部署适应您的各种需要
  SPSS Modeler 架构是一个支持一系列平台和语言的开放 式平台。您可以在您的环境中或从云端部署 SPSS Modeler,然后 在您的现有系统中自信地用它来优化性能和处理业务问题。 通过按计划或按要求为工作人员和流程提供结果,这种灵 活部署可弥合分析和行动之间的差距。

11、改善决策和成果
  利用各种高级算法构建预测模型。
  结合使用预测模型、业务规则和优化技术,在给定参数内通过云执行决策。
  在影响点向人员和系统提供建议,改善决策和操作。
  将分析结果集成到现有业务流程和运营应用中。
  将 SPSS Modeler 与 IBM Cognos Business Intelligence 集成时,在 BI 报表或仪表盘中显示分析。
  集成 IBM Cognos TM1,以在 Cognos TM1 多维数据集中使用或显示数据。

12、从数据中提取价值
  无论数据存储在何处(例如,数据仓库、数据库、平面文件等),均可执行分析。
  将 SPSS Modeler 与 IBM SPSS Analytic Server 结合使用时,可在 Hadoop 版本中分析数据。
  不仅可分析结构化数据(例如,年龄、价格、产品、位置等),也可以分析非结构化数据(例如,文本、电子邮件、社交媒体数据等)。
  使用统计算法和文本分析揭示数据中隐藏的洞察和模式。
  使用实体分析进行实体解析和社交网络分析,显示个人和群体的社交行为。
  通过自动化的数据准备、建模和基于 Web 的订阅降低复杂性。

13、更轻松地集成到现有系统中
  与 IBM 数据库或其他供应商的数据库配合使用,更快速、更高效地部署模型并评分。
  通过将 SPSS Modeler 与 SPSS Statistics、Cognos Business Intelligence、Cognos TM1 和 InfoSphere Streams 集成,实现更流畅的分析工作流程。
  通过使用那些支持 IBM Pure DataTM Systems、InfoSphere Warehouse、IBM DB2 和 Linux on IBM System z 功能的服务器版本,最小化数据移动,并提高性能。
  通过“冠军/挑战者”方法评估预测模型,并自动执行评估。

14、支持的平台更加广泛(MAC / Windows 10)

  相比于Modeler的兄弟产品,SPSS Statistics早在3年前的 21.0 版本已经开始支持 Mac 操作系统,而Modeler一直只能支持Windows操作系统,可谓愁死了广大的果粉了。很多果粉小伙伴为了能够在Mac上用上Modeler可谓是费苦心啊。

  但是现在,Modeler的18.0版本也正式发布了Mac版本,从此与虚拟机“Say Byebye”,咱们终于也能够在Mac上直接使用了。

15、性能/功能更加强大的大数据算法

  15.1 所有算法都支持本地运行而不需要连接Analytics Server

  在Modeler之前的版本中,为更好满足客户的需求,特意设计了部分支持分布式计算的算法,而这些算法的实现是需要Analytics Server(简称AS,大家可以把AS理解为SPSS Modeler与Hadoop的连接器)这一模块才能运行的,而现在这些新的算法都支持在本地client端运行。

  15.2 所有新算法都支持基于内存的分布式计算

  毫无疑问,对于大规模数据集来说,使用多线程计算将能更好地利用我们的硬件资源,更重要的是能够节省我们的建模时间。在旧版本的SPSS Modeler版本中,只有部分的算法(CHAID,C&RT树,QUEST,线性模型,神经网络)能够支持多线程,并且只有在连接上Modeler Server中的时候,才能启用这项功能。

  

  而在刚刚 15.1 提到的所有算法当中,现在都能支持多线程计算,并且直接在Modeler client端中即可启用多线程,而无需连接至服务器端。

  15.3 算法优化

  (1) 线性SVM以及广义线性模型(AS算法)提供了正则化功能

  我们知道过拟合是我们机器学习过程中常常面临的问题,为了避免模型过于复杂带来的问题,我们可以通过正则化对模型添加先验,使得模型的复杂度得到控制,从而减少噪声的扰动。因此在Modeler的18版本中,GLE以及LSVM都提供了正则化的功能:

  (2) 树模型和LSVM模型提供了专门的数据准备功能

  为了增强Tree-AS以及LSVM的能力,在Modeler的18版本当中,特意结合了数据准备功能在这两个节点中,具体能力包括:连续字段分箱处理,分类字段进行类别合并,时间戳进行字段转换,把缺失值自动视为新的类别(Tree-AS)等等

  (3) 随机树节点新增功能选项

随机树节点,大家可以理解为随机森林,但因为随机森林最早被Leo Breiman和Adele Cutler提出后,就被注册成了商标,因此这里称之为随机树模型。该模型新增了两个功能选项:

  (a) 指定要用于拆分的最小预测变量数:如果是构建拆分模型,请设置要用于构建每个拆分的最小预测变量数。这防止拆分创建过小的子组。

  (b) 当准确性无法再提高时停止构建 要:改进模型构建时间,请选择此选项,以在结果的准确性无法提高时停止模型构建过程。

  (4)时间序列算法的增强

  时间序列算法主要增强在两方面,一个是支持了多线程计算,二是增加了同时计算多个时间序列模型功能。

  例如在旧版本中,当我们的原始数据是6个销售门店从2015年1月到2016年6月的销售额,那么我们只能通过编程或分别使用多个时间序列节点才能完成对6个销售门店时间序列的预测,但是在新版本中,我们则可以一次性构建多个模型,大大简化了建模的步骤。

  16、在开源技术上更多的扩展和更强大的支持

  16.1 在开源工具上更好的扩展和支持

  机器学习是一个充满生命力的技术领域,开源技术每天都会有长足的进步,为了能够保证能够在SPSS Modeler平台上使用到新的数据技术,Modeler在开源技术上一直有很好的支持。

从15版本开始集成R语言,16版本开始集成Python,17版本集成Spark。而来到我们的18版本,SPSS Modeler在集成上再更进一步,以往在集成Python以及Spark上需要AS组件的支持,但是现在我们能够直接在Modeler的客户端上直接集成Python的能力,并且我们能够把相关的R语言代码/Python代码直接集成成为一个建模节点。

  16.2 全新的扩展中心

  除了通过上述的方法,通过在Modeler中嵌入相关的R/Python代码定制相关节点外,IBM也开发了更多的功能在Github上,而现在我们可以直接在Modeler上下载应用相关的功能节点。

欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑

 

同时,大家可以关注我的个人博客

   http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs.com/sunnyDream/   

   详情请见:http://www.cnblogs.com/zlslch/p/7473861.html

  人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
  目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获

对应本平台的讨论和答疑QQ群:大数据和人工智能躺过的坑(总群)(161156071) 

原文地址:https://www.cnblogs.com/zlslch/p/8472813.html

时间: 2024-11-04 01:54:23

SPSS学习系列之SPSS Modeler的功能特性(图文详解)的相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以

NVIDIA Jetson TK1学习与开发(八):图文详解OpenGL在Jetson TK1上的安装和使用

图文详解OpenGL在Jetson TK1上的安装和使用 1.入门介绍与资源推介 OpenGL(全写Open Graphics Library)是个定义了一个跨编程语言.跨平台的编程接口规格的专业的图形程序接口.它用于三维图像(二维的亦可),是一个功能强大,调用方便的底层图形库. OpenGL ES (OpenGL for Embedded Systems) 是 OpenGL 三维图形 API 的子集,针对手机.PDA和游戏主机等嵌入式设备而设计.该API由Khronos集团定义推广,Khron

Java学习系列(二十三)Java面向对象之内部类详解

一.前言 内部类也称寄生类,就是把一个类放在类里面(即内部类的上一级程序单元是类)定义,将其作为外部类的成员.内部类主要用几种定义形式:静态(static)内部类,非静态内部类,匿名内部类(也就是没有名字的寄生类).内部类的好处就是内部类可以直接外部类的(包括私有)成员,反之不能.下面我们通过一些实例来详细讲解一下Java中内部类的使用及几种定义形式的相互调用. 二.实例说明 (1)匿名内部类:当程序创建匿名内部类时,会立即创建匿名内部类(实现类)的实例. interface IBreathe

Java学习系列(二十)Java面向对象之反射详解

转载请注明出处:http://blog.csdn.net/lhy_ycu/article/details/45289391 前言 今天讲讲Java中的反射.我们常见的反射多用于JDBC中的加载驱动程序Class.forName("com.mysql.jdbc.Driver");.Struts的MVC.Hibernate中的ORM.Spring中的IOC还有一些其他框架等等.那它有什么好处呢?它的好处就是能够动态的创建对象和编译且能够访问某个类中的所有(包括私有)属性方法及对象的属性方法

Java学习系列(二十一)Java面向对象之注解详解

转载请注明出处:http://blog.csdn.net/lhy_ycu/article/details/45295947 一.前言 Java中的注解Annotation运用到很多方面,比如之前讲的单元测试中的@Test.Spring.SpringMVC还有其他框架等等.Java本身自带的注解也有一些,比如:@Override(子类要重写/覆写父类的对应方法).@Deprecated(表示方法不建议被使用).@SuppressWarnings(抑制警告)等等.当然,我们也可以自定义一些自己需要的

TortoiseGit学习系列之Windows上TortoiseGit的安装详解(图文)

TortoiseGit的安装准备 首先你得安装windows下的msysgit. 安装版本控制器客户端TortoiseGit [不习惯英文的朋友,也可以下个语言包]. 下载地址:https://yunpan.cn/cvnADhh7WmDDP  访问密码 d7f3 注:为了省去配置的麻烦,最好先安装msysgit-1.9.4,然后再安装TortoiserGit-1.8.12.0,最后安装中文语言包. TortoiseGit的安装 msysgit安装[一路默认即可]  安装好git以后,右键,会发现

大数据学习系列之五 ----- Hive整合HBase图文详解

引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环境,并进行了相应的测试.本文主要讲的是如何将Hive和HBase进行整合. Hive和HBase的通信意图 Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

FineBI学习系列之FineBI与IBM DB2数据连接(图文详解)

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-562.html 目录: 1.描述 2.操作 3.注意事项 1.描述 IBM DB2主要应用于大型应用系统,具有较好的可伸缩性,可支持从大型机到单用户环境,应用于所有常见的服务器操作系统平台下. DB2提供了高层次的数据利用性.完整性.安全性.可恢复性,以及小规模到大规模应用程序的执行能力,具有与平台无关的基本功能和SQL命令