SPSS学习系列之SPSS Modeler的功能特性（图文详解）

　　　　不多说，直接上干货！

　　　　我这里，是以SPSS Modeler 18.0为例

IBM SPSS Modeler 18.0功能特色：

1、访问各种类型的数据
　　借助SPSS Modeler，您可以使用各种分析技术访问数据源，如数据仓库、数据库、Hadoop 分布或平面文件，以便从您的数据中发现隐含的模式。这些统计技术使用历史数据来预测当前状况或未来事件。这些统计技术还包括数据访问、数据准备、数据建模和交互可视化功能。借助准备和建模自动化流程，该产品适用于各种分析能力。

2、通过一系列技术拓宽您的分析范围
　　借助 SPSS Modeler，您的分析师可利用设计用于处理简单的描述性分析问题、最复杂的优化问题以及这两者之间的一切问题的单一平台，解决业务问题。SPSS Modeler 具有超出当今分析师标准分析要求的功能。一系列模型以及自动建模和数据准备、文本分析、实体分析和社交网络分析功能，可以帮助您处理最复杂的问题。

3、一系列模型及算法
　　分类算法-根据历史数据和技术进行预测。分段算法-利用自动聚类、异常检测和聚类神经网络技术将工作人员进行分组或检测不寻常的模式。关联算法-发现先验、CARMA 和序列关联性的关联、链接或序列。时间系列和预测-随着时间的推移，利用统计建模技术生成一个或多个系列的预测。可扩展性与 R 编程语言-应用转型，用脚本进行分析，并用 R 编程语言汇总或生成文本和图形输出。

4、数据准备和操作
　　SPSS Modeler 使数据准备自动化，以简化流程并帮助您确保您的数据格式为便于分析的最好格式。自动化任务包括进行分析数据和识别修复工具，筛选字段，必要时派生新属性，并通过智能筛选技术提高性能。

5、自动数据建模
　　借助 SPSS Modeler 的自动建模功能，非分析师人员无需专业技能即可迅速构建准确的模型。此外，先进的预测建模功能可支持专业分析人员创建最复杂的流。

6、地理空间分析
　　借助 SPSS Modeler，您可探索与某个位置有关的各个数据元素之间的关系并对您的数据进行地理空间分析，以发掘在图表或表格中不可见的洞察力。通过空间挖掘，您可利用 ESRI shape file 文件轻松挖掘地理空间数据。通过分析空间数据和非空间数据，可以提高整个模型的准确性，且您可以获取对人员和事件的更深入洞察力。

7、文本分析
　　借助可定制的特定行业文本分析包，您可以对正确的上下文里的除首字母缩写、表情符号和俚语之外的相关术语和词组进行分析。交互式图表可帮助您探索和显示文本数据和模式，以便进行快速分析。

8、实体分析
　　借助 SPSS Modeler 的实体分析功能，您可非常轻松高效地将身份、行为和行动数据与各自的实体实时或批量关联起来。您还可适时合并记录或将它们分离开来。结果会怎样呢?您的组织将具有可帮助提高模型质量的关联企业数据。

9、社交网络分析
　　SPSS Modeler 可提供相关社交网络分析功能，将与关系有关的信息转为显示个人和团队的社会行为的关键业绩指标。您可以利用这些指标来识别影响网络中他人行为的社交领导者。结合这些结果与其他措施，您可以创建全面的个人资料文件，并以此作为您的预测性模型的基础。

10、借助灵活部署适应您的各种需要
　　SPSS Modeler 架构是一个支持一系列平台和语言的开放式平台。您可以在您的环境中或从云端部署 SPSS Modeler，然后在您的现有系统中自信地用它来优化性能和处理业务问题。通过按计划或按要求为工作人员和流程提供结果，这种灵活部署可弥合分析和行动之间的差距。

11、改善决策和成果
　　利用各种高级算法构建预测模型。
　　结合使用预测模型、业务规则和优化技术，在给定参数内通过云执行决策。
　　在影响点向人员和系统提供建议，改善决策和操作。
　　将分析结果集成到现有业务流程和运营应用中。
　　将 SPSS Modeler 与 IBM Cognos Business Intelligence 集成时，在 BI 报表或仪表盘中显示分析。
　　集成 IBM Cognos TM1，以在 Cognos TM1 多维数据集中使用或显示数据。

12、从数据中提取价值
　　无论数据存储在何处(例如，数据仓库、数据库、平面文件等)，均可执行分析。
　　将 SPSS Modeler 与 IBM SPSS Analytic Server 结合使用时，可在 Hadoop 版本中分析数据。
　　不仅可分析结构化数据(例如，年龄、价格、产品、位置等)，也可以分析非结构化数据(例如，文本、电子邮件、社交媒体数据等)。
　　使用统计算法和文本分析揭示数据中隐藏的洞察和模式。
　　使用实体分析进行实体解析和社交网络分析，显示个人和群体的社交行为。
　　通过自动化的数据准备、建模和基于 Web 的订阅降低复杂性。

13、更轻松地集成到现有系统中
　　与 IBM 数据库或其他供应商的数据库配合使用，更快速、更高效地部署模型并评分。
　　通过将 SPSS Modeler 与 SPSS Statistics、Cognos Business Intelligence、Cognos TM1 和 InfoSphere Streams 集成，实现更流畅的分析工作流程。
　　通过使用那些支持 IBM Pure DataTM Systems、InfoSphere Warehouse、IBM DB2 和 Linux on IBM System z 功能的服务器版本，最小化数据移动，并提高性能。
　　通过“冠军/挑战者”方法评估预测模型，并自动执行评估。

14、支持的平台更加广泛（MAC / Windows 10）

　　相比于Modeler的兄弟产品，SPSS Statistics早在3年前的 21.0 版本已经开始支持 Mac 操作系统，而Modeler一直只能支持Windows操作系统，可谓愁死了广大的果粉了。很多果粉小伙伴为了能够在Mac上用上Modeler可谓是费苦心啊。

　　但是现在，Modeler的18.0版本也正式发布了Mac版本，从此与虚拟机“Say Byebye”，咱们终于也能够在Mac上直接使用了。

15、性能/功能更加强大的大数据算法

　　15.1 所有算法都支持本地运行而不需要连接Analytics Server

　　在Modeler之前的版本中，为更好满足客户的需求，特意设计了部分支持分布式计算的算法，而这些算法的实现是需要Analytics Server（简称AS，大家可以把AS理解为SPSS Modeler与Hadoop的连接器）这一模块才能运行的，而现在这些新的算法都支持在本地client端运行。

　　15.2 所有新算法都支持基于内存的分布式计算

　　毫无疑问，对于大规模数据集来说，使用多线程计算将能更好地利用我们的硬件资源，更重要的是能够节省我们的建模时间。在旧版本的SPSS Modeler版本中，只有部分的算法（CHAID，C&RT树，QUEST，线性模型，神经网络）能够支持多线程，并且只有在连接上Modeler Server中的时候，才能启用这项功能。

　　而在刚刚 15.1 提到的所有算法当中，现在都能支持多线程计算，并且直接在Modeler client端中即可启用多线程，而无需连接至服务器端。

　　15.3 算法优化

　　（1）线性SVM以及广义线性模型（AS算法）提供了正则化功能

　　我们知道过拟合是我们机器学习过程中常常面临的问题，为了避免模型过于复杂带来的问题，我们可以通过正则化对模型添加先验，使得模型的复杂度得到控制，从而减少噪声的扰动。因此在Modeler的18版本中，GLE以及LSVM都提供了正则化的功能：

　　（2）树模型和LSVM模型提供了专门的数据准备功能

　　为了增强Tree-AS以及LSVM的能力，在Modeler的18版本当中，特意结合了数据准备功能在这两个节点中，具体能力包括：连续字段分箱处理，分类字段进行类别合并，时间戳进行字段转换，把缺失值自动视为新的类别（Tree-AS）等等

　　（3）随机树节点新增功能选项

随机树节点，大家可以理解为随机森林，但因为随机森林最早被Leo Breiman和Adele Cutler提出后，就被注册成了商标，因此这里称之为随机树模型。该模型新增了两个功能选项：

　　(a) 指定要用于拆分的最小预测变量数：如果是构建拆分模型，请设置要用于构建每个拆分的最小预测变量数。这防止拆分创建过小的子组。

　　(b) 当准确性无法再提高时停止构建要：改进模型构建时间，请选择此选项，以在结果的准确性无法提高时停止模型构建过程。

　　（4）时间序列算法的增强

　　时间序列算法主要增强在两方面，一个是支持了多线程计算，二是增加了同时计算多个时间序列模型功能。

　　例如在旧版本中，当我们的原始数据是6个销售门店从2015年1月到2016年6月的销售额，那么我们只能通过编程或分别使用多个时间序列节点才能完成对6个销售门店时间序列的预测，但是在新版本中，我们则可以一次性构建多个模型，大大简化了建模的步骤。

　　16、在开源技术上更多的扩展和更强大的支持

　　16.1 在开源工具上更好的扩展和支持

　　机器学习是一个充满生命力的技术领域，开源技术每天都会有长足的进步，为了能够保证能够在SPSS Modeler平台上使用到新的数据技术，Modeler在开源技术上一直有很好的支持。

从15版本开始集成R语言，16版本开始集成Python，17版本集成Spark。而来到我们的18版本，SPSS Modeler在集成上再更进一步，以往在集成Python以及Spark上需要AS组件的支持，但是现在我们能够直接在Modeler的客户端上直接集成Python的能力，并且我们能够把相关的R语言代码/Python代码直接集成成为一个建模节点。

　　16.2 全新的扩展中心

　　除了通过上述的方法，通过在Modeler中嵌入相关的R/Python代码定制相关节点外，IBM也开发了更多的功能在Github上，而现在我们可以直接在Modeler上下载应用相关的功能节点。

欢迎大家，加入我的微信公众号：大数据躺过的坑人工智能躺过的坑

同时，大家可以关注我的个人博客：

http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ http://www.cnblogs.com/sunnyDream/

详情请见：http://www.cnblogs.com/zlslch/p/7473861.html

　　人生苦短，我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神，汇聚于互联网和个人学习工作的精华干货知识，一切来于互联网，反馈回互联网。
　　目前研究领域：大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。语言涉及：Java、Scala、Python、Shell、Linux等。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。只要你一直关注和呆在群里，每天必须有收获

对应本平台的讨论和答疑QQ群：大数据和人工智能躺过的坑（总群）（161156071）

原文地址：https://www.cnblogs.com/zlslch/p/8472813.html

时间： 2024-11-04 01:54:23

SPSS学习系列之SPSS Modeler的功能特性（图文详解）

SPSS学习系列之SPSS Modeler的功能特性（图文详解）的相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

NVIDIA Jetson TK1学习与开发（八）：图文详解OpenGL在Jetson TK1上的安装和使用

Java学习系列(二十三)Java面向对象之内部类详解

Java学习系列(二十)Java面向对象之反射详解

Java学习系列(二十一)Java面向对象之注解详解

TortoiseGit学习系列之Windows上TortoiseGit的安装详解（图文）

大数据学习系列之五 ----- Hive整合HBase图文详解

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解

FineBI学习系列之FineBI与IBM DB2数据连接（图文详解）