大数据分析工具使用户能够分析各种各样的信息——包括结构化事务数据和社交媒体帖子、Web服务器日志文件及其他形式的非结构化和半结构化数据。一旦组织决定要购买一个大数据分析工具,下一步就是制定一个流程,评估可用的产品,然后从中找到一个最适合你需求和要求的产品。
下面我们将介绍在评估各种大数据分析工具符合企业需求的程度时可能用到的必备特性和特定属性。然后,你再编写一个预案请求(RFP),说明使用这些工具将如何解决组织的需求。
一、 建模技术的广度与深度
供应商已经应用了不同级别的建模,并且相应地开发了不同复杂度的分析功能。单个工具支持的分析建模广度反应了所提供的不同方法。其中一些例子包括回归技术、根据过去趋势预测变化值的时间序列模型、分类与回归树(也称为CART)和神经网络。
建模技术的深度反映了所使用方法的两个方面特征:支持更精准开发模型的算法成熟度和建模技术的灵活性。换而言之,数据挖掘和预测分析时需要使用哪一种级别的专业知识才能理解目前能够开发哪一些类别的模型及如何使用一个特定工具完成建模?经验一般的数据分析师感兴趣的是提供大量分析功能的供应商产品,而更专业的分析师和统计师则更偏好于那些能够更深入分析特定分析模型的工具。
二、 集成与可访问性
大数据分析应用通常依赖于越来越多的内部和外部数据源,其中包括结构化和非结构化数据。这促成了支持数据可访问性和系统集成的功能需求。
三、 非结构化数据使用率
确认产品能够使用不同类型的非结构化数据(文档、电子邮件、图像、视频、演示文稿、社交媒体渠道信息等),并且能够解析和利用收到的信息。
四、大数据可访问性
对比供应商工具连接大数据架构的方式,其中包括存储在Hadoop的分布式数据,以及各种横向扩展存储中存储的文件(例如,MongoDB或Apache Cassandra等NoSQL数据)。
五、 与现有平台组件的互操作性
如果要在一些传统数据管理和BI技术中混搭分析方法,那么这一点非常重要。例如,许多分析工具支持通过传统的SQL查询去调用分析模型。这种形式的互操作性允许使用预测模型的结构去产生一些传统数据分析师通常都能使用的查询与报表。
1.连接性 一定要评估连接性,或者说产品访问其他系统的能力,以及作为数据源给现有平台提供用于生成报表和分析的能力。
2.易用性 有一些大数据分析产品是供应商从零开始开发的,而有一些则基于开源的R统计语言。无论是哪一种情况,这种评估类别主要关注于产品用于分析数据、开发模型和确定模型有效性与准确性的易用性。
3.业务分析师可用性
没有统计背景的商业分析师是否也能够轻松地开发分析和应用呢?确定产品是否提供了方便开发和分析的可视化方法。
4.部署不同业务用例的灵活性
相同的算法方法可以应用到许多不同行业的不同业务场景中。如果你的组织准备做的这类分析数量有限,并且集中在更为普通的用例上(如客户生命周期价值分析、欺骗行为分析或存留预防),那么你可能应该在技术选择牺牲一些灵活性。然而,如果你的组织想要一种广度更大、约束更小的分析方法,则应该寻找一些灵活性更高的建模技术。