按系统功能分,不同的数据平台对应着不同的常用软件。在大数据兴盛的今天,欲进军数据界的你,应该对此有更进一步的了解。
1.数据挖掘模块
作为一个跨学科的计算机科学分支,数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程,属于非传统的数据处理。相对于传统ETL数据处理,数据挖掘更侧重于知识发现,其计算和规则也更加复杂。
【现阶段常用的数据挖掘软件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R语言、RapidMiner、SAS、SPSS、Weka等。
2.ETL模块
目前,对于传统ETL,大部分ETL软件都可以胜任;但是对于大数据下的ETL,ETL工具对其支持非常有限。
Informatica为大数据下的ETL开发推出InformaticaBigData版本,它将之前的Mapping翻译为HQL脚本,从而在Hive引擎上执行。IBM的DataStage则通过相应BalancedOptimizer实现Mapping到Netezza、Oracle和DB2等专用数据库的脚本翻译,以利用不同的更为强大的数据处理引擎。TalendETL则把Mapping翻译为SparkSQL,从而利用Spark引擎对数据进行处理。
【现阶段常用的ETL软件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表现为通过拖拽和配置的方式可视化、免编码地完成ETL工作;脚本包括标准AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表现为通过特定的语法进行编码实现ETL工作。
3.调度模块
调度模块,可以对企业内跨平台和跨主机的软硬件资源进行统一调度。这些资源包括ETL主机、数据交换主机、报表主机、数据库主机、DQ主机、邮件服务器和打印机等。
【现阶段常用的调度软件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。这些调度软件往往提供GUI和CLI的配置方式,其中Control-M在大企业中用的最多,TaskCtl在中小型企业中用的最多。
4.数据交换模块
数据交换模块,包括数据导入和数据导出。数据导入包括文件日志接入、数据库日志接入、关系型数据库接入和应用程序接入等。
【现阶段常用的数据交换软件】文件日志接入可采用Flume等;数据库日志接入则往往需要开发特定的插件来读取MySQL、Oracle和SQLServer等的数据库日志或变更表;关系型数据库和NoSQL数据库接入则使用ApacheSqoop、大众点评wormhole、TaobaoDataX等;应用程序接入则通过应用程序对外接口进行接入。
5.报表模块
报表工具的学习成本和开发难度比起手工编写页面来说,无疑更低,而且,它的开发周期和项目风险也得到了有效的控制。
【现阶段常用的报表软件】
BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。这些报表软件多数都提供了列表、交叉表、图表、地图和仪表板的能力。
6.监控模块
监控模块,可以对系统硬件(交换机、路由器和主机等的电力、通信、磁盘、内存、CPU等)、系统软件(Web服务器、中间件服务器、数据库服务器和缓存服务器等的资源、连接数和负载等)和数据(数据的一致性、稳定性和可靠性等)进行实时监控,发现问题及时告警甚至按预设方案自动进行处理。
【现阶段常用的监控软件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。
7.DQ模块
DQ模块,主要对数据质量进行控制,包括源数据的质量检查、数据清洗、数据融合和数据监控等,贯穿数据处理的整个生命周期。尽管DQ模块非常重要,但是目前好些数据处理项目都没有专门的DQ模块,这些功能以脚本形式零散分布于不同的作业中。
【现阶段常用的DQ软件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。
8.资产权限模块
资产权限模块,能够统一对一些无形资产(企业的各种数据库表、视图、ETL作业、报表、邮件等)进行权限管控,保障信息安全和共享。该模块完整实现的工作量还是比较大的,多数企业都会借助不同软件自带的权限管理能力,形成分散的资产权限模块。
【现阶段常用的资产权限软件】并没有完全开箱即用的资产权限模块。
想要纵横大数据世界,傍身技能必不可少,善用工具能让你百战不殆!
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。