【转载】必看:数据平台的搭建教程及软件工具

按系统功能分,不同的数据平台对应着不同的常用软件。在大数据兴盛的今天,欲进军数据界的你,应该对此有更进一步的了解。

1.数据挖掘模块

作为一个跨学科的计算机科学分支,数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程,属于非传统的数据处理。相对于传统ETL数据处理,数据挖掘更侧重于知识发现,其计算和规则也更加复杂。

【现阶段常用的数据挖掘软件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R语言、RapidMiner、SAS、SPSS、Weka等。

2.ETL模块

目前,对于传统ETL,大部分ETL软件都可以胜任;但是对于大数据下的ETL,ETL工具对其支持非常有限。

Informatica为大数据下的ETL开发推出InformaticaBigData版本,它将之前的Mapping翻译为HQL脚本,从而在Hive引擎上执行。IBM的DataStage则通过相应BalancedOptimizer实现Mapping到Netezza、Oracle和DB2等专用数据库的脚本翻译,以利用不同的更为强大的数据处理引擎。TalendETL则把Mapping翻译为SparkSQL,从而利用Spark引擎对数据进行处理。

【现阶段常用的ETL软件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表现为通过拖拽和配置的方式可视化、免编码地完成ETL工作;脚本包括标准AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表现为通过特定的语法进行编码实现ETL工作。

3.调度模块

调度模块,可以对企业内跨平台和跨主机的软硬件资源进行统一调度。这些资源包括ETL主机、数据交换主机、报表主机、数据库主机、DQ主机、邮件服务器和打印机等。

【现阶段常用的调度软件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。这些调度软件往往提供GUI和CLI的配置方式,其中Control-M在大企业中用的最多,TaskCtl在中小型企业中用的最多。

4.数据交换模块

数据交换模块,包括数据导入和数据导出。数据导入包括文件日志接入、数据库日志接入、关系型数据库接入和应用程序接入等。

【现阶段常用的数据交换软件】文件日志接入可采用Flume等;数据库日志接入则往往需要开发特定的插件来读取MySQL、Oracle和SQLServer等的数据库日志或变更表;关系型数据库和NoSQL数据库接入则使用ApacheSqoop、大众点评wormhole、TaobaoDataX等;应用程序接入则通过应用程序对外接口进行接入。

5.报表模块

报表工具的学习成本和开发难度比起手工编写页面来说,无疑更低,而且,它的开发周期和项目风险也得到了有效的控制。

【现阶段常用的报表软件】

BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。这些报表软件多数都提供了列表、交叉表、图表、地图和仪表板的能力。

6.监控模块

监控模块,可以对系统硬件(交换机、路由器和主机等的电力、通信、磁盘、内存、CPU等)、系统软件(Web服务器、中间件服务器、数据库服务器和缓存服务器等的资源、连接数和负载等)和数据(数据的一致性、稳定性和可靠性等)进行实时监控,发现问题及时告警甚至按预设方案自动进行处理。

【现阶段常用的监控软件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。

7.DQ模块

DQ模块,主要对数据质量进行控制,包括源数据的质量检查、数据清洗、数据融合和数据监控等,贯穿数据处理的整个生命周期。尽管DQ模块非常重要,但是目前好些数据处理项目都没有专门的DQ模块,这些功能以脚本形式零散分布于不同的作业中。

【现阶段常用的DQ软件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。

8.资产权限模块

资产权限模块,能够统一对一些无形资产(企业的各种数据库表、视图、ETL作业、报表、邮件等)进行权限管控,保障信息安全和共享。该模块完整实现的工作量还是比较大的,多数企业都会借助不同软件自带的权限管理能力,形成分散的资产权限模块。

【现阶段常用的资产权限软件】并没有完全开箱即用的资产权限模块。

想要纵横大数据世界,傍身技能必不可少,善用工具能让你百战不殆!

來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

时间: 2024-10-31 12:36:57

【转载】必看:数据平台的搭建教程及软件工具的相关文章

Ambari——大数据平台的搭建利器之进阶篇

前言 本文适合已经初步了解 Ambari 的读者.对 Ambari 的基础知识,以及 Ambari 的安装步骤还不清楚的读者,可以先阅读基础篇文章<Ambari--大数据平台的搭建利器>. Ambari 的现状 目前 Apache Ambari 的最高版本是 2.0.1,最高的 Stack 版本是 HDP 2.2.未来不久将会发布 Ambari 2.1 以及 HDP 2.3(本文也将以 Ambari 2.0.1 和 HDP 2.2 为例进行讲解).其实在 Ambari trunk 的 code

大数据平台CDH搭建学习(5.10.0)

又是一个周末,本来是已经打开wegame,更新一下许久未碰的lol,后来实在等不下去了,还是想想写写博客,正好最近也在学习CDH:刚刚就像女生买东西一样,毫不犹豫地买了3个云主机,好了,废话不多说,下面我们正式开始CDH搭建大数据平台. 一.Hadoop是什么? Hadoop是一个分布式系统架构,由Apache基金会开发.用户可以在不理解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储. 不足之处:①版本管理混乱 ②部署过程繁琐,升级过程复杂 ③兼容性差 ④安全性低 二.

h5微信群牛牛平台如何搭建 教程分享

HTML5plus Runtime,简称5+ Runtime,是运行于手机端的强化web引擎,除了支持标准HTML5外,还支持更多扩展的js api,使得js的能力不输于原生.5+ Runtime内置于HBuilder,在真机运行.打包时自动挂载. 业内之前有phonegap/Cordova方案,但是他们自带js api太少了,扩展api需要用原生语言开发,更致命的是这类方案的性能不足. h5微信群牛牛平台如何搭建(q-2152876294)各类大厅搭建材料(http://diguaym.com

SAP ABAPer必看的BC系列标准教程

作为一名SAP ABAPer开发人员, 下列这些BC系列标准教程你都过了一遍了没? 在未给项目造成破坏力之前, 赶快自觉恶补一下吧. 哈哈 登录免费开放的ECC6 EHP6 IDES服务器, T-CODE: SE80, 配合PDF标准教程练习练习吧.http://blog.itpub.net/30030251/viewspace-1363822/ 已经申请了独立帐号的朋友, 要是手上没有这些BC系列标准教程的, 可以通过QQ或微信联系我哟.

cdh大数据平台环境搭建片

环境准备 三台服务器(由于我是学习环境,所以三台服务器不属于同一内网),配置如下: 公网ip 119.29.186.83   内网ip 10.104.157.113 公网ip 119.29.250.47   内网ip 10.104.9.181 公网ip 119.29.251.99   内网ip 10.104.196.48 软件包下载: http://archive.cloudera.com/cdh5/cdh/5/  下载地址 下载的文件名: 1.hadoop-2.6.0-cdh5.8.0.tar

网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。

免费开通大数据服务:https://www.aliyun.com/product/odps "令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的界面快速的开发,几个开发人员很快的掌握,甚至我们把阿里云的开发端给了业务部门,他们一些稍微资深一点的业务人员也可以使用,所以我们初步估计了一下,给我们节省的价值至少是千万级的."--网鱼网咖CTO楚发 关于网鱼网咖 网鱼网咖成立于1998年,致力于打造多人游戏空间,为顾客提供极致的游戏上网体验.网鱼

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

java实现微信公众号房卡牛牛六人平台开发搭建文章采集接口程序

日志实体类,用户记录用户登录登出 LogRec.javapackage q.dms.test; import java.util.Date; /** 实体类 包含用户登录的id,ip,userName,Long_in,Log_out,address,type @author sky_mg 2017年6月4日下午3:07:44 TODO 记录用户登录,登出信息记录 微信公众号房卡牛牛六人平台开发搭建教程:h5.fanshubbs.com联系技术Q:1687054422/ public class

基于MaxCompute打造轻盈的人人车移动端数据平台

以下内容根据演讲视频以及PPT整理而成. 一.人人车数据平台 快速搭建,一年时间完成6大平台的搭建 基于阿里云平台上成熟的技术,人人车企业只用了一年时间便实现了6大数据平台的设计与搭建,其中包括:Jarvis-BI报表平台.Metadata-元数据管理平台.Streaming-实时计算平台.Athena-数据工单平台.Cateye-监控平台与AD-HOC-自助取数平台. 上述数据平台的最底层均由阿里云的相关技术支撑运行,阿里云为平台的搭建提供了两种不同技术的支持,在储存计算技术方面,阿里云提供了