大数据服务运营之数据采集

数据采集过程包括集成、导入、格式化。

数据采集过程中首先集成来自不同来源的数据。数据集成要考虑存储架构、采集方式、接口方式、采集周期等。

在存储架构方面,可以考虑在数据源侧设置数据暂存区(Staging Area),也可以考虑在采集平台侧设置的暂存区。靠根据数据量和累计速度来设置合理大小的数据暂存区,防止数据溢出。

在存取方式方面,可以根据应用的需要采用不同的存取方式。采集方式包括单个采集和批量采集两种类型,对于数据量小、时效性要求高的应用,可以采用单个采集的方式,当数据形成后可以立即同步到数据仓库。比如用于审计的操作日志,可以采用单个采集的方式,当操作日志产生后就实时地同步到数据仓库。对于文件多而且实时性要求相对较低的数据,可以等文件数达到一定规模或者达到一定的时间周期后,批量采集或者推送到数据仓库。

在接口方式方面,对于批量采集的数据,可以考虑采用FTP方式,对于单个采集的数据,可以采用API或者Web Services接口的方式。

在采集周期方面,通常是采集周期越短,数据的实时性越高,数据分析的结果越及时。企业可以根据应用的需要设置不同的采集周期,要考虑数据暂存区能否满足要求。

在数据导入方面,根据数据规模大小分为三种导入类型。

第一种是数据量大而且需要导入数据定义的场景,比如数据定义包括索引、分区等,可以考虑采用大文件导入方式,这样可以保证数据源的完整性。

第二种是对于数据源结构简单、导入文件多、规模大的数据,可以采用批量文件导入的方式,这样可以看到导入过程中产生的错误,并及时纠正,保证数据导入的质量。

最后一种是对于数据量小的单个文件,比如某些代码表、配置文件等,可以通过数据导入工具逐个导入,这种方式比较简单灵活。

数据采集阶段的数据规范化工作非常重要,因为数据分析必须基于一个统一的标准,而多种数据源就某一个数据通常会存在形成和内容上的不同。比如在A数据源中,日期格式以“年-月-日”形式存储,而B数据源中以“月-日-年”形成存储,因此需要将这两种数据源中的格式进行统一。

也有的字段存储的数据类型不一样,比如在A数据源中,年龄字段以字符串格式存放,而B数据源中以整型格式存放,需要将两个字段统一为一种数据类型。还有的数据在不同数据源中存放的内容不一样,但是表达的是同一个意思。比如A数据源中的“性别”是“M”和“F”代表“男”和“女”,而B数据源中“性别”则是用“1”代表“男”,而用“0”代表“女”,因此需要实现两种数据源“性别”在语义上的统一。

不同数据源在同一数据上存在差异的原因是信息系统设计时并没有考虑到其它信息系统或者不同的应用提供商并没有遵循共同的编码规范。

原文地址:https://blog.51cto.com/lifudong/2448779

时间: 2024-11-06 03:48:54

大数据服务运营之数据采集的相关文章

美柚:最懂女性App背后的混合云架构与大数据服务

免费开通大数据服务:https://www.aliyun.com/product/odps 直播视频: (点击图片查看视频) 幻灯片下载地址:https://oss.aliyuncs.com/yqfiles/5b0a3ac1717e9f25bfd528e1abb60f9c.pdf 3月25日云栖社区在线实时分享顺利结束,本次美柚带来的分享包括如何充分利用现有机房服务器资源与阿里云产品组建混合云架构,实现快速部署与大数据的处理与计算服务.同时也详细介绍了美柚在多维度用户数据分析处理和大数据智能挖掘

大数据服务相关站点整理

今天突然来了兴致,想要看看目前有哪些大数据服务相关站点,百度'大数据'翻了十来页,找出了以下站点,[xxx(分类)]是我根据其网站性质定义的标签,如有不妥之处,勿喷. 资讯类: 中国大数据资料和交流中心,[大数据资讯.大数据论坛] http://www.thebigdata.cn/ 紫数网,大数据服务平台,大数据门户[大数据资讯.问答社区] http://www.zishu010.com/ 36大数据,专注大数据应用与商业:[大数据资讯] http://www.36dsj.com/ 大数据中国,

IT大数据服务管理高级课程

IT大数据服务管理高级课程(IT服务,大数据,云计算,智能城市) 适合人群:初级 课时数量:6课时 用到技术:大数据,云计算 涉及项目:IT服务,大数据,云计算 咨询qq:1840215592 北风推荐: 资深的讲师背景,深厚的理论基础,本套课程特别适合教学课题研究与IT类的论文写作参考. 个人简历 金石先生是马克思主义中国化的研究学者,上海财经大学经济学和管理学硕士,中国民主建国会成员,中国特色社会主义人文科技管理哲学的理论奠基人之一.金石先生博学多才,对问题有独到见解.专于工作且乐于助人,在

大数据服务大比拼:AWS VS. AzureVS.谷歌

[TechTarget中国原创] 对于企业用户来说,大数据服务是一项较具吸引力的云服务.三大巨头AWS.Azure以及谷歌都在力争夺得头把交椅,但是最后到底是哪一家能够取得王座之战的胜利呢? 云市场正在快速发展,同样大数据服务也在不断地变化着.虽然因为这三大云供应商(亚马逊网络服务.微软Azure和谷歌)的起点是不同的,这使得云供应商之间的比较也变得更为困难,但那还是值得尝试的. 云大数据是谷歌公司一直以来在搜索应用方面拥有丰富经验具有协同效应的市场领域,但是亚马逊网络服务(AWS)和Azure

MaxCompute,基于Serverless的高可用大数据服务

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的"阿里云栖开发者沙龙大数据技术专场"走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密. 以下内容根据演讲视频以及PPT整理而成. 一.什么是MaxCompute Big Data in Alibaba首先为大家介绍阿里巴巴大数据技术的一些相关背景.正如下图所示,阿里巴巴

IT大数据服务管理高级课程(IT服务,大数据,云计算,智能城市)

个人简历 金石先生是马克思主义中国化的研究学者,上海财经大学经济学和管理学硕士,中国民主建国会成员,中国特色社会主义人文科技管理哲学的理论奠基人之一.金石先生博学多才,对问题有独到见解.专于工作且乐于助人,在知识结构上已经实现了哲学.国学.MBA.IT知识的纵向贯穿,是难得的产.学.研.用一体化人才.金石先生具有国企.外企.民企.高校的工作阅历,在信息与通信技术.协作.管理服务领域积累了丰富的咨询顾问.教育培训经验.运用他发明的ICT(信息与通信)之5C模型(COMMAND-CONTROL-CO

Windows Azure上的大数据服务: HDInsight的介绍

这个视频介绍了目前非常流行的大数据处理框架Hadoop的Windows Azure上的实现:HDInsight,以及利用MapReduce来对大数据进行分析,利用Hive进行查询,利用客户端PowerBI, PowerQuery对结果进行展示等过程. 讲的通俗易懂,实乃Hadoop大数据处理最佳入门:) http://channel9.msdn.com/Series/MVA-China-2/dataservices-20140918-2-5

大数据服务之数据管理

数据管理过程主要包括:数据转换.数据关联.数据丰富.数据操作以及数据保持. 数据转换就是将数据从一种形式变换为另一种形式,通过形式的变化,使得数据更便于分析利用.比如在数据采集阶段导入的原始数据,需要将其从字符串类型转换为浮点型,这样便于对该数据项进行求和.另外,也可能因为数据格式问题进行数据转换,比如原始数据为网页这样的半结构化数据,为了能够搜索到网页中的数据,往往需要将网页中的关键数据提取出来并做成标签,再把标签作为检索项,这样检索时就没有必要检索整个网页了,通过这样达到提高检索效率的目的.

大数据服务脚本化管理

HBASE echo "create 'TEST', {NAME => 'cf1', VERSIONS => '3', COMPRESSION => 'SNAPPY'}, {NAME => 'cf2', VERSIONS => '3', COMPRESSION => 'SNAPPY'}, SPLITS_FILE => '/tmp/splits_file.txt'" | $HBASE_HOME/bin/hbase shell -n > /d