大数据服务之数据管理

数据管理过程主要包括:数据转换、数据关联、数据丰富、数据操作以及数据保持。

数据转换就是将数据从一种形式变换为另一种形式,通过形式的变化,使得数据更便于分析利用。比如在数据采集阶段导入的原始数据,需要将其从字符串类型转换为浮点型,这样便于对该数据项进行求和。另外,也可能因为数据格式问题进行数据转换,比如原始数据为网页这样的半结构化数据,为了能够搜索到网页中的数据,往往需要将网页中的关键数据提取出来并做成标签,再把标签作为检索项,这样检索时就没有必要检索整个网页了,通过这样达到提高检索效率的目的。

数据关联是按照需要,借助关联属性将多个分散的数据源关联在一起,就像用一根绳子将多个数据串接起来一样,目的是方便定位所需数据,同时便于从多个维度进行数据统计。比如,身份号码、手机号码、终端设备号、网络编码等可以作为数据关联的外键,也可以根据分析需要构建多个数据表,以实现数据的关联。

范式原则可以提高操作型数据模型对业务需求响应的灵活性,减少数据冗余,分析型数据模型则希望通过数据关联形成面向多个主题的数据模型,面向主题的数据模型更加接近于用户需求,便于多维度地分析和展现数据。

数据丰富也是为了满足业务需求而对数据进行的完善,比如有一个学生,如

原文地址:https://blog.51cto.com/lifudong/2448810

时间: 2024-10-17 17:15:55

大数据服务之数据管理的相关文章

大数据服务相关站点整理

今天突然来了兴致,想要看看目前有哪些大数据服务相关站点,百度'大数据'翻了十来页,找出了以下站点,[xxx(分类)]是我根据其网站性质定义的标签,如有不妥之处,勿喷. 资讯类: 中国大数据资料和交流中心,[大数据资讯.大数据论坛] http://www.thebigdata.cn/ 紫数网,大数据服务平台,大数据门户[大数据资讯.问答社区] http://www.zishu010.com/ 36大数据,专注大数据应用与商业:[大数据资讯] http://www.36dsj.com/ 大数据中国,

美柚:最懂女性App背后的混合云架构与大数据服务

免费开通大数据服务:https://www.aliyun.com/product/odps 直播视频: (点击图片查看视频) 幻灯片下载地址:https://oss.aliyuncs.com/yqfiles/5b0a3ac1717e9f25bfd528e1abb60f9c.pdf 3月25日云栖社区在线实时分享顺利结束,本次美柚带来的分享包括如何充分利用现有机房服务器资源与阿里云产品组建混合云架构,实现快速部署与大数据的处理与计算服务.同时也详细介绍了美柚在多维度用户数据分析处理和大数据智能挖掘

IT大数据服务管理高级课程

IT大数据服务管理高级课程(IT服务,大数据,云计算,智能城市) 适合人群:初级 课时数量:6课时 用到技术:大数据,云计算 涉及项目:IT服务,大数据,云计算 咨询qq:1840215592 北风推荐: 资深的讲师背景,深厚的理论基础,本套课程特别适合教学课题研究与IT类的论文写作参考. 个人简历 金石先生是马克思主义中国化的研究学者,上海财经大学经济学和管理学硕士,中国民主建国会成员,中国特色社会主义人文科技管理哲学的理论奠基人之一.金石先生博学多才,对问题有独到见解.专于工作且乐于助人,在

大数据服务大比拼:AWS VS. AzureVS.谷歌

[TechTarget中国原创] 对于企业用户来说,大数据服务是一项较具吸引力的云服务.三大巨头AWS.Azure以及谷歌都在力争夺得头把交椅,但是最后到底是哪一家能够取得王座之战的胜利呢? 云市场正在快速发展,同样大数据服务也在不断地变化着.虽然因为这三大云供应商(亚马逊网络服务.微软Azure和谷歌)的起点是不同的,这使得云供应商之间的比较也变得更为困难,但那还是值得尝试的. 云大数据是谷歌公司一直以来在搜索应用方面拥有丰富经验具有协同效应的市场领域,但是亚马逊网络服务(AWS)和Azure

MaxCompute,基于Serverless的高可用大数据服务

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的"阿里云栖开发者沙龙大数据技术专场"走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密. 以下内容根据演讲视频以及PPT整理而成. 一.什么是MaxCompute Big Data in Alibaba首先为大家介绍阿里巴巴大数据技术的一些相关背景.正如下图所示,阿里巴巴

大数据慎行,数据管理要落实到KPI

近年来,"大数据"一词被IT和互联网行业广泛提及,但真正落到实处的案例没有多少,大数据量支撑.数据挖掘技术.非结构化数据是阻碍的主要原因.大多数企业的信息化并没有达到到成熟水平,关于数据实践的热点依旧集中在数据管理和可视化方面. 那么,企业究竟该如何结合自身发展情况应用数据?以下就举例介绍豫联集团中孚实业的信息化建设案例,原文是中孚实业有限公司CIO王文辉,同时也是河南CIO联盟秘书长,在帆软大数据巡展上的演讲. 关于豫联集团 豫联集团是以铝及铝精深加工为核心的煤电铝一体化大型现代化企

IT大数据服务管理高级课程(IT服务,大数据,云计算,智能城市)

个人简历 金石先生是马克思主义中国化的研究学者,上海财经大学经济学和管理学硕士,中国民主建国会成员,中国特色社会主义人文科技管理哲学的理论奠基人之一.金石先生博学多才,对问题有独到见解.专于工作且乐于助人,在知识结构上已经实现了哲学.国学.MBA.IT知识的纵向贯穿,是难得的产.学.研.用一体化人才.金石先生具有国企.外企.民企.高校的工作阅历,在信息与通信技术.协作.管理服务领域积累了丰富的咨询顾问.教育培训经验.运用他发明的ICT(信息与通信)之5C模型(COMMAND-CONTROL-CO

Windows Azure上的大数据服务: HDInsight的介绍

这个视频介绍了目前非常流行的大数据处理框架Hadoop的Windows Azure上的实现:HDInsight,以及利用MapReduce来对大数据进行分析,利用Hive进行查询,利用客户端PowerBI, PowerQuery对结果进行展示等过程. 讲的通俗易懂,实乃Hadoop大数据处理最佳入门:) http://channel9.msdn.com/Series/MVA-China-2/dataservices-20140918-2-5

大数据服务运营之数据采集

数据采集过程包括集成.导入.格式化. 数据采集过程中首先集成来自不同来源的数据.数据集成要考虑存储架构.采集方式.接口方式.采集周期等. 在存储架构方面,可以考虑在数据源侧设置数据暂存区(Staging Area),也可以考虑在采集平台侧设置的暂存区.靠根据数据量和累计速度来设置合理大小的数据暂存区,防止数据溢出. 在存取方式方面,可以根据应用的需要采用不同的存取方式.采集方式包括单个采集和批量采集两种类型,对于数据量小.时效性要求高的应用,可以采用单个采集的方式,当数据形成后可以立即同步到数据