大数据工作由哪几部分组成

关于大数据的概念,指的是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。而大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。那么关于大数据的技术大致包含哪些内容?

一、数据采集

ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

二、数据存取

关系数据库、NOSQL、SQL等。

三、基础架构

云存储、分布式文件存储等。

四、数据处理

自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

五、统计分析

假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

六、数据挖掘

分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。

七、模型预测

预测模型、机器学习、建模仿真。

八、结果呈现

云计算、标签云、关系图等。

原文地址:https://www.cnblogs.com/zgq123456/p/10017904.html

时间: 2024-10-28 17:48:24

大数据工作由哪几部分组成的相关文章

浪叫兽大数据工作经验简介

入职公司后,知道自己要从事的是一份数据仓建设工作,从项目经理那里了解到,主要是负责数据的接入,清洗,还有场景的建设. 和普通的新入职场的人一样,我对工作也都是存在恐惧的,而且有焦虑症,因为对工作的未知性,还有也不知道工作的要求是不是很高,自己是否会能在岗位呆下去,真的创造价值,那都是后话. 不怕你恐惧,我随意列举一下我在项目经理给出的PPT里面列举的词,数据仓,数据集市,MPP,Hbase,OGG,ETL,FLUME,历史数据,增量数据,spark,hdfs,strom,hadoop,infa,

大数据日知录:架构与算法

大数据丛书 大数据日知录:架构与算法(大数据领域专家力作,专注大数据架构和算法,全面梳理大数据相关技术) 张俊林 著   ISBN 978-7-121-24153-6 2014年9月出版 定价:69.00元 404页 16开 编辑推荐 这是一本心血之作,历时3年,质量上乘. 从架构与算法的角度,比较全面地分门别类梳理了大数据相关技术. 本书内容紧跟技术前沿,讲解深入浅出,适合大数据领域所有技术人员. 书中还列有作者优选的高质量文献,能为读者节省选择的时间,绝对值得一读. 内容提要 大数据是当前最

从大数据的应用谈如何成为大数据大师的历程

以下数据显示,中国大数据IT应用投资规模,应用以五大行业最高,其中以互联网行业占比最高,占大数据IT应用投资规模的28.9%,其次是电信领域(19.9%),第三为金融领域(17.5%),政府和医疗分别为第四和第五,请看如下图: 根据国际知名咨询公司麦肯锡的报告显示:在大数据应用综合价值潜力方面,信息技术.金融保险.政府及批发贸易四大行业潜力最高,具体到行业内每家公司的数据量来看,信息.金融保险.计算机及电子设备.公用事业四类的数据量最大,因此:无论是投资规模和应用潜力来看,信息行业(互联网和电信

chinacloud大数据新闻

2015年大数据发展八大趋势   (0 篇回复) “数据很丰满,信息很骨感”:Sight Machine想用大数据的方法,打碎两者间的屏障   (0 篇回复) 百度携大数据"圈地"证券业 "BAT"开启互联网金融新战场   (0 篇回复) 码农的春天到了?   (0 篇回复) 浪潮大数据一体机出招 装备科研“最强大脑”   (0 篇回复) 方物软件承担国家“核高基”重大专项研发   (2 篇回复) 2013互联网大会透露的热点与新趋势   (1 篇回复) 大数据从幕

大数据分享

<IT十八掌大数据内功修炼到企业实战2.0课程>免费自学马拉松计划   1.关于十八掌 学了大数据,还是不敢找工作?  内功不够!跟随十八掌掌门徐培成炼内功! 十八掌教育努力打造一套地表最强[大数据+云计算]内功修炼系列课程,不拿"地摊货.三脚猫.低级入门"课程来忽悠学员!全部干货,拒绝忽悠,拒绝废话,上来就干!庖丁解牛,剥茧抽丝,行云流水,大彻大悟!十八掌带你进行真正的"内功修炼",练就软件开发十八般武艺,行走江湖,所向披靡! 2.<IT十八掌大

挨踢部落直播课堂第一期:起航2017——拥抱大数据

1.大数据框架结构和全景概览: 2.企业大数据场景和不同数据源整合利用: 3.大数据学习与高薪求职: 一.大数据框架结构和全景概览 似乎一夜之间,大数据(Big Data)变成一个IT行业中最时髦的词汇. 大数据 首先,大数据并不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据每个用户的需求,Google实时从全球海量的数字资产(或数字垃圾)中快速找出最可能的答案,呈现给你,就是一个最典型的大数据服务.只不过过去这样规模的数据量处理和有商业价值的应用太少,在IT行业

各地都在搞大数据,你的家乡有啥特色没——解读2017年地方政府大数据报告

文 | 帆软数据应用研究院 水手哥 日前,数据中心联盟大数据发展促进委员会发布了<我国地方政府大数据发展规划分析报告>,聚焦各省市大数据发展举措,对37个省市的大数据文件展开了整理,从目标定位.基础能力.应用.产业.安全保障等规划进行了总结分析,可以帮助大家比较全面的了解地方大数据发展政策. 一.不同的特色 整体来看,各地政府依据自身实际情况,形成了以下三种发展规划: 1.引领型.以北京.广东.江苏为代表,这三地凭借强大的经济.科技与人力资源实力,在关键技术.先进产品.产业生态体系构建方面,制

分享IT十八掌大数据

<IT十八掌大数据内功修炼到企业实战2.0课程>免费自学马拉松计划   1.关于十八掌 学了大数据,还是不敢找工作?  内功不够!跟随十八掌掌门徐培成炼内功! 十八掌教育努力打造一套地表最强[大数据+云计算]内功修炼系列课程,不拿"地摊货.三脚猫.低级入门"课程来忽悠学员!全部干货,拒绝忽悠,拒绝废话,上来就干!庖丁解牛,剥茧抽丝,行云流水,大彻大悟!十八掌带你进行真正的"内功修炼",练就软件开发十八般武艺,行走江湖,所向披靡! 2.<IT十八掌大

技术不是大数据第一生产力,数据交易才能带来应用爆发

导言:我从事大数据工作10余年,很多时候和圈内朋友谈及大数据,大家首先都谈到的是数据挖掘和人工智能算法,或是hadoop的架构.我也曾深陷这样的误区,认为"只要会写算法.实现架构就是大数据的全部":但我这些年的应用实践中,越来越发现,大数据发展最大的瓶颈不是技术,而是高质量数据源的获取.提供和交易环节没有被打通. 技术不是关键高质量的数据源永远是第一位 大数据行业很多新人,甚至业内多年从业者都有这个误区:认为算法.模型很重要.而我认为,即使技术达到世界顶级水平,它依旧不是大数据价值引擎