大数据生态圈中相关原理(1)

MapReduce 原理

客户端任务到jobTracker, jobTracker分发任务到map和reduce。

map从datasplit 中获取数据区,根据客户端的相关业务逻辑生成(K,V)对,数据先缓存到环形缓冲区,直到达到设定上限(默认为80%),然后会写入到磁盘上。写入磁盘之前,会进行分区排序。

reduce 会根据各自分区copy自己所需要的数据,先进行合并,排序,然后执行reduce的逻辑,接着会将结果输出的HDFS上part-...-00000

shuffle相关原理,以及参数相关优化

shuffle 在hadoop中表示从map到reduce之间的网络传输数据操作

首先map将得到的(k,v)键值对存储到一个环形缓存区,该缓冲区在达到80%时,会将数据写到磁盘上(spill to disk),写入到磁盘上之前会对先执行分组(partitoner)和排序(fast sort)。

这边有几个参数可以调整修改以提高性能,缓冲区大小设置(如果能够估算出map输出的大小可以直接设置防止缓冲区溢出),缓冲区门限设置,partitioner分区设置(分区方式最好能够防止数据倾斜现象)

上面说到,数据存到磁盘上面,reduce分别从map端溢出的文件,copy自己分区所需要的数据,如果数据超过10个(默认)会进行combine操作(类似reduce的操作,为了降低输入reduce的数据量),同样,这边还会进行一个合并和排序,然后输入reduce。

优化参数包括,默认最大合并文件数可以设定的大一些等等,如果有combiner可以将最小combine的数量设定为3,如果数据量很大的话可以使用压缩编码,编码方式可以不用默认的zip编码采用lzo方式

HDFS相关原理

主要包括两种角色,namenode,secondarynamenode,datanode

namenode主要负责数据,记录数据的上传下载修改,保存数据块的位置信息。

secondarynamenode,主要负责日志的合并

datanode实际上的数据存储位置,会通过heartbeat和namenode进行,并汇报block信息

补充: 之前的有一个项目弹幕采集,在接收端使用朴素贝叶斯算法,通过分词器可以分析弹幕中的情绪。

原文地址:https://www.cnblogs.com/yeyangplus/p/9416337.html

时间: 2024-10-08 03:05:25

大数据生态圈中相关原理(1)的相关文章

大数据开发过程中的5个学习通用步骤

大数据的开发过程,如图1-1所示. 图 1-1大数据开发通用步骤图 上图只是一个简化后的步骤和流程,实际开发中,有的步骤可能不需要,有的还需要增加步骤,有的流程可能更复杂,因具体情况而定. 下面以Google搜索引擎为例,来说明以上步骤. 如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群529867072 这样大家学习的话就比较方便,还能够共同交流和分享资料 大数据采集 Google的数据来源于互联网上的网页,它们由Google Spider(蜘蛛.爬虫.机器人)来抓取,抓取的原理也

大数据运算模型 MapReduce 原理

大数据运算模型 MapReduce 原理 2016-01-24 杜亦舒 MapReduce 是一个大数据集合的并行运算模型,由google提出,现在流行的hadoop中也使用了MapReduce作为计算模型 MapReduce 通俗解释 图书馆要清点图书数量,有10个书架,管理员为了加快统计速度,找来了10个同学,每个同学负责统计一个书架的图书数量 张同学 统计 书架1王同学 统计 书架2刘同学 统计 书架3...... 过了一会儿,10个同学陆续到管理员这汇报自己的统计数字,管理员把各个数字加

老李分享大数据生态圈

老李分享大数据生态圈 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择.         大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSy

【云杂谈】之四《大数据浪潮中,IT巨头和互联网新贵谁在裸泳?》

[云杂谈]之四<大数据浪潮中,IT巨头和互联网新贵谁在裸泳?> 摘要:在大数据浪潮中,许多公司都耐不住寂寞跳进海中冲浪.本文主要介绍不同类型的公司对大数据的理念和做法有哪些不同.IBM.Oracle等大IT巨头以及Google.Baidu等互联网新贵们对大数据商业策略上是有所不同的,以及他们选择这样策略的原因.然后,最终谁可能是在裸泳? 大数据的背景 关于大数据的说法很多,谈论最多的就是大数据的几个V.各大厂商对大数据的概念的阐述中,不管是4V(Volume.Velocity.Variety.

老李分享大数据生态圈 2

        那如果我要更高速的处理呢? 如果我是一个类似微博的公司,我希望显示不是24小时热博,我想看一个不断变化的热播榜,更新延迟在一分钟之内,上面的手段都将无法胜任.于是又一种计算模型被开发出来,这就是Streaming(流)计算.                Storm是最流行的流计算平台.流计算的思路是,如果要达到更实时的更新,我何不在数据流进来的时候就处理了?比如还是词频统计的例子,我的数据流是一个一个的词,我就让他们一边流过我就一边开始统计了.流计算很牛逼,基本无延迟,但是它的

老李分享大数据生态圈 1

老李分享大数据生态圈 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择.         大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSy

大数据学习的思维原理(机器懂人原理篇)

我们在上一篇文章中给大家介绍了很多大数据学习的思维原理,对于这些思维原理都是需要大家掌握的,在这篇文章中我们给大家讲解一下机器懂人原理,希望这篇文章能够给大家带来帮助. 首先我们给大家说说什么是机器懂人原理,机器懂人原理就是由人懂机器转变为机器更懂人.这里说的不是让人更懂机器,而是让机器更懂人,或者说是能够在使用者很笨的情况下,仍然可以使用机器.甚至不是让人懂环境,而是让我们的环境来懂我们,环境来适应人,某种程度上自然环境不能这样讲,但是在数字化环境中已经是这样的一个趋势,就是我们所在的生活世界

大数据项目中的QA需要迎接新的挑战

大数据项目中的QA需要迎接新的挑战 根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%).医疗.保险.证券和投资服务.电信,每个行业复合年增长率都是12.8%.由此可见,大数据类项目在未来的地位将会越发重要,而作为QA,在大数据项目急速扩张的大背景下,也将迎来新的机遇和挑战. 一.大数据项目的数据特点 大数据项目与传统交付项目的不同之处在于其关注的重

二、大数据生态圈尝鲜

Title: 二.大数据生态圈尝鲜 Author: Martin Date: 2016-02-24 18:00 Summary: 先通过几张图对大数据的生态圈有个宏观的认知, 搞清楚有哪些知识点需要掌握, 这些知识点后面都会详细讲解. 技术生态圈: hadoop生态圈: spark生态圈: 企业生态圈: 来自为知笔记(Wiz)