当你学会抄菜的时候,你就学会了大数据

最近在学习数仓跟BI,突然发现,结合自己所学会抄的菜。试着把学过的大数据重新理解一番,希望各位都能来一起讨论,共同进步。

走进厨房
  走进厨房后,相信大家会看到各种锅碗瓢盆,案板,切菜刀,调料,橱柜,水池...........而这些就相当于是大数据的架构。

其中橱柜,相当于是Hadoop。橱柜可以储存各种食材,而Hadoop可以存储各种不同类的数据(结构化与非结构化)。而橱柜可以存放不同食材,比如不规整的豆腐块,大冬瓜,土豆....还有一些规整的食材,比如大米,小米,绿豆........规整的食材与不规整的食材的区别,各家有各家不同的规定,而一般的规定就是规格的食材要用袋子把它们装起来。这里就相当于是大数据里的数据整理流程。而这些半规整的食材要放到一个个小袋子里,比如说,淀粉,姜粉,蒜泥.....用袋子或者盒子把它们装好,放在相应橱柜的地方,就相当于我们大数据里说的ETL(抽取,封装,加载),以备后用。
  而不同厂家的橱柜又会有不同的格子划分及存储区,比如:欧派,宜家的橱柜就会划分出很多小的分区来装不同的东西。而这一块就相当于HBase,灶台下边有专门用于凉碗的,还有抽油烟机旁边专门用于放刀具的区域,还有专门用于放各种锅的区域。而当HBase划分的好的时候,就对上层的MapReduce有很大的帮助,因为你各个区域规划的越好,当你开始抄菜的时候,取用各种餐具的时候就会更加的得心用手。
  至于上边的Mahout,Pig,Hive就相当于你如何在橱柜中找到你相应的食材的过程,比如说,你要抄西红柿鸡蛋,你要找鸡蛋跟西红柿...........再往上走就是一个对厨房的整体管理了。你做过的哪些菜,或者你想按照某个食谱来做菜,你就要有一个本子写上你每次做菜的步骤,这个就相当于是FlumeL,而Sqoop就相当于萝卜擦,你想吃萝卜丝,你就要用工具把萝卜切成丝才可以,这里,用刀具可以,用萝卜擦会更高效。
  再来说说Zookeeper吧!它就相当于把你经常用的几项工具放到离你做菜最近的一个橱柜中。方便管理这些工具。

好了,说完了Hadoop,再来说一说Spark.它跟橱柜的唯一不同就是:橱柜是给你全部安装固定好了的,而Spark这种橱柜是可以移动的橱柜,同时对于你经常用的工具,可以进行优先排序。让你更快的对食材进行加工。刚开始,你做完一道菜,要半个小时多,而当你熟练之后,加之Spark移动橱柜+优先推送食材(内存计算+可迭代算法),你可以在5分钟内就做完这道菜。

加工食材

实际上,我们食材的储存过程就相当于是一个数仓的建立过程,而在一个数仓的建立过程中。最重要的莫过于区分不同维度。比如在大数据里的Key+Value,Big list,实际上都是提供一种基于可扩展的列值存储。而在数据可视化中,数据多维分维里,也是强调数据的不同维度的区分。这里我们就以食材的区分为例来说明。
  首先,厨房里的食材维度可以大致分析:蔬菜维度,禽肉维度,米面维度............不同的维度决定了你对食物的理解程度,比如:你可以把糯米放在米面维度,也可以放在糕点维度。所以数据的不同维度也取决于你对食材的功能及使用场景。再比如:把你香茹切的很小,晒干,然后碾成粉,要这些香茹粉就会从蔬菜维度进入到调料维度。
  当我们明白了食材维度的这个概念之后,我们就要开始我们的加工了。是先抄,还是先炸,还是先热水汤一下,都是对食材的一种加工。这里就相当于对初始数据进行相应的整形。由于要用到不同的厨具,就涉及到前边讲的走进厨房的细节的。在大数据里,可以用不同的组件对原始数据进行处理。而在厨房,可以用不同的厨具对食材进行处理。比如:蒸馒头,可以用抄锅来蒸,同时可以用钢精锅来蒸。虽然都能达到能吃的地步。但是所用的时间及口感不同。这些也就相当于大数据里各种不同组件之间的动行效果。

最后,先感谢下我现在的公司,每个月不定期给我们发菜,同时也感谢下老婆,教会了我抄各种菜。最后,附一张我抄好的菜吧(先给它起一个响亮的名字:乱棍打死猪八戒! )!敬请期待下一次的技术普及课:如何上菜?数据可视化流程

时间: 2024-08-29 02:31:37

当你学会抄菜的时候,你就学会了大数据的相关文章

小白学数据 | 28张小抄表大放送:Python_R_大数据_机器学习

原文链接 摘要: 1. Python的数据科学快速入门指南 如果你刚入门python,那么这张小抄表非常适合你.查看这份小抄表,你将获得循序渐进学习Python的指导.它提供了Python学习的必备包和一些有用的学习技巧等资源. 1. Python的数据科学快速入门指南 如果你刚入门Python,那么这张小抄表非常适合你.查看这份小抄表,你将获得循序渐进学习Python的指导.它提供了Python学习的必备包和一些有用的学习技巧等资源. 2. Python基础小抄表 这张由Datacamp制作的

hadoop2.x大数据视频教程(十二天学会)

原文地址:https://www.cnblogs.com/daoke360/p/11373369.html

为什么来传智学C/C++? 传智让你稳坐IT贵族人才!

一腔热血的你是否想通过自己的双手实现自己的梦想,却无从下手? 彷徨迷茫的你是否感到薪水已经配不上你的能力,空有抱负,却无处施展? 认真执着的你是否一直苦于自学钻研,却遇到了瓶颈,难以进步? 奋力拼搏的你是否苦于白天工作,晚上自学,却依然跟不上IT更新的速度? 聪明理性的你是否察觉到该找个权威的培训机构来飞速提升自己,挖掘自身潜能,却不知道该在纷杂的培训机构中选择哪一家? 如果上述几行文字引起了你内心的共鸣,诚心建议你抽出五分钟时间阅读下面这篇文章,将大有裨益!不要小看这五分钟,或许你的人生轨迹将

电商大数据应用之用户画像

一.?课程目标1.1 了解用户画像是什么1.2 用户画像的作用是什么1.3 学会使用SparkSQL构建用户画像二.?前言 大数据时代已经到来,企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为的分析尤为重要.利用大数据来分析用户的行为与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度.本课程是基于大型电商公司的真实用户画像中提练出的精华内容,旨在培养学员了解用户画像的内容,掌握构建用户画像的方法. 三.?初识用户画像 右边是一个人的基本属性,通过一个人的基本属性我

创业者应该学会悄悄进村,枪声地不要!

12月23日,"2014黑马创交会"在北京举行,我受牛文文邀请去做了个简单的讲话,回来看到网络上已经都整理出来了,发出来和大家一起分享下. 以下为演讲整理: 很多创业者染上了一种坏毛病,什么事儿也没做就觉得特别牛,好像我们就要成功了. "创业者应该学会悄悄进村" 我们公司有个经验叫发布会定律,这点分享给创业者:凡是需要开发布会,才能够让大家知道的产品,一定不是好产品.好的产品不用开发布会,也不用在行业里站起来振臂一呼,创业者就多跟用户说话,多去了解用户的想法,然后让

[转]所有人都在渲染程序员的中年危机,我们却在劝你重新学会学习

https://news.cnblogs.com/n/585781/ ------------------------------------------------------------------------------------------------------------------------------------------------------ 阅读和理解是不够的,你还需要记住你学的内容.进行主动阅读--你的大脑充分理解这些概念并将它变成你自己的东西.放慢你的大脑,做有创

德哥的PostgreSQL私房菜

德哥的PostgreSQL私房菜 - 史上最屌PG资料合集-博客-云栖社区-阿里云 : https://yq.aliyun.com/articles/59251 https://github.com/digoal/blog/blob/master/201612/20161220_01.md#流计算风云再起---postgresql携pipelinedb力挺iot 场景与优化 <PostgreSQL 如何潇洒的处理每天上百TB的数据增量>https://yq.aliyun.com/article

【转】处事22计、心态24条、伤心50句、礼仪73、学会长大20!

处事22计1.看穿但不说穿.很多事情,只要自己心里有数就好了,没必要说出来.2.高兴,就笑,让大家都知道.悲伤,就假装什么也没发生.3.在不违背原则的情况下,对别人要宽容,能帮就帮,千万不要把人逼绝了,给人留条后路--4.快乐最重要,谁人.何物.何事使你快乐,你就同他们在一起.何物让你不快乐,你就离开他.没有条件,创造条件也要离开他.5.不要老在别人面前倾诉你的困境袒露你的脆弱.6.没有十全十美的东西,没有十全十美的人,关键是清楚到底想要什么.得到想要的,肯定会失去另外一部分.如果什么都想要,只

《量化投资:以MATLAB为工具》连载(1)基础篇-N分钟学会MATLAB(上)

http://blog.sina.com.cn/s/blog_4cf8aad30102uylf.html <量化投资:以MATLAB为工具>连载(1)基础篇-N分钟学会MATLAB(上) <量化投资:以MATLAB为工具>简介 <量化投资:以MATLAB为工具>是由电子工业出版社(PHEI)下属旗舰级子公司——北京博文视点资讯有限公司出版的<量化投资与对冲基金丛书>之一,丛书主编为丁鹏博士,<量化投资:以MATLAB为工具>由李洋(faruto)