The Data Revolution Speaker(Hadoop之父Doug Cutting在清华的讲座)

2014-12-12 14:30  
  清华大学FIT楼二路多功能厅

整个讲座约一个小时,两点半左右开始,前半个小时左右Doug Cutting 总共大概7张PPT,后半个小时互动。

Doug Cutting总共讲了大概7张PPT,PPT里面没什么内容,每张PPT只有一个标题,正文是一张图片,内容主要讲的是自己的开源事业、lucene、hadoop等。

PPT One:Means For Change : Hardware

提了moore定律,讲了处理器、存储这些硬件更新的速度很快。这是一个硬件基础。

PPT Two:Fuel For Change : Data

这里讲了一个逻辑,引出来了Open Source的重要性。

首先提出来Software is eating the industry,软件飞速发展;由此会产生各种各样的数据,而且数据量非常大,价值非常高;因此需要有Tools来处理这些数据,继而引出了下一张PPT:OpenSource。

PPT Three:Seeds For Change :Open Source

关于开源软件的好处大概讲了一下,没有讲特别多,大致上也是方便开放,有用故而用之。

其中提到他自己开始开源事业的一个想法,就是在做lucene的时候,发现自己不适合搞Business,所以give it away~~

这张ppt还提到三个重要的component,没有听清是什么的三个组成部分,大概是整个计算机行业的?

三个分别是:Hardware、Data、Software

PPT Four:New DataStyle:Hadoop

这张PPT引出来了Hadoop,Hadoop大概介绍了一下。

提到了GFS,hadoop的很多思想都是参考了gfs的。Google发表了论文,提出了它的这种理论,大家都很感兴趣,但是不是Google的原因,因此没法非常方便用。这时候Hadoop就出来了,OpenSource方便,易得。有其天然的亲民优势。

Doug Cutting提到自己去了Yahoo,因为Yahoo需要处理大量的数据,还有大量的硬件可以用,和自己很契合。

PPT Five:Style Catches on:Ecosystem

介绍了Hive、pig、spark等,没过多的讲。

PPT Six:Victor Emerges:Enterprise Data Hub

大致讲了自己在Cloudera工作,介绍了Enterprise
Data Hub的重要。

记得说了一句话: I am lucky in the right place in the right time.(语法感觉有点别扭)

提到了这是future tool。

PPT Seven:The Data Multi-Tool

快结束了,说到了hadoop的一些存在意义,举了一个例子,这个例子正是PPT的图片,是个手机。

大致意思是:手机可以干很多事,比如照相,但是照相的功能不如一些专业的相机。但是有一点可以确定,大家用手机照相的时间比相机多,为什么呢,因为手机一直在你身边,你什么时候都可以用,而且除了照相,我还可以把照片分享,总的来说,就是已经存在,而且方便。

Hadoop也类似,现在有很多的计算框架,Spark、Storm这类的。这种情况不必否认其他的存在,hadoop大家会比较熟悉,而且应用很广泛,在你需要的时候,可能你就有一个hadoop的集群环境,有些计算可能Spark性能更好,但是hadoop也可以做,方便使用。

这让我想到了操作系统,未必是windows最好,但是大家都习惯了,也就是够用了,再出现一个新的操作系统,除非你让我感觉有了你我就不想用windows了,windows已经够用了,不必非要把它换掉,类似道理。

最后是提问时间,大该记录了几个问题:

1.安全问题。

Doug Cutting回答的大概意思是:技术解决+Social Solution。

2.relational database和 nosql

这个其实不是新问题了,Doug
Cutting说的一句重点:each has its uses

3.spark,storm的存在,比如spark是用memory的,hadoop现在是hdfs,是否要向spark学习一下呢

Doug Cutting的大概回答是,这是ecosystem,每个component都有其作用,各善其职即可,I am happy to see spark

还有就是,这是开源软件,并不是一个公司控制了hadoop另一个控制spark,两个公司在竞争。因为是开源,最终的目的都是为大家所用。

4.什么是bigdata

Doug Cutting回答了很长一串,最后听出来重点是:Not the size,it‘s the style。

喏,bigdata是一种思路,一种处理方式上的体现。我是否可以理解为数据多少不重要,重要的是处理的方法?

5.问到了Cloudera和Hortonworks

Doug Cutting也回答了一些客套的话,然后说的是:Happy competition。

另外:提问送书。走的晚一点,可以找Doug
Cutting本人签字和合影。

Doug Cutting人很好,非常和气,另外特别高,一米八左右感觉到他下巴左右,压力太大,他在签字的时候是屈膝跪坐在地上的,看的我很感动。

书上写了:Enjoy hadoop和自己签名。

发现我写的文章都被别的网站爬了,所以留个地址吧:http://blog.csdn.net/picassolovecoding

时间: 2024-11-09 23:51:21

The Data Revolution Speaker(Hadoop之父Doug Cutting在清华的讲座)的相关文章

data audit on hadoop fs

最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况.历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确的数据分别存了一份,然后写了以下脚本统计数据的Schema和条数,记录下来,以后项目可以参考. #!/bin/sh curDir=`cd "$(dirname $0)";pwd` summa

Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来

Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来.Doug Cutting给这个Project起了个名字,就叫Hadoop. Doug Cutting在Cloudera公司任职.Cloudera的Hadoop是商用版.不同于Apache的开源版. 如果要研究Hadoop的话,下载Apache的开源版本是一种不错的选择. 只研究Apache版本的,不足以对Hadoop的理念理解.再对Cloudera版本的研究,会更上一层楼. 美国的AsterData,也是

Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

Hadoop十年解读与发展预测

编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后.本文是Cloudera资深工程师讲解Hadoop,让您一篇文章就能了解Hadoop的过去和未来. “昔我十年前,与君始相识.” ——白居易,<酬元九对新栽竹有

细水长流话Hadoop(1)Hadoop序列化系统

声明:个人原创,转载请注明出处.文中引用了一些网上或书里的资料,如有不妥之处请告之. 本文是我阅读Hadoop 0.20.2第二遍时写的笔记,在阅读过程中碰到很多问题,最终通过各种途径解决了大部分.Hadoop整个系统设计精良,源码值得学习分布式的同学们阅读,以后会将所有笔记一一贴出,希望能方便大家阅读Hadoop源码,少走弯路. 1 序列化核心技术... 1 2 类型对象大小比较... 3 3 Writable类型工厂... 4 4 ObjectWritable类型... 5 5 其它序列化系

【大数据学习】-什么是Hadoop

什么是大数据                                                  所谓大数据,是指数据量庞大.产生数度快.结构多样的价值密度低的数据.其中,数据量庞大是指数据规模超出1.2台高性能主机所能处理范围:结构多样性是指除了关系型数据库能够处理的结构化数据还包含半结构化数据(如各类传感设备必如地镑.卫星.GPS设备等产生的纯文本格式的数据,还有良心网站NASA官网公布的txt格式的空间天气数据等成行成列的数据)和非结构化数据(视频.图像等).这些数据的价值密

大数据Hadoop——初识Hadoop

Hadoop简介 官方网站:  http://hadoop.apache.org/ 中文网站:  http://hadoop.apache.org/docs/r1.0.4/cn/ Hadoop设计来源 根据Google的三大论文 GFS(Google File System): Google的分布式文件系统       http://www.cnblogs.com/999-/p/7120490.html MapReduce: Google的MapReduce开源分布式并行计算框架 http://

Hadoop数据管理介绍及原理分析

Hadoop数据管理介绍及原理分析 最近2014大数据会议正如火如荼的进行着,Hadoop之父Doug Cutting也被邀参加,我有幸听了他的演讲并获得亲笔签名书一本,发现他竟然是左手写字,当然这个他解释为个人习惯问题,也是,外国人左手写字的为数不少,在中国,左撇子在小时候的父母眼中就是“异类”,早早的被矫正过来.废话不多说了,接下来介绍Hadoop的数据管理. Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS.分布式数据库HBase和数据仓库工具Hive. HDFS的数据

Hadoop的概念、版本、发展史

Hadoop是什么? Hadoop: 适合大数据的分布式存储和计算平台 Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台.实现在大量计算机组成的集群中对海量数据进行分布式计算.适合大数据的分布式存储和计算平台. Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS) 其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总