大数据引擎,李彦宏的新大陆

摘要 : 百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。

百度在大数据领域迈出一大步。在昨天的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。简单地将,大数据引擎将百度在大数据的数据、能力和技术开放给行业,行业尝尝距离甚远的大数据盛宴,百度则寻到了一个新的增长点。

大数据引擎三件套

一年前,BAT纷纷开挖大数据,一年后BAT在大数据应用上均取得了一些成绩。现在百度则率先将其大数据能力开放出来,百度大数据引擎一共分三个部分。

开放云:百度的大规模分布式计算和超大规模存储云。过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。

百度的开放云拥有超过1.2万台的单集群,超过阿里飞天计划的5k集群。百度开放云还拥有CPU利用率 高、弹性高、成本低等特点。百度是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时百度还是首家将GPU(图形处理 器)应用在机器学习领域的公司,实现了能耗节省的目的。

数据工厂:开放云是基础设施和硬件能力,你可以把数据工厂理解为百度将海量数据组织起来的软件能力。就像数据库软件的位置一样。只不过数据工厂是被用作处理TB级甚至更大的数据。

百度数据工厂支持单词百TB异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时百度数据工厂还将承载对于TB级别大表的并发查询和扫描,大查询、低并发时每秒可达百GB,在业界已经是很领先的能力了。

百度大脑:有了大数据处理和存储的基础之后,还得有一套能够应用这些数据的算法。图灵奖获得者N.Wirth(沃斯)提出过“程序=数据结构+算法”的理论。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。

百度大脑将百度此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们 被应用在语音、图像、文本识别,以及自然语言和语义理解方面,被应用在不少App,还通过百度Inside等平台开放给了智能硬件。现在这些能力将被用来 对大数据进行智能化的分析、学习、处理、利用。百度深度神经网络拥有200亿个参数,是全球规模最大的,它拥有独立的深度学习研究院(IDL)和较早的布 局,在人工智能上百度已经快了一步,现在贡献给业界表明了它要开放的决心。

大数据引擎究竟是什么?

百度将基础设施能力、软件系统能力以及智能算法技术打包在一起,通过大数据引擎开放出来之后,拥有大数据的行业可以将自己的数据接入到这个引擎进行处理。同时,一些企业在没有大数据的情况下,还可以使用百度的数据以及大数据成果。

从架构来看,企业或组织也可以只选择三件套中的一样使用,例如数据存放在自己的云,但要运用百度大脑的一些智能算法应该也是支持的。

举几个例子可能你更加清楚百度大数据引擎究竟是什么。

许多政府部门拥有海量大数据——大数据经典之作《大数据》也是在讲美国政府的大数据。但政府部门几乎都 没有大数据处理和挖掘技术。交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,卫生部门拥有流感法定报告数据、全国流感样病例哨 点监测和病原学监测数据,公安部门有大量的视频监控数据。如果这些数据与百度的搜索记录、全网数据、LBS数据结合,在利用百度大数据引擎的大数据能力, 则可以实现智能路径规划、运力管理、流感预测、疫苗接种指导、安防追逃等等。

许多企业也拥有海量大数据——通信、金融、物流、制造、农业等行业。不过,它们几乎都没有大数据能力, 坐拥海量数据却一筹莫展。这时候如果能够应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。在百度技术开放日 上,中国平安便介绍了如何利用百度的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。

可以看出,大数据引擎的输入实际上是百度拥有的大数据以及行业已有的大数据,而输出则是各种行业应用成果,也就是大数据的“价值”。如果要为百度大数据引擎想一个SLOGAN,可以是“把大数据交给我们即可”。

百度大数据引擎的出现并非一日之功。大数据技术本身已发展数年,而百度在大数据方面也进行了不少布局,例如百度云、深度学习、计算中心等等。同时与中国平安和一些政府部门此前也已进行一些大数据应用的初步尝试。

与一些类似项目的对比

在百度之前,业界已经有一些类似的思路,即有一些大数据能力的企业视图将自己在基础能力或者软件方面的优势释放出来。

Google大数据时代的奠 基者。对应到百度开放云,它有举世闻名的数据中心以及基于Colossus的云;对应到百度数据工厂,Google近年来为迎接大数据时代不断改造核心技 术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus比GFS还要先 进,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。对应到百度大脑,Google提供的大数据分析智能应用包 括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。 技术有Big Query、趋势图等。

可以说Google与百度的思路最为接近,不过Google目前还未将它的大数据能力打包起来以一个新“引擎”的方式共享。毫无疑问,这在不久之后就会发生。

亚马逊:云计算的奠基者。亚马逊是IaaS(基础设施即服务),与 阿里云非常相似。亚马逊在用户交易、个人偏好、经济领域的大数据能力可能比Google还要优秀,也被一些人视作这是亚马逊与Google竞争的唯一机 会。亚马逊目前更多还是在云领域做贡献,虽然也有Redshift的方案,但在数据工厂和人工智能的开放上进展慢一些。

阿里巴巴:

亚马逊对应回中国自然是阿里巴巴。阿里云是国内最早的独立运作的云部门。数据则是阿里三大核心战略之 一,大数据也被摆到了阿里十分重要的位置,不懂技术的马云经常谈及大数据都有人调侃他应该改名Data Ma。阿里在大数据基础设施领域确实取得了突飞猛进的进展,飞天、Apsara、跨机房5K集群都是知名的大数据项目,应对双十一、余额宝规模取现预测、 广告业务高速增长等业务场景也证明了阿里的大数据能力。

阿里大数据的思路便是做大数据的集市,让阿里系之外的大数据能够跑在阿里苦心搭建的大数据机器上运转起 来。不久之前阿里与东软合作,后者的业务未来都将部署在阿里云。这意味着东软客户的数据很可能会进入阿里的大数据体系。可以确定阿里将会推出类似大数据引 擎的平台,将大数据能力完全开放出来。

相比百度,阿里在“数据工厂”这块应该是各有所长,在数据基础领域以及业务理解方面有着电商领域的专注,但人工智能这块跟百度比肯定会有不小差距。语音、图像和自然语言理解,阿里并没有多少积累,它更擅长处理结构化的数据。

其他电商玩家如京东和苏宁也有类似的云,与阿里和百度完全不在一个级别就不比较了。

Salesforce等软件公司:

Salesforce近两年收购了超过5家与社交大数据相关的营销公司,目的是获取更多的数据。其他的 软件厂商和方案厂商也有大数据引擎方面的布局,EMC、Oracle有对应的大数据处理软件,IBM有大数据行业方案,英特尔入股大了数据初创企业 Cloudera,Cloudera推出的Impala比Google Dremel还要快。Intel还推出了基于Hidoop的“大数据引擎”,加州伯克利大学AMPLab开发了名为Shark 的大数据分析系统。

回到国内,华为在去年发布了大数据平台产品FusionInsight,还有百分点科技这样的基于大数据的推荐服务公司。而“天河2号”等独立超级计算机也对外宣称它们的超级计算能力将会逐步开放出来。

不过,软件公司、方案公司以及超级计算机都无法做到像百度一样将大数据作为一种云端能力打包开放出来,也无法同时具备基础设施、数据工厂和智能算法的开放能力。尤其是“百度大脑”这部分,很少有其他具备这样的“数据智能”的能力。

百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。

变现方式可能是增值服务、收费云、数据分析结果、技术咨询等方式,这将改变百度盈利模式过渡依赖“搜索 广告”的现状。有消息称,大数据已经给Google每天带来2300万美元的收入,一年约为82亿美元。这已经远远超过百度2013年51亿美金的年收入 了。因此,如果百度大数据引擎能够成功,很可能会为之带来源源不断的数据以及现金流。基于此,可以认为大数据引擎是百度的新大陆,是李彦宏一直在寻找的 “百度的微信”。

作者微博@互联网阿超,微信SuperSofter

http://luochao.baijia.baidu.com/article/13275

大数据引擎,李彦宏的新大陆

时间: 2024-10-12 22:37:43

大数据引擎,李彦宏的新大陆的相关文章

李彦宏:下个行业机会是企业级软件和新数据

真正的数据并不是让用户通过一定佩戴什么设备才能收集,而是用户在日常生活中就能收集数据,这样的数据收集上来才是非常有价值的. [财经网讯]5月29日消息,2014百度联盟峰会今日在黄山举行.百度CEO李彦宏在峰会上分享了对未来趋势的判断:一是新型企业级软件,解决企业从内部到外部链接的问题:二是挖掘新的有价值的慢数据,帮助发掘个性化的预测信息. 李彦宏说,"巨大机会都来自BAT不会做的领域",这两个领域分别是:一是新型企业级软件,不仅提升企业内部效率的,更能帮助解决企业从内部到外部链接的问

李彦宏收到无人车罚单的四个月后,北京自动驾驶新规终于出台!

中国自动驾驶相关法律法规的空白终于被打破了,就在今天,北京市交通委发布了相关指导文件,符合规定的自动驾驶汽车,终于可以正式上路了. 而媒体们在转载这条消息时,都要cue一下前脚上路,后脚吃罚单的李彦宏.四个月前百度在AI开发者大会上,李彦宏乘着自动驾驶汽车从五环赶往现场,结果很快就因变道压实线被开了罚单.这张开给无人车的罚单成了一支flag,让自动驾驶厂商们更加急迫的追问有关自动驾驶的交通法律法规.那场景就像学霸们已经做了充足的准备,就等着老师出考卷来大展身手了. 现在交管部门给了交待,我们又把

百度发布“无人挖掘机”,吹的牛实现后李彦宏又立了3个flag

导读:AI时代到来了,这个世界会因为AI变得更好吗?YES, AI DO. 来源:百度 01 李彦宏立的3个flag 7月4日百度 AI 开发者大会上,李彦宏说:"曾经吹过的牛实现了,全球首款 L4 级量产自动驾驶巴士'阿波龙'量产下线!" 如今,阿波龙已经安全运营了整整120天. 4个月后的现在,李彦宏在百度世界大会上又立了三个 flag: Flag 1:百度即将发布与一汽红旗合作的 L4 级自动驾驶量产乘用车 百度与一汽红旗合作,共同打造了中国首款 L4 级自动驾驶量产乘用车,并发

李彦宏:数据技术共享与“圈子联合文化”

[一周要闻]李彦宏:数据的价值在于与各个行业进行结合--数据技术共享与"圈子联合文化" 一年一度的中国(深圳)IT领袖峰会于3月26日至27日在深圳五洲宾馆举行,马云.李彦宏.马化腾企业领袖和投资家共襄盛会.同样备受瞩目的,还有中国圈子联合会创始人李帅,与诸多知名企业家共同探讨中国IT行业未来的创新与发展. 峰会中,百度董事长兼CEO李彦宏从创新谈到做企业的危机感,"如果你天天觉得公司会死,公司反而会越做越大."新兴企业之多,竞争之激烈上述观点,让许多企业家都心有戚

李彦宏南大演讲:90后是幸运的一代 机会很多

腾讯科技讯 百度董事长和CEO李彦宏日前造访南京大学,在南大体育馆内与3500多名学生进行了一场关于技术与择业的对话. 李彦宏说,过去80后毕业后,很多人都选择去考公务员,结果导致最优秀的毕业生都进了体制内,"这是很不合理的现象"."如果这个社会最聪明.最优秀的人都进入到体制内的话,这个社会的创新能力怎么能发挥出来呢?" 然而在谈到90后的择业观点时,李彦宏的态度有所转变.他说,眼前的社会环境正在发生变化,90后没那么多人想去当官. "这一代人有更多机会进

互联网领袖高峰对话实录:马云李彦宏等激烈碰撞

本文来自: http://tech.sina.com.cn/i/2014-11-20/detail-icesifvw7880253.shtml 视频:马云李彦宏雷军等激辩未来(精华版)(来源:新浪科技) 精华版 http://video.sina.com.cn/p/tech/other/v/2014-11-22/035564280275.html 全程 http://video.sina.com.cn/p/tech/other/v/2014-11-22/134964281959.html 中外互

百度创始人李彦宏:要做最好的中文搜索引擎

互联网的发展使得个人和企业借助媒体的力量迅速蹿红成为受益最大方.借助网络走红和成名成为一种可能性但也伴随着一些难以预料的负面影响.一月份的贴吧事件.四月份的魏则西事件都把百度推上了风口浪尖. 文/辛东方80后作家.专栏作者.专注互联网科技领域 近日网传"百度创始人李彦宏发内部信勿忘初心 不负梦想"的一篇文章开始在网上发酵传开. 据文章中透露李彦宏用"壮士断腕"四个字表达了百度进行整改的坚定态度未来集中精力重新审视公司所有产品的商业模式实行用户体验审核的一票否决制度等

李彦宏两会“duang”引爆 成首席男神代表

Duang!Duang!Duang...的火热让两会也跟着Duang了起来,总理工作报告中首次明确提出的"互联网+"计划"出人意料"的成为两会的核心关键词,这让作为互联网代表发言提出"中国大脑"提案的李彦宏成为了媒体争相追逐的"男神". 往年两会,互联网基本都被视作"边缘"行业,鲜有人问津,而今年两会李彦宏却频繁被媒体"围堵",不清楚情况的人看到这采访待遇还以为是哪个热门政要或大牌明星呢

木林:为什么马云、马化腾、李彦宏都这么看重移动端?

移动互联网现在早已是中国的互联网巨头们角力的新战场.包括阿里巴巴.腾讯.百度三巨头的互联网公司都在以其原有的黏性业务,加速由PC互联网向移动互联网移植. 腾讯由于起始速度更快目前占据领先位置.从公布的数据看,腾讯2014年的移动收入以221亿人民币领先百度,阿里巴巴排名第一.马化腾在中国企业家俱乐部的内部沙龙上说,移动互联网时代的运行规则与PC互联网时代完全不同,腾讯如果没有微信,可能是一场灾难. 马云随后才反应过来,但为时已晚.不禁也发出感慨:"天变了,移动互联网挑战前所未有."马云