大数据能做什么,为什么学习大数据

Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下。

大数据和云是不是一回事?

这是最容易混淆的概念之一,我个人认为这是两回事,云服务,无论是云主机还是云存储还是云的其他应用,都是向用户提供一个接口,但这个接口的后端是虚拟机技术,或者分布式存储技术,或者其他分布式计算技术等等。简而言之,云的概念就是我向你提供服务,而你不需要关心这种服务的架构或者技术实现有多么复杂。打个比方,就好象是,云之前的时代我们要用电,就需要自己造一个电厂发电,造机组,造变电站,然后再去用它。而云服务就好象是别人搭好了一个电厂,电线直接进你家,你要用,只需要插上插头,不需要关心电是怎么被制造出来的。电力的生产和电力设备的维护都由国家电网承担。联系到网络方面,就是,我们以前要自己买服务器,自己装系统,自己上架,自己做负载均衡,自己维护软硬件环境。有了云之后,这些都通过云服务商的虚拟机技术完成了。数据安全和网络安全都由云服务商提供,你也不需要专门请人维护一堆设备。

如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群251956502 这样大家学习的话就比较方便,还能够共同交流和分享资料

而说到大数据,这个可以是基于云的,也可以是不基于云的。大数据的处理技术与提供云服务的技术是不尽相同的,但是又有所交集。可以说,云服务是基础设施,是市政工程,而大数据是城市里的高楼大厦。大数据可以基于云,也可以不基于云。

从技术角度上说,国内的大多数云服务商,主要提供的是虚拟机服务,这是一种分的概念,把一台物理服务器拆成多个虚拟的小服务器,尽可能多的使用其物理资源,避免浪费。而大数据是合的思想,是把很多台服务器合并成一个虚拟的巨型服务器,通过分配计算资源使数据可以快速的为生产力服务。用一句中国的老话形容大数据和Hadoop就是:三个臭皮匠顶个诸葛亮。用合并起来的计算资源超越小型机或者中型机的计算能力。这里面当然也有云的概念存在着,就是说,你不需要关心数据的存储和计算到底是怎么完成的,你只需要用就可以了。

大数据技术是不是一定需要数据量大才可以,数据量不大就不需要用?

通常是这样认为的,但是并不绝对,计算维度大,计算过程复杂也都可以认为是大数据。换句话说,就是,如果你所需要的数据,在你所需要的时间内无法正常计算出来,你可能就需要用到大数据的技术了。

一方面,你的数据需要的存储量超过数据库或者数据仓库的能力范围,你可能需要大数据技术;另一方面,你的计算量超过传统的数据处理手段的时效性能力范围之外,你也可能需要大数据技术。而典型的计算能力的挑战就是来自于数据挖掘和多维度分析。可能数据量不大,但是算法和过程很复杂,也可能会需要大数据的技术。比如对用户做推荐,基于用户群的分类做精准的广告投放。或者在传统行业计算气象预报,计算地质数据做石油探测,矿产探测。又或者用在金融行业,通过对历史数据建立数学模型,对证券和期货贷款等做风险预估。之所以阿里巴巴对于中国的经济和进出口的预测比商务部和统计局更精准,除了他们有一群数学和统计专家外,大数据是完全不可或缺的技术手段。

大数据技术是不是就是那个什么憨杜普?

显然不是,大数据领域存在很多厂商和应用,有开源的,有收费的。比如一些非Hadoop大数据处理的公司和软件,EMC的Greenplum,Splunk公司的splunk等等。这些都不是基于Hadoop的,但是也有共同的缺陷,就是很贵。所以,大多数公司采用开源软件来完成大数据的业务处理。而开源领域做得最好的,应该就是hadoop了。所以现在hadoop基本成了大数据处理的代名词了。基于Hadoop衍生了很多家商业公司,因为Apache的许可协议并不拒绝商业。像国内比较知名的Cloudera,MapR,他们的商业产品都是基于Hadoop及其周边的生态软件。

大数据应该怎么推进公司业务的发展?

这是个关乎想象力的事情,有了大容量和大计算,至于怎么用,这只能自己想。原来数据怎么做现在还怎么做,不过除了啤酒与尿布,口香糖与避孕套之外,还有一个比较生动的案例大约是这样的:美国有一个公司,在各产粮区每隔一英里插一个传感器,收集空气湿度和土壤含氮量等数据。收集上来以后通过大数据的处理手段和算法,预测出该地区的收成可能会是什么情况,然后把预测报告卖给美国的农业保险公司。

Hadoop有什么优缺点?

Hadoop的优点是数据的容量和计算能力以及数据的备份安全性有了很大程度的提升,1.0最大可以支持到大约4000台服务器的并行存储和运算,而2.0大约可以支持6000台服务器。不过2.0现在还不是很完善,所以生产环境还是建议用1.0。我认为4000台集群的容量和计算能力足以匹敌IBM的大型机,从去年12月15号的中国银行大型机宕机事件来看。大型机就算安全性再有保障,也毕竟是单点。真出了故障,谁也不敢拍板切换到备份大型机上。Hadoop 1.0已经有了很多方案去解决单点问题,2.0自己就支持单点故障切换。或许未来继续发展,将全面超越大型机。事实上,IBM已经开始出自己的Hadoop发行版了。

至于缺点,就是Hadoop1.0还是存在单点问题,但是可以通过其他技术手段弥补做到热切换,只是要求维护人员的技术水平较高。另外一个缺点是计算的时间会比较长,还无法做到实时查询和快速决策响应。但是有很多其他的方案在弥补Hadoop的这个问题,像Apache出的跟Google Dremel竞争的Drill,Cloudera推出的Impala,和其他一些产品。而实时计算则有Twitter开源的Storm集群,设计理念跟Hadoop是一样的,但是可以对实时数据流进行计算,并即刻生成计算结果。做到随查随出。

在各个开源社区的支持下,在全世界程序员的共同努力下,大数据的处理能力也在高速的发展,程序员们正在用自己的智慧改造这个世界。

原文地址:https://blog.51cto.com/14296550/2418869

时间: 2024-07-28 18:50:43

大数据能做什么,为什么学习大数据的相关文章

大数据能做什么——无所不能的大数据

大数据能够用来做什么?当前,大数据分析技术已经在很多领域实现了应用,赛事预测.流感预测.商业分析.用户行为分析……这些人们曾经无法实现的功能和应用,正在大数据的帮助下成为现实.下面,就来看看大数据带来的新奇应用吧! 恋爱预测 大数据可以对人们的行为进行分析,从而得出一些结论.或许在你不愿意承认自己已经坠入爱河的时候,大数据就已经猜透了你的心思,知道你即将展开一段恋情. 目前,已经有一些企业和技术人员开始利用大数据技术进行恋爱预测.据国外媒体报道,Facebook的数据科学家Carlos Diuk

入门大数据领域需要哪些技能|大数据工程师学习之路

入门大数据领域需要哪些技能?大数据学习之路. 大数据是当时时代下一门炙热的IT学科,行情十分火爆,不论是阿里巴巴.百度这样的大公司,还是中小企业都很重视,甚至是第一个纳入国家战略的技术,政府扶持力度大,支持甚多!面对这样的大环境下,大数据相关岗位薪水高,就业前景好.因此也吸引了一大批有志之士,想学习并从事大数据相关工作.那么,大数据应该如何学习呢? 互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口.为帮助那些往想互联网方向转行想学习,却因为 时间不够,资源不足而放弃的人.我自己整理的一份

专科学历能学习大数据开发吗?

近来不少想转行大数据的同学在跟我的的交流中诉说到:想做IT行业,但是学历太低啦.怕花了时间和精力来学习IT相关知识,最后却找不到相应的工作,一起努力都付诸东流.对于这类学生,一般会建议他们来学习大数据,为了前沿技术,为了高薪. 具体原因是什么呢,下面一起来了解一下. 因为大数据是IT行业中比较炙热的项目,现在各个用人单位对于大数据相关的人才需求量特别的大.相关统计数据显示,未来3~5年,中国需要180万数据人才,但目前只有约30万人.所以相比其他岗位的饱和状态而言,大数据处于蓝海,学习大数据相关

大数据新手的0基础学习路线,从菜鸟到高手的成长之路

大数据作为一个新兴的热门行业,吸引了很多人,但是对于大数据新手来说,按照什么路线去学习,才能够学习好大数据,实现从大数据菜鸟到高手的转变.这是很多想要学习大数据的朋友们想要了解的. 今天我们就来和大家分享下大数据新手从0开始学习大数据,实现菜鸟到高手的转变的学习路线.希望能够帮助想要学习大数据的朋友. 如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群529867072 这样大家学习的话就比较方便,还能够共同交流和分享资料 以下是大数据新手学习路线的正文: Linux:因为大数据相关软

小白学习大数据掌握这几个方法可轻松入门

有很多学习大数据的朋友,在初期学习时,通常会对如何学习而感到迷茫.我经常在知乎上收到朋友关于如何入门.如何规划学习大数据.大数据的学习流程是什么的一些问题.今天我就粗浅的总结几点学习大数据方法. 一.兴趣建立 兴趣是可以让一个人持续关注一个事物的核心动力,那么兴趣的培养就非常重要了.如果你把写程序单纯作为赚钱手段,久而久之疲劳感会越来越强,会给今后的工作和生活带来很大的压力. .在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:52986

学习大数据需要Java基础吗?

近几年,很多人都听到过一个名词"大数据"也有一部分人选择学习了解大数据,那么大数据到底是什么,学习大数据需要有Java基础吗? 推荐一个大数据学习交流群 119599574每天晚上20:10都有一节[免费的]大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享, 如果要学习大数据,不管你是零基础,还是有一定的基础,都应该知道在学大数据之前一定要懂至少一种计算机编程语言,因为大数据的开发离不开编程语言,不仅要懂,还要精通! 大数据到底是

ios学习笔记——数据持久化

一.沙盒 沙盒目录是一种数据安全策略,很多系统都采用沙盒设计. 沙盒目录设计的原理就是只能允许自己的应用程序访问目录,而不允许其他的应用访问. 1.Documents目录:该目录用于存储非常大的文件或非常频繁更新的数据,能够进行iTunes或iCloud的备份,获取目录位置的代码如下: 1 NSString * pathArr = [NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES) la

做了五年大数据开发工程师总结的的大数据学习路线

先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化.非结构化文本.日志.视频.图片.地理位置等: 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来: 处理时效性高,海量数据的处理需求不再局限在离线计算当中. 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储:Hadoop HDFS.Tachyon.KFS 离线计算:Hadoop MapReduce.Spark 流式.实时计算:Storm

自学成才的数据科学家告诉你5个学习大数据的正确姿势!

对于数据科学来说,现在是发展的黄金时期.这是个新领域,但增长迅速,同时数据科学家的缺口也很大,据说他们的平均年薪可以达到10万美元.哪里有高薪,哪里就吸引人们,但是数据科学技能的差距意味着许多人需要努力学习.      第一步当然是询问“我怎么学习数据科学”,这个问题的答案往往是一长串的课程和书籍阅读,从线性代数到统计数据,这几年我也是这样学习过来的.我没有编程背景,但我知道我喜欢处理数据. 我比较不能理解在完全没有理解别人的背景时就给他一份长长的书单或者技能表.这就类似于一个老师给你一堆教科书