一文读懂大数据两大核心技术

今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习。

Hadoop是什么?

Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构,具有多个组件:Hadoop分布式文件系统(HDFS),它将文件以Hadoop本机格式存储并在集群中并行化; YARN,协调应用程序运行时的调度程序; MapReduce,这是实际并行处理数据的算法。Hadoop使用Java编程语言构建,其上的应用程序也可以使用其他语言编写。通过一个Thrift客户端,用户可以编写MapReduce或者Python代码。

  除了这些基本组件外,Hadoop还包括Sqoop,它将关系数据移入HDFS; Hive,一种类似SQL的接口,允许用户在HDFS上运行查询; Mahout,机器学习。除了将HDFS用于文件存储之外,Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

  它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。

  Spark是什么?

  Spark是一个较新的项目,在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目,专注于在集群中并行处理数据,一大区别在于它在内存中运行。

  类似于Hadoop读取和写入文件到HDFS的概念,Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行,Hadoop集群可用作数据源,也可与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。

  Spark是围绕Spark Core构建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。Spark Core上还运行了几个库,包括Spark SQL,允许用户在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

  Spark有几个API。原始界面是用Scala编写的,并且由于大量数据科学家的使用,还添加了Python和R接口。Java是编写Spark作业的另一种选择。

Databricks是由Spark创始人Matei Zaharia创立的公司,现在负责    Spark开发并为客户提供Spark分销。

Hadoop和spark两个大数据的核心技术的基础讲解在此就顺应结束了,想要提升自己的技术,想要突破自己的技术领域,欢迎撩小编,已经为你准备好了全套的大数据学习资料!

原文地址:https://www.cnblogs.com/programmeryu/p/8822841.html

时间: 2024-08-30 06:18:19

一文读懂大数据两大核心技术的相关文章

推荐文章:机器学习:“一文读懂机器学习,大数据/自然语言处理/算法全有了

PS:文章主要转载自CSDN大神"黑夜路人"的文章:          http://blog.csdn.NET/heiyeshuwu/article/details/43483655      本文主要对机器学习进行科普,包括机器学习的定义.范围.方法,包括机器学习的研究领域:模式识别.计算机视觉.语音识别.自然语言处理.统计学习和数据挖掘.这是一篇非常好的文章,尤其感学原文作者~          http://www.thebigdata.cn/JieJueFangAn/1308

一文读懂机器学习,大数据/自然语言处理/算法全有了……

原文地址 http://www.open-open.com/lib/view/open1420615208000.html http://www.cnblogs.com/subconscious/p/4107357.html 引论 在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便全然不了解机器学习的人也能了解机器学习.而且上手相关的实践.这篇文档也算是 EasyPR开发的番外篇.从这里開始.必须对机器学习了解才干进一步介绍EasyPR的内核.当然,本文也面对一般读者.不会对阅读有

一文读懂工业大数据 (转)

无论是欧美老牌国家制造业的重振,还是中国制造业的转型提升,工业大数据都将发挥不可替代的作用. 当前,全球主要国家掀起了新一轮以“信息技术与制造业融合”为共同特征的工业革命,加速发展新一代信息技术,并推动其与全球工业系统的深入融合,以期抢占新一轮产业竞争的制高点.无论是欧美老牌国家制造业的重振,还是中国制造业的转型提升,工业大数据都将发挥不可替代的作用. 何为工业大数据 工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售.订单.计划.研发.设计.工艺.制造.采购.供应.库存.发货和

关于BI商业智能的“8大问”|一文读懂大数据BI

这里不再阐述商业智能的概念了,关于BI,就从过往的了解,搜索以及知乎的一些问答,大家困惑的点主要集中于大数据与BI的关系,BI的一些技术问题,以及BI行业和个人职业前景的发展.这里归纳成8个问题点,每个问题都做了精心的解答,希望能给大家带来帮助. 问题1:商业智能BI和大数据是什么关系,如何选择? BI(BusinessIntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策. 大数据(B

区块链产业生态、存在问题及政策建议|一文读懂新趋势

区块链产业生态.存在问题及政策建议|一文读懂新趋势 2017-03-03 09:47:50  来源: 腾讯研究院抢沙发 摘要:从技术上来讲,区块链是一种分布式的记账方法.说到记账,我们经历了从实物记账向电子记账的演变关键词: 区块链 中国信息通信研究院与腾讯研究院区块链联合课题组 卿苏德,中国信息通信研究院区块链研究团队研究员,主要研究方向为区块链和人工智能等. 一.区块链技术原理和发展趋势 01| 区块链--一种分布式记账方法 从技术上来讲,区块链是一种分布式的记账方法.说到记账,我们经历了从

从HTTP/0.9到HTTP/2:一文读懂HTTP协议的历史演变和设计思路

本文原作者阮一峰,作者博客:ruanyifeng.com. 1.引言 HTTP 协议是最重要的互联网基础协议之一,它从最初的仅为浏览网页的目的进化到现在,已经是短连接通信的事实工业标准,最新版本 HTTP/2 更是让它再次成为技术热点. 作为即时通讯开发者来说,深刻理解HTTP协议有助于在现今复杂移动网络环境下的优化和最佳实践的开展,本文将通俗易懂的地介绍 HTTP 协议的历史演变和设计思路. 学习交流: - 即时通讯开发交流3群:185926912[推荐] - 移动端IM开发入门文章:<新手入

一文读懂高性能网络编程中的I/O模型

1.前言 随着互联网的发展,面对海量用户高并发业务,传统的阻塞式的服务端架构模式已经无能为力.本文(和下篇<高性能网络编程(六):一文读懂高性能网络编程中的线程模型>)旨在为大家提供有用的高性能网络编程的I/O模型概览以及网络服务进程模型的比较,以揭开设计和实现高性能网络架构的神秘面纱. 限于篇幅原因,请将本文与<高性能网络编程(六):一文读懂高性能网络编程中的线程模型>连起来读,这样会让知识更连贯. 学习交流: - 即时通讯开发交流3群:185926912[推荐] - 移动端IM

[转帖]一文读懂 HTTP/2

一文读懂 HTTP/2 http://support.upyun.com/hc/kb/article/1048799/ 又小拍 ? 发表于:2017年05月18日 15:34:45 ? 更新于:2017年05月24日 15:06:11 今天,HTTP 1.1 已经变成互联网中主要的协议.但是在 HTTP 协议诞生初期却被认为是简单直接的协议.1996 年在 RFC 1945 中定义了 HTTP 1.0 规范,仅 60 页,到 1999 年在 RFC 2616 定义了 HTTP 1.1,增长到了

[转帖]MerkleDAG全面解析 一文读懂什么是默克尔有向无环图

MerkleDAG全面解析 一文读懂什么是默克尔有向无环图 2018-08-16 15:58区块链/技术 MerkleDAG作为IPFS的核心数据结构,它融合了Merkle Tree和DAG的优点,今天阿信带大家一起来探究什么是MerkleDAG,拆分解说Merkle Tree.DAG有向无环图.MerkleDAG在IPFS中的应用. MerkleDAG树形结构图 Merkle Tree Merkle Tree是由美国计算机学家Merkle于1979年申请的专利. Merkle Tree通常也被