让我们一起走进大数据开源项目--第1节

最近大数据领域最火的消息莫过于Pivotal兑现了其年初对于开源其大数据核心产品GemFire,HAWQ,Greemplum DB的承诺 。这个消息也让Pivotal在国内技术社区风风光光的火了一把,程序猿们可以看到真正的企业级数据仓库是如何设计和实现的。

与此同时,开源社区中也存在很多类似的优秀大数据相关项目,涵盖了分布式数据存储与计算,数据处理,数据仓库,机器学习等与数据有关的方方面面,下面就让我们看看开源社区中的这些大数据项目典型代表。

首先,说起大数据开源项目,第一个必须要提的当然就是Apache Hadoop下的三个子项目Apache HDFS,Apache MapReduce,Apache YARN,这基本上可以认为是大数据处理的国际标准,是整个大数据生态系统的基石。

分布式存储

在分布式存储领域,可以按存储模型分为文件系统,KV存储,Columnar存储,Document存储,Graph存储。

分布式文件系统是整个分布式存储的最底层,鼻祖正是Google大名鼎鼎的GFS。Apache HDFS是GFS的开源版本,应该不用再介绍了。RedHat GlusterFS作为Linux社区老大的产品,也是值得一看的。

KV存储是最简单的存储模型,比较典型的系统包括Amazon DynamoDB, Memcached,Redis,BerkeleyDB, Google LevelDB

Columnar存储是KV存储的直接扩展,Value对应Column family或是Column Map。这类系统最基本的是Apache HBase,Google早期三架马车之一BigTable开源版本,类似的还有ApacheCassandra,Hypertable, Facebook HydraBase。

Document存储主要有MongoDB, Facebook Apollo等。Graph存储系统大部分基于Google的Pregel,主要开源实现有:Apache Giraph,Apache Spark Bagel,Phoebus。另外Google也开源了自家的Graph数据库Cayley。

分布式计算

分布式计算方面,主要体现在各种计算框架,数据处理模型,典型代表有Apache MapReduce,最经典的大数据处理引擎。Apache Spark,目前最火的大数据处理引擎,速度相比MapReduce有数量级的提升,基于Spark也构建了一整套生态系统,SQL,Streaming,Machine Learning,Graph。其他的项目包括Apache Storm,Apache Pig,Apache Tez,Apache S4, OpenMPI等。

分布式任务调度

分布式任务调度与集群管理,这类系统主要实现分布式任务管理,资源调度,集群管理等基础任务,包括Apache YARN,Apache Aurora,Apache Falcon,Apache Oozie,Linkedin Azkaban,Apache Ambari,Apache Bigtop, Apache Mesos等。

SQL与SQL-like处理,这类系统正是Pivotal开源的主要产品形态,基本上是在分布式系统上搭建SQL查询引擎,有传统的MPP SQL数据库,SQL-on-Hadoop,也有SQL-like类的大数据查询系统。包括Greenplum DB,Apache Hive, Apache HAWQ,Cloudera Impala,SparkSQL,Apache Phoenix,Apache Drill, SharkSQL,Facebook PrestoDB,CockroachDB等。这类系统现今也越来越多向云端发展,包括Amazon Redshift,Google BigQuery,Snowflake等,遗憾的是这类云端产品由于安全性问题大多没有选择开源。

分布式服务及数据处理(包括各种日志处理)

分布式服务及数据处理领域,主要包括数据获取,日志处理,消息服务等分布式编程必要的组件。主要有Apache Zookeeper, Apache Flume, Apache Kafka, Apache Sqoop, Cloudera Morphlines, Facebook Scribe, Logstash,Linkedin Gobblin等。

**分布式服务之上服务

在分布式存储、计算、数据处理以及各类基础组件之上,各类分布式应用层出不穷,比如机器学习应用相关**的Apache Mahout, Cloudera Oryx, Spark MLlib, MLbase,搜索应用相关的Apache Solr,ElasticSearch,HBase Coprocessor, Facebook Unicorn,应该说有了这些分布式基础组件的支持,构建新的分布式应用变得方便很多。
本节就到这里,有兴趣的可以看我的下一篇文章。

很多人都知道我有大数据培训资料,都天真的以为我有全套的大数据开发、hadoop、spark等视

频学习资料。我想说你们是对的,我的确有大数据开发、hadoop、spark的全套视频资料。
如果你对大数据开发感兴趣可以加口群领取免费学习资料: 763835121

原文地址:http://blog.51cto.com/11275216/2115232

时间: 2024-08-30 03:40:30

让我们一起走进大数据开源项目--第1节的相关文章

2017年6大热门开源项目

摘要:2017 年哪些开源项目值得关注?让我们来看看 2017 年的 6 大热门开源项目. 以下列表显示了开放源码社区在过去十年的发展程度.这里所有提及的项目(Lab41除外)均于 2014 年之后发布,而且每个项目都已在各自的社区中发挥重要作用. TensorFlow Google 的 TensorFlow 于 2015 年发布,是一个可扩展的神经元机器学习库.使用TensorFlow,我们可以通过构建管道对图像和文本之类的内容进行分类,甚至可以构建复杂的问题场景,比如" X 类型的用户会买商

数据工程师必须掌握的7个大数据实战项目

简介: 值得收藏,数据工程师必须掌握的7个大数据实战项目 原创: Lenis 有关SQL 1作为一名电影爱好者,我阅片无数,有些片子还经常翻来覆去看个好几遍.小时候因为这事儿,没少被我妈抓耳朵,“看过的片子为啥还要倒二遍?”我也说不上来,就是单纯的爱看. 男人爱看的电影,以武侠,动作,科技为多,也认识了一帮明星,比如尼古拉斯凯奇,史泰龙,李小龙,成龙,李连杰,甄子丹等等.这些人很猛,有男人气.只要是他们的片儿,肯定不落下.在我眼里,他们就是好片代名词. 不知几何时,电影上开始出现一些不认识的男明

30天搞定大数据爬虫项目

详情请交流  QQ  709639943 00.30天搞定大数据爬虫项目 00.零基础实战机器学学习 00.企业级实战 Spark离线和实时电影推荐系统 00.三大项目掌握Storm流计算 00.道路交通实时流量监控预测系统 00.基于Spark2.x新闻网大数据实时分析可视化系统 00.小码哥Java大神班五期 任小龙SSM Spring5 Mybatis SpringMVC 00.Python玩转人工智能框架 TensorFlow 00.web开发级mysql颠覆实战课程 00.微信小游戏入

优秀大数据GitHub项目一览

http://blog.csdn.net/yaoxtao/article/details/50540485 VMware CEO Pat Gelsinger曾说: 数据科学是未来,大数据分析则是打开未来之门的钥匙 企业正在迅速用新技术武装自己以便从大数据项目中获益.各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展. 跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高. 下面我们尽量列出了一些流行的开源大数据项目.根据它们各自

【黑马Android】(05)短信/查询和添加/内容观察者使用/子线程网络图片查看器和Handler消息处理器/html查看器/使用HttpURLConnection采用Post方式请求数据/开源项目

备份短信和添加短信 操作系统短信的uri: content://sms/ <?xml version="1.0" encoding="utf-8"?> <manifest xmlns:android="http://schemas.android.com/apk/res/android" package="com.itheima28.backupsms" android:versionCode="1

Hadoop和大数据:60款顶级大数据开源工具

一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统:Windows.Linux和OS X. 相关链接: http://hadoop.apache.org 2. Ambari 作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置.管理和监控Hadoop集群.有些开发人员想把Ambari的功能整合到自己的应用程序当

大数据实战项目必备技能三:storm

导读: Storm是一个分布式计算框架,主要使用Clojure与Java语言编写,最初是由Nathan Marz带领Backtype公司团队创建,在Backtype公司被Twitter公司收购后进行开源.最初的版本是在2011年9月17日发行,版本号0.5.0. 2013年9月,Apache基金会开始接管并孵化Storm项目.Apache Storm是在Eclipse Public License下进行开发的,它提供给大多数企业使用.经过1年多时间,2014年9月,Storm项目成为Apache

oschina大数据开源软件

Hadoop 图形化用户界面 Hue 大数据可视化工具 Nanocubes 企业大数据平台 RedHadoop 大数据查询引擎 PrestoDB Hadoop集群监控工具 HTools 安全大数据分析框架 OpenSOC 分布式数据仓库系统 Apache Tajo 数据管道服务 Suro 开源大数据工具 Luigi C++ 的 MapReduce? 框架 MR4C Hadoop 数据管理平台 Apache Falcon 分布式系统基础架构 Hadoop 分布式数据库 HBase 大规模数据集软件

10大Python开源项目推荐(Github平均star2135)

翻译 | suisui 来源 | 人工智能头条(AI_Thinker) 继续假日充电系列~本文是 Mybridge 挑选的 10 个 Python 开源项目,Github 平均star 2135,希望你能够喜欢~~ ▌Rank 1:Requests-HTML v0.9(7385 stars on Github,来自Kenneth Reitz) 该库旨在尽可能简单直观地解析 HTML,仅支持 Python 3.6. 项目地址: https://github.com/kennethreitz/req