大数据从业者应该知道的开源工具

前言

想要成为大数据工程师这些开源工具你要有所了解

一、Hadoop相关工具

1. Hadoop

Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。

支持的操作系统:Windows、Linux和OS X。

相关链接:http://hadoop.apache.org

2. Ambari

作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。

支持的操作系统:Windows、Linux和OS X。

相关链接:http://ambari.apache.org

3. Avro

这个Apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用JSON来定义,它很容易与动态语言整合起来。

支持的操作系统:与操作系统无关。

相关链接:http://avro.apache.org

4. Cascading

Cascading是一款基于Hadoop的应用程序开发平台。提供商业支持和培训服务。

支持的操作系统:与操作系统无关。

相关链接:http://www.cascading.org/projects/cascading/

5. Chukwa

Chukwa基于Hadoop,可以收集来自大型分布式系统的数据,用于监控。它还含有用于分析和显示数据的工具。

支持的操作系统:Linux和OS X。

相关链接:http://chukwa.apache.org

6. Flume

Flume可以从其他应用程序收集日志数据,然后将这些数据送入到Hadoop。官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”

支持的操作系统:Linux和OS X。

相关链接:https://cwiki.apache.org/confluence/display/FLUME/Home

7. HBase

HBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。

支持的操作系统:与操作系统无关。

相关链接:http://hbase.apache.org

8. Hadoop分布式文件系统(HDFS)

HDFS是面向Hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。它基于Java,具有容错性、高度扩展性和高度配置性。

支持的操作系统:Windows、Linux和OS X。

相关链接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

9. Hive

Apache Hive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。

支持的操作系统:与操作系统无关。

相关链接:http://hive.apache.org

10. Hivemall

Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

支持的操作系统:与操作系统无关。

相关链接:https://github.com/myui/hivemall

11. Mahout

12. MapReduce

13. Oozie

14. Pig

15. Sqoop

16. Spark

17. Tez

18. Zookeeper

二、大数据分析平台和工具

19. Disco

20. HPCC

21. Lumify

22. Pandas

23. Storm

三、数据库/数据仓库

24. Blazegraph

25. Cassandra

26. CouchDB

27. FlockDB

28. Hibari

29. Hypertable

30. Impala

31. InfoBright社区版

32. MongoDB

33. Neo4j

34. OrientDB

35. Pivotal Greenplum Database

36. Riak

37. Redis

四、商业智能

38. Talend Open Studio

39. Jaspersoft

40. Pentaho

41. SpagoBI

42. KNIME

43. BIRT

五、数据挖掘

44.DataMelt

45. KEEL

46. Orange

47. RapidMiner

48. Rattle

49. SPMF

50. Weka

六、查询引擎

51. Drill

七、编程语言

52. R

53. ECL

八、大数据搜索

54. Lucene

九、内存中技术

链接

由于由于链接太多,我做了一个word文档,由于简书不能上传文件,需要答案可以加小编的qq交流群531629188,在里面直接获取文档,

不管你是小白还是大牛,

小编我都挺欢迎,今天的已经资讯上传到群文件,不定期分享干货,

包括我自己整理的一份最新的适合2018年学习的大数据教程,欢迎初学和进阶中的小伙伴。

原文地址:http://blog.51cto.com/13750742/2123451

时间: 2024-10-29 21:28:03

大数据从业者应该知道的开源工具的相关文章

Hadoop和大数据:60款顶级开源工具

虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角"写评论",分享你的观点. 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非

大公司青睐的50款开源工具

过去十年间,许多科技公司已开始畅怀拥抱开源.许多公司使用开源工具来运行自己的IT基础设施和网站,一些提供与开源工具相关的产品和服务,或基于开源工具而建的产品和服务,还有一些在为开源代码贡献代码或支持开源项目. Black Duck在2015年的一项调查发现,78%的企业组织使用开源软件,这个比例几乎是2010年时候的两倍.此外,88%的企业表示,它们预计在今后几年,会加大为开源项目贡献代码的力度,66%表示在考虑专有软件之前先考虑开源软件. 这回,我们介绍了最受科技公司青睐的一些开源项目.这些主

保护【大数据】应用的步骤和工具

大数据应用的安全性方面往往被忽视或者被视为次要的需求.但是,数据的安全性在数据处理过程有着十分巨大的影响.本文将介绍一些保护大数据应用的步骤和工具. 随着大数据在不同的领域蔓延,安全方面受到越来越多的关注.以前,我们使用具有中心控制的安全系统,但这并不足以保护你的应用程序免受入侵.大数据带来了另外一些安全关切问题,与正常的应用程序有很大不同. 在当今世界,安全性相关的探索非常困难,前进方向也难以界定.整个软件系统中实现合适的端至端安全系统是非常昂贵的.总有一个突破安全防护的可能性存在,无论你遵循

大数据分析学习必须用到的工具,一定要收藏

简单来说,我们可以把大数据分析工具简单分成两个维度: 第一维度:数据存储层--数据报表层--数据分析层--数据展现层 第二维度:用户级--部门级--企业级--BI级 1.数据存储层 数据存储涉及到数据库的概念和数据库语言,这方面不一定要深钻研,但至少要理解数据的存储方式.数据的基本结构和数据类型.SQL查询语言必不可少,精通最好.可从常用的select查询,update修改,delete删除,insert插入的基本结构和读取入手. Access2003. Access07等 ,这是最基本的个人数

大数据平台最常用的30款开源工具

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 本文整理出了大数据平台常见的一些开源工具,并且依据其主要功能进行分类,以便大数据学习者及应用者快速查找和参考. ▲ 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工

大数据平台常见开源工具有哪些?

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工具.数据存储工具.分析计算.查询应用及运维监控工具等.以下对各工具作为简要的说明. 一语言工具类 1.Java编程技

大数据工具集详

查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集.直接使用HBase API.协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒. Ph

大数据工具千千万,到底谁才是最强王者?

外面有成千上万的大数据工具.它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力.虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易. 哪一种工具适合你的技能组合?哪一种工具适合你的项目? 为了替你节省一点时间,并帮助你首次选对工具,我们列出了我们青睐的几款数据工具,涉及数据提取.存储.清理.挖掘.可视化.分析和整合等领域. 数据存储和管理 如果你准备处理大数据,就要考虑该如何存储大数据.大数据得到"大"这个名号,一方面在于,大数据太庞大了,传统系统处理不了

大数据data开发有哪些好的辅助工具?

作为一个程序员开发工具好比是人的手和脚,只有把这些开发工具用好,才能做好一个产品的需求.大多使用SQL数据库存储/检索数据,如今很多情况下,它都不再能满足我们的需求.下面小编就介绍一些大数据data开发常用的辅助工具. 开源企业搜索平台:Solr 用Java编写,来自Apache Lucene项目.Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操