书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》
HDFS 高容错,高伸缩性
Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。
Nutch是以Lucene为基础实现的搜索引擎应用,Lucene为Nutch提供了文本搜索和索引的Api,Nutch不光有搜索功能,还有数据抓取的功能,却无法支持拥有数亿网页的网络(在网络抓取和索引过程中产生的大量文件存储需求)。
Hadoop优势:
方便:可应用在一般商业机器的大型集群上
弹性:可依据集群负载实现增加或减少节点的弹性伸缩,高效的使用资源
健壮:
简单:
1、 Hadoop common 为hadoop的其它项目提供一些常用工具,包括:系统配置工具Configuration,远程过程调用RPC,序列化机制和hadoop抽象文件系统FileSystem
2、 Avro 数据序列化系统,便于网络传输
3、 Zookeeper解决分布式系统的一致性问题,如统一命名服务,状态同步服务,集群管理,分布式应用配置项的管理等。
4、 HDFS 数据管理与存储
5、Mapreduce
6、Hbase:提供对大规模数据的随机、实时读写访问,其中保存的数据可以通过Mapreduce来处理,将数据存储和并行计算完美的结合在一起。
7、Hive 建立在hadoop之上的数据仓库架构,包括数据ETL(抽取、转换、和加载)工具,数据存储管理和大型数据集的查询和分析能力,类SQL语言。
8、pig简化任务代码,将pig latin脚本转换为hadoop任务链
9、Mahout 主要目标是创建一些可以扩展的机器学习领域经典算法的实现,更快的创建智能应用程序(聚类、分类、推荐引擎(协调过滤)和频繁集挖掘等数据挖掘算法)
10、X-RIME,社会网络分析工具
11、Chukwa 数据收集系统,监控大规模分布式系统,工具集提供了数据的生成、收集、排序、去重、分析和展示等功能
12、lume海量日志收集系统,数据流,可定制数据发送方,从而支持各种不同的协议的数据,对日志数据提供简单的处理能,如过滤,格式转换等,可将日志写往各种数据目标。
13、SQOOP: 在结构化数据存储和hadoop(hive)之间进行数据交换,过程是使用mapreduce并行化。
14、Oozie 工作流引擎,hadoop计算作业被抽象为动作,构建他们之间的依赖关系,组成一个有向无环的工作流。
eclipse快捷键:
Ctrl+T 查看类的结构
Ctrl+Shift+T 查找某个类
Ctrl+Alt+F 查看方法的调用关系
CrygWin不符,暂且不看
Hadoop技术内幕HDFS-笔记1