第一天
2.Hadoop框架介绍与搜索技术体系介绍
1. | 大数据典型特性与分布式开发难点 |
2. | Hadoop框架介绍与搜索技术体系介绍 |
3. | Hadoop版本与特性介绍 |
4. | Hadoop核心模块之HDFS分布式文件系统架构介绍 |
5. | Hadoop核心模块之Yarn操作系统架构介绍 |
6. | Linux安全禁用设置与JDK安装讲解 |
7. | Hadoop伪分布式环境部署HDFS部分 |
8. | Hadoop伪分布式环境部署Yarn和MR部分 |
9. | Hadoop环境使用常见的错误集合 |
10. | Hadoop环境常规设置与辅助功能讲解(-) |
11. | Hadoop环境常规设置与辅助功能讲解(二) |
12. | Windows环境下部署Eclipse插件注意事项 |
2.Hadoop框架介绍与搜索技术体系介绍
1.hadoop介绍
-》官网:http://hadoop.apache.org
-》hadoop商业三大发行版
-》Apache -》apache
-》cloudera -》CDH
-》hostonwork -》HDP
-》分布式
-》爬虫
-》存储(加硬盘,但是单台机器是有限的)&处理分析
-》快速查询
-》分开计算,结果合并
-》google-》Mapreduce论文
-》map
-》reduce
-》HDFS 文件系统和数据库是不一样的
-》HBase
-》搜索引擎的技术体系
-》数据获取
-》(外网,互联网抓取数据)
-》数据库
-》数据存储-》HDFS&Hbase
-》yarn操作系统
-》数据计算
-》sql实时查询(消息队列,监控系统)
-》辅助型框架,比如zookeeper
-》生成索引,搜索的索引(商品推荐和自己平时搜索的信息有关)
-》返回个前端用户
-》离线系统-》hadoop生态圈
-》数据获取
-》(外网,互联网抓取数据)
-》云存储
-》全量或者增量导入(同步到hbase当中,sql语句当中)
-》复杂离线处理的过程(job运行,业务的逻辑,表的join,字段的合并)
-》mapreduce(实现全量或者增量数据的更新)
-》其他的框架实现实时数据的更新
这样我整个的数据变化就可以实现秒级的速度 更新到搜索引擎
原文地址:http://blog.51cto.com/10484979/2066288
时间: 2024-12-14 14:31:43