hadoop分布式存储(1)-hadoop基础概念(毕业设计)

hadoop是一种用于海量数据存储、管理、分析的分布式系统。需要hadoop需要储备一定的基础知识:1、掌握一定的linux操作命令 2、会java编程。因此hadoop必须安装在有jdk的linux环境中。

linux环境可以用以下方式获取:1、安装linux操作系统  2、安装linux虚拟机  3、在阿里云、UniteStack上租一个云主机,创建linux环境,然后用putty去链接。

linux下jdk的安装:百度即可。

与hadoop相关联的一些基础知识:

Google大数据技术:
1.MapReduce:概念"Map(映射)"和"Reduce(归约)",它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
2.BigTable:是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库
3.GFS:是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。
hadoop革命性变
1.成本降低,能用PC机,不用大型机和高端存储
2.软件容错硬件故障视为常态,通过软件保证可靠性
3.简化并行分布式计算,无须控制节点同步和数据交换
Hadoop的功能和优势
1.Hadoop是开源的分布式存储和分布式计算平台
2.Hadoop的组成:HDFS:分步实施文件系统,存储海量数据  MapReduce:并行处理框架,实现任务分解和调度
3.Hadoop的用途:搭建大型数据仓库,PB级数据存储、处理、分析、统计等业务(搜索引擎、日志分析、商业智能、数据挖掘)
4.Hadoop优势:高扩展、低成本(普通PC机)、成熟的生态圈
hadoop生态系统:
1.hdfs
2.mapreduce
3.相关开源工具:
(1)hive:将简单的sql语句转化为hadoop任务,降低使用hadoop的门槛
(2)HBASE:区别于传统数据库:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能
(3)zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性
Hadoop版本最高2.6,初学者建议1.2(ver1.2-稳定)
 
 
时间: 2024-08-21 10:57:45

hadoop分布式存储(1)-hadoop基础概念(毕业设计)的相关文章

hadoop分布式存储&&分布式计算

Hadoop是Lucene创始人Doug Cutting,根据Google的相关内容山寨出来的分布式文件系统和对海量数据进行分析计算的基础框架系统,其中包含MapReduce程序,hdfs系统等. 网方网站:http://hadoop.apache.org/ Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 下载: http://hadoop.apache.org/releases.html hadoop基于java开发的. Hadoop包括两大核心,分布式存储系统和分布式计算

Hadoop大数据零基础高端实战培训视频

<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量: 300课时 用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询QQ:779591710 下载地址: 链接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542 密码:8tkb 第一阶段:Hadoop基础篇(50课时) - 千里之行,始于足下(赠送课

linux上部署hadoop集群系列 基础篇

介绍 这一系列博文介绍hadoop集群的部署和安装,因为hadoop确实比较复杂,所以分为几个部分来一一介绍.大致有基础篇,HA-QJM篇,Federation篇. 正文 一.操作环境 虚拟机4台,配置基于hadoop的集群中包括4个节点:1个Master,3个Salve,节点之间局域网连接,可以相互ping通,Ip分布为: 168.5.15.112 hadoop1(Master) 168.5.15.116 hadoop2(Slave) 168.5.15.207 hadoop3(Slave) 1

Hadoop大数据零基础高端实战培训(新增内容)

Hadoop大数据零基础高端实战培训系列配文本挖掘项目课程分类:大数据适合人群:初级课时数量:230课时+90课程更新程度:完成用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询qq:1840215592 大数据Hadoop实战视频教程就从最基础的Java语法.数据库.Linux讲起到深入Hadoop大数据技术所必须的所有知识,设计Hadoop生态圈所有常用组件,包括但不限于:Greenplum数据库.HBase.Hive.Pig.ZooKeeper.Chukwa.Hado

学hadoop需要掌握什么基础

hadoop作为大数据一体化解决方案,在国内可以说是迎来了一个发展的小高潮.国外各种hadoop商业发行版起步较早,国产的hadoop发行版并不是很多,但也有做的比较好的比如大快搜索DKhadoop.华为云等.像DKhadoop是原生态开发,相较于其他的二次开发后的发行版,对于想要学习hadoop的更容易上手实操.下面就为简单介绍一下学hadoop需要什么基础知识点:1.需要DKhadoop发行版2.虚拟机搭建3.Linux操作系统设置4.C语言.Python或者Java语言内容介绍:1.搞清楚

大数据时代之hadoop(六):hadoop 生态圈(pig,hive,hbase,ZooKeeper,Sqoop)

大数据时代之hadoop(一):hadoop安装 大数据时代之hadoop(二):hadoop脚本解析 大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四):hadoop 分布式文件系统(HDFS) 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce) hadoop是有apache基金会所开发的分布式系统基础架构,其主要提供了两方面的功能:分布式存储和分布式计算.其中分布式存储是分布式计算的基础,在hadoop的实现里面,提

Hadoop实战之一~Hadoop概述

前言 对技术,我还是抱有敬畏之心的. Hadoop概述 Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的离线分析工具.基于Java开发,建立在HDFS上,最早由Google提出,有兴趣的同学可以从Google三驾马车: GFS,mapreduce,Bigtable开始了解起,这里我不详细介绍了,因为网上的资料实在是太多了. Hadoop项目的结构如下: Hadoop中最重要的应该就是HDFS和Mapreduce了,从HDFS讲起: HDFS主要由以下优点: 

hadoop正式学习---hadoop

一:课程结构 二:hadoop是什么 hadoop是适合大数据的分布式存储与计算的平台 三:数据的分布式存储 四:hadoop中的概念 在分布式存储系统中,分散在不同节点中的数据可能属于同一个文件,为了组织众多的文件,把文件可以放到不同的文件夹中,文件夹可以一级一级的包含.我们把这种组织形式称为命名空间(namespace).命名空间管理着整个服务器集群中的所有文件. 集群中不同的节点承担不同的职责.负责命名空间职责的节点称为主节点(master node),负责存储真实数据职责的节点称为从节点

[转帖]Zookeeper学习系列【一】 教会你Zookeeper的一些基础概念

Zookeeper学习系列[一] 教会你Zookeeper的一些基础概念 https://segmentfault.com/a/1190000018927058 前言 最近加入了部门的技术兴趣小组,被分配了Zookeeper的研究任务.在研究过程当中,发现Zookeeper由于其开源的特性和其卓越的性能特点,在业界使用广泛,有很多的应用场景,而这些不同的应用场景实际上底层的原理都是差不多的,只要你真正理解了Zookeeper的一些基础概念和机制,就能够触类旁通. 于是乎,在第一次和项目小组内成员

Zookeeper学习系列【一】 教会你Zookeeper的一些基础概念

前言 最近加入了部门的技术兴趣小组,被分配了Zookeeper的研究任务.在研究过程当中,发现Zookeeper由于其开源的特性和其卓越的性能特点,在业界使用广泛,有很多的应用场景,而这些不同的应用场景实际上底层的原理都是差不多的,只要你真正理解了Zookeeper的一些基础概念和机制,就能够触类旁通. 于是乎,在第一次和项目小组内成员分享过Zookeeper作为服务注册中心的原理和客户端demo演示之后,我萌生出了整理一个专题的想法,以此为起点,慢慢捡起自己的博客分享之路. 本篇的内容主要介绍