大数据学习笔记1--hadoop简介和入门

Hadoop简介:

  • 分布式、可扩展、可靠的、分布式计算框架。

组件:

  • common:公共组件
  • hdfs:分布式文件系统
  • yarn:运行环境
  • mapreduce:mr计算模型

生态系统:

  • Ambari:操作界面
  • avro:通用的序列化机制、与语言无关
  • cassandra:数据库
  • chukwa:数据收集系统
  • hbase:分布式大表数据库
  • hive:基于sql的分析系统
  • matout:机器学习算法库
  • pig:脚本语言
  • spark:快速通用的计算引擎,主要用于迭代计算
  • tez:数据流框架
  • zookeeper:高性能的协调服务

海量数据分析:

  • 原始方式?空间限制|性能限制|单节点故障| 细节实现问题
  • hdfs?提供统一接口|大文件切分|分布式存储|平行扩展|高可靠

HDFS

  • hadoop生态系统分布式文件系统,用来解决大数据存储问题。
  • hdfs是在本地文件系统之上抽象出的文件系统,提供统一的访问接口(目录树),实际的文件经过切分和负载均衡算法之后,存储在本地的文件系统中,通过一个主节点(Namenode)统一管理。
  • 为了提高数据存储的可靠性,文件的block会被存储多个副本(默认3个)第一个在本机,第二个在本机所在地同一个机架上,第三个在不同的机架上。
  • 文件系统:提供一套统一的访问接口,屏蔽底层实现细节的系统。

hadoop目录结构:

  • bin:可执行脚本
  • etc:系统配置
  • lib:本地库
  • sbin:系统的可执行脚本
  • share:共享目录,存放的jar包

hdfs文件操作:

  • 使用hdfs dfs命令操作
  • put:上传文件
  • get:下载文件
  • ls:显示文件
  • cat:显示文件内容
  • tail:查看文件末尾
  • count:统计文件数
  • cp:hdfs的拷贝
  • df:查看磁盘容量
  • du:查看文件大小
  • mkdir:创建文件夹 -p创建父文件夹
  • rm:删除
  • mv:移动
  • createSnapshot:创建快照
  • chown:修改所有者
  • chomd:修改权限

hdfs文件存储

  • 文件存储在tmp/data/子文件夹下面,大文件会被切分为128M大小的block,文件只是被简单的切分,不做任何操作,可以手动拼接为完整的文件。
时间: 2024-10-07 11:20:37

大数据学习笔记1--hadoop简介和入门的相关文章

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以

大数据学习系列之六 ----- Hadoop+Spark环境搭建

引言 在上一篇中 大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合HBase,并且测试成功了.在之前的大数据学习系列之一 ----- Hadoop环境搭建(单机) : http://www.panchengming.com/2017/11/26/pancm55/ 中成功的搭建了Hadoop的环境,本文主要讲的是Hadoop+Spark 的环境.虽然搭建的是单机版,

好程序员大数据学习路线分享Hadoop阶段的高可用配置

大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制 Ha机制即Hadoop的高可用(7*24小时不中断服务) 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 hadoop-ha严格来说应该分成各个组件的HA机制--HDFS的HA.YARN的HA HDFS的HA机制详解HDFS 的HA主要是通过双namenode协调工作实现 双namenode协调工作的要点:A.元数据管理方式需要改变: 内存中各自保存一份元数据 Edits日志只能有一份,只有Act

大数据学习笔记

转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine 大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐.本文将讲述Hadoop系统中的一个新成员:Impala. Impala架构分析 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL 语义,能查询存储在Hadoop的HDFS和H

大数据学习笔记7·城市计算(1)

前言 众所周知,快速的城市化使得很多人的生活变得现代化,同时也产生了很多挑战,如交通拥挤.能源消耗和空气污染. 城市的复杂性使得应对这些挑战看起来几乎是不可能的.近来,传感技术和大规模计算基础设施的进步产生了各种各样的大数据,从社会化媒体数据到交通数据,从地理数据到气象数据.如果使用得当,我们可以使用这些数据去应对城市中面临的各种挑战. 受到这个机会的激励,我们提出了城市计算的解决方案.它把城市传感.城市数据管理.城市数据分析和服务提供变成一个对人的生活.城市运行系统和环境进行不断重复但不显眼的

大数据学习笔记2--hdfs工作原理及源码分析

windows下配置hadoop hadoop 安装包解压,路径不要有特殊字符 lib和bin直接解压出来的不可用,需要自己重新编译 配置环境变量:HADOOP_HOME,path中添加:bin目录 namenode 整个文件系统的管理节点.它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表.接收用户的操作请求. 响应客户端的请求,上传文件: client申请上传文件,namenode查看元数据信息,查看客户端申请的路径是否已存在 namenode返回可用的datan