第二周:HDFS简介,实验准备

HDFS简介

HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。

和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。

不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。

为什么hadoop不适合存储小文件

因为Namenode把文件系统的元数据放置在内存中,所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定。一般来说,每一个文件、文 件夹和Block需要占据150字节左右的空间,所以,如果你有100万个文件,每一个占据一个Block,你就至少需要300MB内存。当前来说,数百 万的文件还是可行的,当扩展到数十亿时,对于当前的硬件水平来说就没法实现了

`


夏老师 · 说

1. 在整个Hadoop提示中 必须要明白的:PageRank

2. Salve节点是有一套心跳机制的 ,定期的向NameNode提交节点信息。  (热备)

3.  我们默认使用  hadoop-core1.0.4 作为开发版本 (老夏的版本)

4.  在实际的集群搭建下,建议使用 NDS服务器来维护各个子节点的地址

5. jps  实际上是jvm的命令

6. hadoop不推荐使用root命令  记得不安全

7. openStack 虚拟云 也是大数据云计算的热门   Vcenter  (openStack的收费版本) --提供更加便利的图形界面操作

8.watch -n 3 -d jps 每隔三秒查看一次命令

9. ./hadoop dfsadmin -safename get  关闭安全模式


  • **** 第零章

作者:  道格

发音的问题 :o(︶︿︶)o 唉  了解就行了。

参考书:权威指南。(不是道格写的)  这个书很重要

刘鹏(实战hadoop)写得比较浅  对于新手比较适合,有错误 ( 整理一份书单 )

Hadoop实战  大学老师写的,说是抄权威指南的

HDFS 深度实践 (源代码级别的)--要很懂JAVA

hadoop 技术内幕 (源代码级别的)--要很懂JAVA

  • **** 第壹章

面向企业机型选型配置 介绍

普通 廉价 标准的

16-32G 内存 普通硬盘2Tor more

交换机选择比较高的带宽。 infinband 交换机(光交换机 --很贵的!)

RAID是不需要(磁盘整列) hadoop本身就有冗余机制

可以考虑JBOD (把一堆硬盘组合成一个大的硬盘)

  • ****  第贰章

1. 网络拓扑设计

主流架构方案!局域网中!

2. Hadoop 是基于JAVA 因此只要运行jvm的平台 就能跑 Hadoop

3. hadoop 没有区分 32位和64位

4. window上要跑 Hadoop  需要安装模拟unix/linux的环境 Cygwin

5. 有很多 apache 官方版本的Hadoop 发布版  ---了解

6. JAVA是hadop的原生开发语言。 hadoop本身用hadoop开发, 主要开发语言也是java

7. 世界上最小的电脑:树莓派

  • **** 第叁章

课程实验准备

内存 1G  硬盘 20G

安装完linux 以后 要确认 iptables 和 selinux 等防火墙或者过滤策略软件关闭

1. 怎么装 JDK

wget  *(url)  下载

tar -vxzf * (*.tar)

设置环境变量    (讲得很抽象)

2. 免密码登录

ssh keygen -t rsn (生成公钥和私钥文件)

将公钥文件 拷贝到其他机器上。

(循环往复的做每一台机器)

3. 免密码的原因:

早期:保密通讯。

RSA  不对称加密   公钥私钥

正常:

A 客服端  B 服务器

A  发起请求

B  公钥给A

A  生成密码 用B公钥加密  传递给B

B  用私钥解密

A B 有对称密码

免密码:

A  发起请求

B  生成 challest  用 A 公钥 加密  发给 A

A  用私钥解密 challest   再次发给B

B  核对 A 发过来的 challest 发现和本地一样   不用密码也通过验证

  • ****  第肆章

1. 完全分布式安装

安装  hadoop

hadoop-env.xml 脚本文件   修改环境变量   java

core-site.xml  指定名称节点的路径    存放数据的位置

hdfs-site.xml  指定hdfs的复制因子

mapred-site.xml  joktrack的监听端口

修改 vi  etc/hosts 文件    将IP和主机名映射

关闭防火墙

format  nodename 节点

start-all

问题:  自己连自己要密码   公钥拷贝到 authori-keys !

JPS 命令

PS   第一版和现在的版本可以交替的看。要不可能会晕。

常见错误:

百度 和 谷歌 dataguru  1000人参加过Hadoop

chkconfig  iptables  off  (重启有用 ) 关闭防火墙

chkconfig (查看 各个级别的 启动项)

查看所有端口开放情况: netstat -ntl

开放某个端口:nc -l 端口号 &

2. 伪分布式系统安装描述

和完全分布式的基本一样

自动清除log文件

hadoop集群跑了很多的任务后

在hadoop.log.dir目录下会产生大量的日志文件。

可以通过配置core-site.xml文件让集群自动清除日志文件:

<property>

<name>hadoop.logfile.size</name>

<value>10000000</value>

<description>The max size of each log file</description>

</property>

<property>

<name>hadoop.logfile.count</name>

<value>10</value>

<description>The max number of log files</description>

</property>

ssh-keygen 创建公钥和密钥。

ssh-copy-id 把本地主机的公钥复制到远程主机的authorized_keys文件上。

ssh-copy-id 也会给远程主机的用户主目录(home)和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限 。

http://www.itpub.net/forum-214-1.html

时间: 2024-08-13 02:10:30

第二周:HDFS简介,实验准备的相关文章

2014025670(12)《嵌入式系统程序设计》第二周学习总结

这周学习了gcc和gdb的使用还有makefile. 教材学习内容总结 教材内容开始看的有些吃力,很多地方都不太懂,网上查询和询问同学和老师之后,了解了很多,但是具体操作和实现方面还是比较难. 教材学习中问题和解决过程 对于gcc的操作在实验楼的学习中还是比较顺利,gdb的操作感觉有些村存在问题-----gdb的调试方面有些吃力,应该是自己没努力的结果,打算把问题汇总一下,再试试实验. 课后作业中的问题和解决过程 应用实验楼的第二周,第一周的内容感觉简单,消化很快,没想到第二周就感觉有些吃力,不

进度条--第二周

第二周 所花时间(包括上课) 27个小时 代码量(行) 600行 博客量(篇) 3篇 了解到的知识点 1.文件的输入输出流的复习2.重新复习数据结构中的栈,但是还是又不懂的地方,导致这次实验括号的功能没有加入.

2017面向对象程序设计(Java)第二周学习总结

2017面向对象程序设计(Java)第二周学习总结 直系学妹学弟们好!额...不要问我为什么把学妹放前面,我也不知道!我只是你们和蔼可亲的学长一枚而已.也不要问为什么是第二周学习总结而不是第一周,因为第一周学长正在家里吃西瓜吹空调.好了,闲言少叙.我先为你们介绍一下助教的职责,而后再对你们的学习情况进行总结! 身为你们本学期Java课程的助教...之一,我的任务是:指导你们学习,批改我所负责学习小组的实验作业.阅读博文并回复.其他学习小组会有另外三位助教负责.由于我们每周五都会汇总你们的情况,其

HarvardX: PH525.4x Introduction to Bioconductor第二周笔记

PH525.4x第二周内容围绕GRange类的操作和使用Annotation进行数据关联两个主题展开,并展示了几个比较“炫”的功能.由于内容繁多,信息量大,故笔记之以便日后参考.该课程的演示数据为ChIP-seq的实验数据,背景为人类肝细胞(cell line:HepG2和GM12878)中被ESRRA (estrogen related receptor alpha)绑定的基因片段.在展示数据操作之前,首先检查bioconductor的版本号,不同版本的输出可能存在差异. library(Bi

20169217《Linux内核原理与分析》第二周作业

通过第二周的学习,我想把我的博客分为两部分,第一部分是实验楼linux内核分析实验一的实验报告,第二部分是看书第1,2,18章的内容和时间情况. 现在先说实验一 实验内容:将一段c语言程序反汇编成汇编程序. c语言程序代码:应实验要求我把其中部分数值进行了修改. int g(int x) { return x+6; } int f(int x) { return g(x); } int main(void) { return f(9)+3; } 实验过程: 首先创建一个main.c文件 将刚刚修

Linux内核设计(第二周)——操作系统工作原理

Linux内核设计(第二周)--操作系统工作原理 by苏正生 原创作品转载请注明出处 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 一.学习笔记总结 1.函数调用堆栈 (1).函数调用堆栈. 堆栈是C语言程序运行时必须的一个记录调用路径和参数的空间. cpu内部已经集成好的功能,pop,push,enter-- 函数调用构架 传递参数,通过堆栈 保存返回值,%eax 提供局部变量空间 -- C语言编译器对堆栈

第二周学习进度表

  第二周 所花时间(包括上课) 上课:4小时,周一:2小时,周三:3小时,周五:2小时,周六.日:各5小时 代码量(行) 150行左右 博客量(篇) 3篇 了解到的知识点 代码编写的规范性.代码风格规范.代码设计规范,以及如何进行单元测试. 本次实验二任务对我来说有具有一定的难度,由于我的编程基础很差,花费了大量的时间在编写代码上边,但是还有一部分的实验要求没有实现,这次实验对我的自信心打击比较大,以后一定会提前做好准备,认真地实现实验的要求.

20145319 第二周学习总结

20145319 <Java程序设计>第二周学习总结 教材学习内容总结 本周学习教材第三章,本章主要讲述了java语言中的一些基础语法,大致包括java语言中的类型,变量,运算符,流程以及基础语法等. 1. 类型 基本类型(每种类型都有其储存范围,如超出范围,即Overflow): 整数:可分为short整数(占2字节),int整数(占4字节),long整数(占8字节)三种,例如,int类型的十进制2其实是以000000000 00000000 00000000 00000000 000000

魏昊卿——《Linux内核分析》第二周作业:了解操作系统是怎样工作的

魏昊卿——<Linux内核分析>第二周作业:了解操作系统是怎样工作的 一.实验部分 使用实验楼的虚拟机打开shell cd LinuxKernel/linux-3.9.4 qemu -kernel arch/x86/boot/bzImage 然后cd mykernel 您可以看到qemu窗口输出的内容的代码mymain.c和myinterrupt.c 使用自己的Linux系统环境搭建过程参见mykernel,其中也可以找到一个简单的时间片轮转多道程序内核代码 mymain.c myinterr