大数据学习第一章

备注:从现在开始直到10月份我们要参加省级大数据比赛,在此我会把这期间学习的东西都会在此记录下来,加油吧!!!

1、因为大数据是在Linux系统上运行的,我们有两种选择,下面贴一篇博客

http://dblab.xmu.edu.cn/blog/285/        这是慕课网上厦门大学林子雨老师讲的一些基本的安装过程

Linux系统建议使用Ubuntu,下面配上下载地址

ubuntu官方网站: http://www.ubuntu.com/    对应 中文地址为 http://www.ubuntu.org.cn/index_kylin

桌面版下载地址: http://www.ubuntu.com/download/desktop

当然也可以完全按照林子雨老师博客里面进行安装,

2、下面贴一些Linux常用的一些命令(下面命令来源于http://www.cnblogs.com/resn/p/5800922.html  可自行参考)

软件管理:

apt-cache search package 搜索包
apt-cache show package 获取包的相关信息,如说明、大小、版本等
sudo apt-get install package 安装包
sudo apt-get install package –reinstall 重新安装包
sudo apt-get -f install 强制安装
sudo apt-get remove package 删除包
sudo apt-get remove package –purge 删除包,包括删除配置文件等
sudo apt-get autoremove 自动删除不需要的包
sudo apt-get update 更新源
sudo apt-get upgrade 更新已安装的包
sudo apt-get dist-upgrade 升级系统
sudo apt-get dselect-upgrade 使用 dselect 升级
apt-cache depends package 了解使用依赖
apt-cache rdepends package 了解某个具体的依赖
sudo apt-get build-dep package 安装相关的编译环境
apt-get source package 下载该包的源代码
sudo apt-get clean && sudo apt-get autoclean 清理下载文件的存档
sudo apt-get check 检查是否有损坏的依赖

apt的配置文件:

/etc/apt/sources.list 设置软件包的获取来源
/etc/apt/apt.conf apt配置文件
/etc/apt/apt.conf.d apt的零碎配置文件
/etc/apt/preferences 版本参数
/var/cache/apt/archives/partial 存放正在下载的软件包
/var/cache/apt/archives 存放已经下载的软件包
/var/lib/apt/lists 存放已经下载的软件包详细信息
/var/lib/apt/lists/partial 存放正在下载的软件包详细信息

修改密码:
# 修改密码的命令
passwd # 默认修改当前用户的密码

passwd username # 修改指定用户的密码,需要管理员权限

备注:权限不够时需要加sudo 获取管理员权限

忘记密码

开始时长按shift键,进入grub菜单-->  按字母e 进入编辑模式 --> 编辑内容--> 启动 进入但用户模式 ,重新设置用户密码,-->  按照F10重启 -- >  使用新密码进入系统

关机/重启/注销:

logout  # 注销

reboot  # 重启系统:

shutdown # 关机:

shutdown -r now # 现在立即重启
shutdown -r +5  # 三分钟后重启
shutdown -r 12:12    #在12:12时将重启计算机

shutdown -h now # 现在立即关机
shutdown -h +5  “The System will shutdown after 3 minutes”   # 提示使用者将在三分钟后关机
shutdown -h +5   #  5分钟后关机
shutdown -h 12:00  # 12点钟关机
shutdown -c   # 取消关机操作
目录切换:
cd  # 回到当前用户的家目录
# ~  可用于表示用户家目录
cd  /etc # 切换到/etc目录

cd - # 切换到上一次的目录

pwd 查看当前的工作路径

创建目录:

mkdir my_dir创建目录mkdir a/b/c/d创建多层目录

获取帮助:-h --help info man
man man  # 查看man命令的手册
man  cd
man  pwd
man 5 passwd
man -k passwd # 模糊查找
man -f  passwd  # 精确查找 

创建文件:touch :改变文件或目录时间,文件不存在时会创建一个空文件

touch filel # filel 不存在时被创建touch -c filel #不创建文件
touch -r ref_file file1  更新file1.txt的时间戳和ref+file相同
touch -t 201210120505.25 file1

删除:rm
rm -f  file1 # 强制删除文件
rm -r  a/b/file1  # 删除指定目录及其下的所有文件和目录
rm -rf  a/b/file1  #  强制删除指定目录及其下的所有文件和目录

# rm 命令太危险,不建议使用

mv:移动或重命名文件或目录
mv SOURCE DEST  #
mv test.log test.txt  # 文件改名
mv test1.txt dir1/      #移动文件
mv test1.txt  test2.tx  test3.tx dir1/      #移动多个文件
cp  :复制

cp SOURCE DEST 复制文件
cp -i  SOURCE DEST  #   如果遇到需要覆盖的情况,则提示
cp -r  dir1  dir2  # 若给出的源文件是一目录文件,此时cp将递归复制该目录下所有的子目录和文件。此时目标文件必须为一个目录名
cp -p  file1 file2  #  此时cp除复制源文件的内容外,还将把其修改时间和访问权限也复制到新文件中。

cp -rp dir1  dir2

star:查看文件详细信息:

stat filename

car:链接文件后输出文件内容到屏幕上,其实就是查看文件内容

cat file1  #显示 file1的文件内容
cat file1 file2   # 显示file1和file2的文件内容
cat -n file1  #  由1开始对所有输出的行数编号
cat -s file  # 当遇到连续2行以上的空白行,只保留一行空白行
history : 查看执行过的命令。
history  # 显示最近1000条历史命令
history 5   # 显示最后5条命令
!number# number为history之后命令前的序号:执行该条命令
!cat # 执行最后一条以cat开头的命令

more :   查看文件内容

less  : 查看文件内容

head : 输出文件的开始的部分, 可以指定行数 , 默认显示10行

ls : 列出目标目录中所有的子目录和文件

格式:ls [选项] [目录名]

-a 用于显示所有文件和子目录(保罗点文件)。

-l 除了文件名之外,还将文件的权限、所有者、文件大小等信息详细列出来。

-r 将目录的内容清单以英文字母顺序的逆序显示。

-t 按文件修改时间进行排序,而不是按文件名进行排序。

-A 同-a,但不列出“.”(表示当前目录)和“..”(表示当前目录的父目录)。

-F 在列出的文件名和目录名后添加标志。例如,在可执行文件后添加“*”,在目录名后添加“/”以区分不同的类型。

-R 如果目标目录及其子目录中有文件,就列出所有的文件。

. 和..

. 表示当前目录

.. 表示父目录


ls  # 列出当前目录下的文件和目录
ls  . # 列出当前目录下的文件和目录
ls ..   # 列出当前目录的父目录下的文件和目录
ls  /etc    # 列出/etc目录下的文件和目录

ls -l  # 以长格式显示文件信息
总用量 76
-rwxrwxrwx 1 will will    78 5月  13 18:11 ss_start.sh
 

文件类型

-  普通文件

d  目录文件

b 块设备文件

c  字符设备文件

l  链接文件

p 管道文件

s  socket文件

 

文件权限


rwxrwxr-- : 三组rwx 分别表示 所有者、所有组、其他人 的权限。


r : 表示可读, 可以用数字 4 来表示
w : 标识可写 ,可以用数字 2 来表示
x : 表示可执行 , 可以用数字 1 来表示
- :表示没有相应权限  可以用数字 0 来表示

useradd: 添加用户

# -c 备注 加上备注。并会将此备注文字加在/etc/passwd中的第5项字段中
#  -d 用户主文件夹。指定用户登录所进入的目录,并赋予用户对该目录的的完全控制权
#  -e 有效期限。指定帐号的有效期限。格式为YYYY-MM-DD,将存储在/etc/shadow
#  -f 缓冲天数。限定密码过期后多少天,将该用户帐号停用
#  -g 主要组。设置用户所属的主要组  www.cit.cn
#  -G 次要组。设置用户所属的次要组,可设置多组
# -M 强制不创建用户主文件夹
#  -m 强制建立用户主文件夹,并将/etc/skel/当中的文件复制到用户的根目录下
#  -p 密码。输入该帐号的密码
#  -s shell。用户登录所使用的shell
#  -u uid。指定帐号的标志符user id,简称uid

useradd user1 # 添加用户 user1
useradd  -d /home/userTT user2

userdel : 删除用户
userdel  user1  #
userdel -r user1

#  -r, --remove   用户主目录中的文件将随用户主目录和用户邮箱一起删除。在其它文件系统中的文件必须手动搜索并删除。
#    -f, --force    此选项强制删除用户账户,甚至用户仍然在登录状态。它也强制删除用户的主目录和邮箱,即使其它用户也使用同一个主目录或邮箱不属于指定的用户
usermod : 修改用户信息
# -c<备注>  修改用户帐号的备注文字。
# -d登入目录>  修改用户登入时的目录。
# -e<有效期限>  修改帐号的有效期限。
# -f<缓冲天数>  修改在密码过期后多少天即关闭该帐号。
# -g<群组>  修改用户所属的群组。
# -G<群组>  修改用户所属的附加群组。
# -l<帐号名称>  修改用户帐号名称。
# -L  锁定用户密码,使密码无效。
# -s<shell>  修改用户登入后所使用的shell。
# -u<uid>  修改用户ID。 

# -U  解除密码锁定。

usermod -G staff user2  # 将 newuser2 添加到组 staff 中
usermod -l newuser1 newuser  # 修改 newuser 的用户名为 newuser1
usermod -L newuser1  # 锁定账号 newuser1
usermod -U newuser1  # 解除对 newuser1 的锁定

su  : 切换用户,没有参数时,默认切换为root用户;
su   # 切换为root

## 推荐
su -   # 切换为root 并加载user1的环境配置
su -  user1 # 切换为user1 并加载user1的环境配置

sudo :   让当前用户暂时以管理员的身份root来执行命令。

Ubuntu 默认没有启用root用户, 普通用户执行一些特殊的操作时,使用sudo就可以让普通用户以root用户的身份执行命令

sudo有一个配置文件: /etc/sudoers  ;  通过修改配置文件可以让指定用户使用sudo命令

关于各个文件的作用域:
(1) /etc/profile: 此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行. 并从/etc/profile.d目录的配置文件中搜集shell的设置。
(2) /etc/bashrc: 为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取(即每次新开一个终端,都会执行bashrc)。
(3) ~/.bash_profile: 每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件仅仅执行一次。默认情况下,设置一些环境变量,执行用户的.bashrc文件。
(4) ~/.bashrc: 该文件包含专用于你的bash shell的bash信息,当登录时以及每次打开新的shell时,该该文件被读取。
(5) ~/.bash_logout: 当每次退出系统(退出bash shell)时,执行该文件. 另外,/etc/profile中设定的变量(全局)的可以作用于任何用户,而~/.bashrc等中设定的变量(局部)只能继承 /etc/profile中的变量,他们是"父子"关系。(6) ~/.bash_profile: 也可能是 .profile  是交互式、login 方式进入 bash 运行的~/.bashrc 是交互式 non-login 方式进入 bash 运行的通常二者设置大致相同,所以通常前者会调用后者。

PATH变量的设置

env : 查看当前环境变量

export  :  设置或显示环境变量。

source : 在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限"

tar:

-c :建立一个压缩文件的参数指令(create 的意思);
-x :解开一个压缩文件的参数指令!
-t :查看 tarfile 里面的文件!
特别注意  c/x/t 同时仅能存在一个,因为不可能同时压缩与解压缩。
-z :是否同时具有 gzip 的属性?亦即是否需要用 gzip 压缩?
-j :是否同时具有 bzip2 的属性?亦即是否需要用 bzip2 压缩?
-v :压缩的过程中显示文件!这个常用,但不建议用在背景执行过程!
-f :使用档名,请留意,在 f 之后要立即接文件名
-p :使用原文件的原来属性(属性不会依据使用者而变)
-P :可以使用绝对路径来压缩!
-N :比后面接的日期(yyyy/mm/dd)还要新的才会被打包进新建的文件中!

# 将当前目录下所有.txt文件打包并压缩归档到文件this.tar.gz
tar czvf this.tar.gz ./*.txt
# 将当前目录下的this.tar.gz中的文件解压到当前目录
tar xzvf this.tar.gz ./

# 将整个 /etc 目录下的文件全部打包成为 /tmp/etc.tar
tar -cvf /tmp/etc.tar /etc  # 仅打包,不压缩!
tar -zcvf /tmp/etc.tar.gz /etc  # 打包后,以 gzip 压缩
tar -jcvf /tmp/etc.tar.bz2 /etc  # 打包后,以 bzip2 压缩

# 解压文件
tar -xf  a.tar.gz   #
tar -xf  a.tar.gz  -C /tmp  # 指定解包路径

grep:
格式:
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN]  [FILE...]
参数:
-c    --count   #计算符合样式的列数
-l    --file-with-matches   #列出文件内容符合指定的样式的文件名称。
-v   --revert-match   #显示不包含匹配文本的所有行。
-i    --ignore-case   #忽略字符大小写的差别。
-o   # 只显示匹配到的关键字
-n  # 现实行号

-E    使用正则表达式

vi/vim

进入vi的命令 
vi filename :打开或新建文件,并将光标置于第一行首 
vi +n filename :打开文件,并将光标置于第n行首 
vi + filename :打开文件,并将光标置于最后一行首 
vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处 
vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复filename 
vi filename....filename :打开多个文件,依次进行编辑


移动光标类命令
h :光标左移一个字符 
l :光标右移一个字符 
space:光标右移一个字符 
Backspace:光标左移一个字符 
k或Ctrl+p:光标上移一行 
j或Ctrl+n :光标下移一行 
Enter :光标下移一行 
w或W :光标右移一个字至字首 
b或B :光标左移一个字至字首 
e或E :光标右移一个字至字尾 
) :光标移至句尾 
( :光标移至句首 
}:光标移至段落开头 
{:光标移至段落结尾 
nG:光标移至第n行首 
n+:光标下移n行 
n-:光标上移n行 
n$:光标移至第n行尾 
H :光标移至屏幕顶行 
M :光标移至屏幕中间行 
L :光标移至屏幕最后行 
0:(注意是数字零)光标移至当前行首 
$:光标移至当前行尾

屏幕翻滚类命令 
Ctrl+u:向文件首翻半屏 
Ctrl+d:向文件尾翻半屏 
Ctrl+f:向文件尾翻一屏 
Ctrl+b;向文件首翻一屏 
nz:将第n行滚至屏幕顶部,不指定n时将当前行滚至屏幕顶部。

插入文本类命令 
i :在光标前 
I :在当前行首 
a:光标后 
A:在当前行尾 
o:在当前行之下新开一行 
O:在当前行之上新开一行 
r:替换当前字符 
R:替换当前字符及其后的字符,直至按ESC键 
s:从当前光标位置处开始,以输入的文本替代指定数目的字符 
S:删除指定数目的行,并以所输入文本代替之 
ncw或nCW:修改指定数目的字 
nCC:修改指定数目的行

删除命令 
ndw或ndW:删除光标处开始及其后的n-1个字 
do:删至行首 
d$:删至行尾 
ndd:删除当前行及其后n-1行 
x或X:删除一个字符,x删除光标后的,而X删除光标前的 
Ctrl+u:删除输入方式下所输入的文本

搜索及替换命令 
/pattern:从光标开始处向文件尾搜索pattern 
?pattern:从光标开始处向文件首搜索pattern 
n:在同一方向重复上一次搜索命令 
N:在反方向上重复上一次搜索命令 
:s/p1/p2/g:将当前行中所有p1均用p2替代 
:n1,n2s/p1/p2/g:将第n1至n2行中所有p1均用p2替代 
:g/p1/s//p2/g:将文件中所有p1均用p2替换

选项设置 
all:列出所有选项设置情况 
term:设置终端类型 
ignorance:在搜索中忽略大小写 
list:显示制表位(Ctrl+I)和行尾标志($) 
number:显示行号 
report:显示由面向行的命令修改过的数目 
terse:显示简短的警告信息 
warn:在转到别的文件时若没保存当前文件则显示NO write信息 
nomagic:允许在搜索模式中,使用前面不带“\”的特殊字符 
nowrapscan:禁止vi在搜索到达文件两端时,又从另一端开始 
mesg:允许vi显示其他用户用write写到自己终端上的信息

最后行方式命令 
:n1,n2 co n3:将n1行到n2行之间的内容拷贝到第n3行下 
:n1,n2 m n3:将n1行到n2行之间的内容移至到第n3行下 
:n1,n2 d :将n1行到n2行之间的内容删除 
:w :保存当前文件 
:e filename:打开文件filename进行编辑 
:x:保存当前文件并退出 
:q:退出vi 
:q!:不保存文件并退出vi 
:!command:执行shell命令command 
:n1,n2 w!command:将文件中n1行至n2行的内容作为command的输入并执行之,若不指定n1,n2,则表示将整个文件内容作为command的输入 
:r!command:将命令command的输出结果放到当前行



寄存器操作 
"?nyy:将当前行及其下n行的内容保存到寄存器?中,其中?为一个字母,n为一个数字 
"?nyw:将当前行及其下n个字保存到寄存器?中,其中?为一个字母,n为一个数字 
"?nyl:将当前行及其下n个字符保存到寄存器?中,其中?为一个字母,n为一个数字 
"?p:取出寄存器?中的内容并将其放到光标位置处。这里?可以是一个字母,也可以是一个数字 
ndd:将当前行及其下共n行文本删除,并将所删内容放到1号删除寄存器中。




一、插入文本 
i  在当前字符前插入文本   
I  在行首插入文本       
a  在当前字符后添加文本   
A  在行末添加文本      
o  在当前行后面插入一空行  
O  在当前行前面插入一空行  
R  以改写方式输入文本   


二、移动光标 
j或下箭头 向下移动一行
k或上箭头 向上移动一行
h或左箭头 左移一个字符
l或右箭头 右移一个字符
w     右移一个词
W     右移一个以空格分隔的词 
b     左移一个词
B     左移一个以空格分隔的词
0     移到行首
Ctrl-F  向前翻页
Ctrl-B  向后翻页
nG    到第n行
G     到最后一行


三、替换文本 
$     到行尾
(     到句子的开头 
)     到句子的末尾
{     到段落的开头
}     到段落的末尾


四、删除文本


r   替换一个字符
c   修改文本直到按下Esc健 
cw  修改下一个词
cnw  修改接下来的n个词


五、文本编辑 
yy 将一行文本移到缺省缓冲区中 
yn 将下一个词移到缺省缓冲区中
ynw 将后面的n个词移到缺省缓冲区中
p  如果缺省缓冲区中包含一行文本,则在当前    
  行后面插入一个空行井将缺省缓冲区中的声    
  容粘贴到这一行中;如果缺省缓冲区中包含    
  多个词,把这些词粘贴到光标的右边.     

P  如果缺省缓冲区中包含一行文本,则正当前     
  行前面插入一个空行井将缺省缓冲区中的内     
  容粘贴到这一行中;如果缺省缓冲区中包含    
   多个词,把这些词粘贴到光标的左边    


六、保存退出 
zz          保存并退出
:w filename      写入文件
:W          写入文件
:x          保存(如果当前文件修改过)并退出 
:q!          不保存文件,直接退出
:q          退出vi


vi编辑器的启动与退出
直接进入编辑环境 
$ vi


进入编辑环境并打开(新建)文件
$ vi myfile


退出vi编辑环境 
输入末行命令放弃对文件的修改,并退出编辑器
:q!


保存文件 
保存对vi编辑器中已打开文件的修改
:w


另存为文件
将vi编辑器中的内容另存为指定文件名
:w myfile


退出vi编辑器的多种方法
未修改退出
没有对vi编辑器中打开的文件进行修改,或已对修改进行了保存,直接退出vi编辑器
:q


对vi编辑器中的文件进行保存并退出vi编辑器
:wq


不保存退出
放弃对文件内容的修改,并退出vi编辑器
:q!




光标的移动和翻页操作
h向左移动光标 
l向右移动光标 
k向上移动光标 
j向下移动光标 
翻页Ctrl + f向前翻整页 
Ctrl + b向后翻整页 
Ctrl + u向前翻半页 
Ctrl + d向后翻半页




行内快速跳转 
^将光标快速跳转到本行的行首字符 
$将光标快速跳转到本行的行尾字符 
w将光标快速跳转到当前光标所在位置的后一个单词的首字母 
b将光标快速跳转到当前光标所在位置的前一个单词的首字母 
e将光标快速跳转到当前光标所在位置的后一个单词的尾字母 
文件内行间快速跳转




命令功能
:set nu 在编辑器中显示行号 
:set nonu 取消编辑器中的行号显示
1G跳转到文件的首行 
G跳转到文件的末尾行 
#G跳转到文件中的第#行




进入输入模式 
i在当前光标处进入插入状态 
a在当前光标后进入插入状态 
A将光标移动到当前行的行末,并进入插入状态 
o在当前行的下面插入新行,光标移动到新行的行首,进入插入状态 
O在当前行的上面插入新行,光标移动到新行的行首,进入插入状态 
cw删除当前光标到所在单词尾部的字符,并进入插入状态 
c$删除当前光标到行尾的字符,并进入插入状态 
c^命令删除当前光标之前(不包括光标上的字符)到行首的字符,并进入插入状态




输入模式的编辑键操作 
方向键进行上下左右方向的光标移动 
Home快速定位光标到行首
End快速定位光标到行尾
PageUp进行文本的向上翻页 
PageDown进行文本的向下翻页
Backspace删除光标左侧的字符
Del删除光标位置的字符




删除操作 
x删除光标处的单个字符 
dd删除光标所在行 
dw删除当前字符到单词尾(包括空格)的所有字符 
de删除当前字符到单词尾(不包括单词尾部的空格)的所有字符 
d$删除当前字符到行尾的所有字符 
d^删除当前字符到行首的所有字符 
J删除光标所在行行尾的换行符,相当于合并当前行和下一行的内容



替换操作


:s/old/new 将当前行中查找到的第一个字符“old” 串替换为“new”

:s/old/new/g 将当前行中查找到的所有字符串“old” 替换为“new”

:#,#s/old/new/g 在行号“#,#”范围内替换所有的字符串“old”为“new”

:%s/old/new/g 在整个文件范围内替换所有的字符串“old”为“new”

:s/old/new/c 在替换命令末尾加入c命令,将对每个替换动作提示用户进行确认

撤消操作

u取消最近一次的操作,并恢复操作结果

可以多次使用u命令恢复已进行的多步操作

U取消对当前行进行的所有操作

Ctrl + r对使用u命令撤销的操作进行恢复

复制与粘贴操作

yy复制当前行整行的内容到vi缓冲区

yw复制当前光标到单词尾字符的内容到vi缓冲区

y$复制当前光标到行尾的内容到vi缓冲区

y^复制当前光标到行首的内容到vi缓冲区

p读取vi缓冲区中的内容,并粘贴到光标当前的位置(不覆盖文件已有的内容)

字符串查找操作

/word从上而下在文件中查找字符串“word”

?word 从下而上在文件中查找字符串“word”

n定位下一个匹配的被查找字符串

N定位上一个匹配的被查找字符串

快捷键

ctrl-a : 把光标移动到命令行最开始的地方。 
ctrl-e : 把光标移动到命令行末尾。 
ctrl-u : 清除命令行中光标所处位置之前的所有字符。 
ctrl-k : 清除从提示符所在位置到行末尾之间的字符
ctrl-w : 清除左边的字段 
ctrl-y : 将会贴上被ctrl-u 或者 ctrl-k 或者 ctrl-w清除的部分。 
ctrl-r : 将自动在命令历史缓存中增量搜索后面入的字符。 
tab : 命令行自动补全-自动补全当前的命令行。如果启用自动补全脚本命令参数和选项也可以自动补齐。

ctrl-l : 清屏

以上就是常用的操作命令,有一部分没有记录,如要查看,请查看原网址http://www.cnblogs.com/resn/p/5800922.html

3、安装过程

1、在整个安装过程中主要流程是创建Hadoop用户--》赋予管理员权限--》更新apt--》安装vim--》安装SSH、配置SSH无密码登录(SSH clint已默认安装,只需安装SSH server)

--》安装java环境(该处用到vim命令,该篇上面已给出,请自行查找,推荐按照第二种安装JDK方式)--》安装Hadoop2(登录网址进行下载,推荐:下载一个Google浏览器,火狐网址太慢)--》Hadoop单机配置(非分布式,注:执行案例时,Hadoop默认不会覆盖结果文件,再次执行时,需要先将结果文件进行删除)--》Hadoop伪分布式配置(修改配置文件)

4、Hadoop集群基本理解(自行参考)

Hadoop两大核心组件

1、HDFS
     主要包含两大核心节点,由一个NameNode和若干个DataNode数据节点组成分布式文件系统

    NameNode就像一个目录服务器一样,我们应用来取数据的时候首先会去访问NameNode,去获得我们要获取的数据是被分别放到哪个服务器的DataNode上,取完了然后拼接起来就完成了整个分布式文件的访问

2、MapReduce

  MapReduce也包含两大核心组件一个是JobTracker另一个是TaskTracker

JobTracker相当于一个作业管家,它会对你整个的MapReduce作业进行管理,他会把用户大的作业拆分成很多小的作业,分发到不同的机器上去执行,TaskTracker安装在了不同的机器上,每一个TaskTracker都负责监控和执行JobTracker分配给自己的小作业,JobTracker这个作业管家会协调不同机器上的TaskTracker去完成一个大的作业

还有一个组件是SecondaryNameNode,它是属于我们HDFS中NameNode的一个冷备份

 



 



 
 
 
 

原文地址:https://www.cnblogs.com/Wxinchun/p/9021351.html

时间: 2024-10-05 19:26:23

大数据学习第一章的相关文章

大数据学习第二章、HDFS相关概念

1.HDFS核心概念: 块 (1)为了分摊磁盘读写开销也就是大量数据间分摊磁盘寻址开销 (2)HDFS块比普通的文件块大很多,HDFS默认块大小为64MB,普通的只有几千kb 原因:1.支持面向大规模数据存储 2.降低分布式节点的寻址开销 好处:1.支持大规模文件存储(可以将一个大的文件进行切割,放到不同的机器上去存储,这样就可以突破单机存储上限) 2.简化系统设计 3.适合数据备份 两大核心组件: 1.名称节点(NameNode相当于数据目录) 底层FsImage和各项操作EditLog组成最

大数据学习方向,从入门到精通

推荐一个大数据学习群 119599574晚上20:10都有一节[免费的]大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,你愿意来学习吗 很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么? 所有萌生入行的想法与想要学习Java的同学的初衷是一样的.岗位非常火,就业薪资比较高,,前景非常可观.基本都是这个原因而向往大数据,但是对大数据却不甚了解. 如果你想学习,那么首先你需要学会编

大数据学习之小白如何学大数据?(详细篇)

大数据这个话题热度一直高居不下,不仅是国家政策的扶持,也是科技顺应时代的发展.想要学习大数据,我们该怎么做呢?大数据学习路线是什么?先带大家了解一下大数据的特征以及发展方向. 大数据的三个发展方向,平台搭建/优化/运维/监控.大数据开发/设计/架构.数据分析/挖掘. 先说一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化.非结构化文本.日志.视频.图片.地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处

大数据学习路径

大数据学习路径我vx ①⑤零零③④③⑥⑨③① 备注 A 更多大数据第一阶段linux+搜索+hadoop体系 Linux基础→shell编程→高并发架构→lucene,solr搜索→hadoop体系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→项目实战一 第二阶段机器学习 R语言→mahout→项目实战二 第三阶段storm流式计算 kafka→storm→redis→项目实战三 第四阶段spark内存计算 scala编程→spark core

大数据学习的流程方案

大数据成为了当下发展的一种趋势,很多人去追求大数据的学习,但是苦于无从下手,今天编者根据自己的经验系统总结一下大数据学习的方略: 第一步:感性认识,找准思路 (1)看一些大数据发展及应用,了解市场形势 (2)阅读大数据相关书籍,了解知识架构 对上面基本知识有一个了解过程之后,明确自己的思路,就可以进入下一步学习; 第二步:理论学习,扎实基础 大数据平台学习路径:   预备课程 1. 大数据平台Linux基础 2. 大数据平台Java基础 3. 大数据平台Python基础   基础课程 1.  大

大数据学习一般都学什么

大数据已经成为发展的趋势,大数据的培训学习也就应运而生,可是大数据具体学习什么内容呢,众说纷纭: 那么大数据学习到底应该掌握哪些知识呢,笔者根据自己的经验总结如下: 学习要根据自身情况来定,如果你是零基础,那就必须先从基础java开始学起(大数据支持很多开发语言,但企业用的最多的还是JAVA),接下来学习数据结构.linux系统操作.关系型数据库,夯实基础之后,再进入大数据的学习,具体可以按照如下体系: 第一阶段 CORE JAVA (加**的需重点熟练掌握,其他掌握) Java基础** 数据类

大数据学习笔记6&#183;社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭