数学之路-分布式计算-hadoop、python与R(3)

二、ubuntu 12.04hadoop2.6配置与安装

1、java7配置

#su

#addusermyhaspl

下面增加su权限

使得myhaspl用户属于sudo组

#vi/etc/group

sudo:x:27:,myhaspl

然后重新启动

#reboot

转到myhaspl用户，开始下载解压java。

本博客所有内容是原创，如果转载请注明来源

http://blog.csdn.net/myhaspl/

#sumyhaspl

$wgethttp://download.oracle.com/otn-pub/java/jdk/7u71-b14/jdk-7u71-linux-x64.tar.gz

[email protected]:~$tar -xzvf jdk-7u71-linux-x64.tar.gz

[email protected]:~$sudo mv jdk1.7.0_71 /usr/lib/java

[email protected]:/home/myhaspl#vi /etc/profile

exportJAVA_HOME=/usr/lib/java

exportJRE_HOME=${JAVA_HOME}/jre

exportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

exportPATH=${JAVA_HOME}/bin:$PATH

#reboot

[email protected]:~$sudo update-alternatives --install /usr/bin/java java /usr/lib/java/bin/java300

update-alternatives:using /usr/lib/java/bin/java to provide /usr/bin/java (java) in auto mode

[email protected]:~$sudo update-alternatives --install /usr/bin/javac javac /usr/lib/java/bin/javac300

update-alternatives:using /usr/lib/java/bin/javac to provide /usr/bin/javac (javac) in auto mode

[email protected]:~$ java -version

javaversion "1.7.0_71"

Java(TM)SE Runtime Environment (build 1.7.0_71-b14)

JavaHotSpot(TM) 64-Bit Server VM (build 24.71-b01, mixed mode)

[email protected]:~$

[email protected]:~$vi HelloWorldjava

publicclass HelloWorld{

publicstatic void main (String[] args){

System.out.println("HelloWorld");

}

[email protected]:~$javac HelloWorld.java

[email protected]:~$java HelloWorld

HelloWorld

[email protected]:~$sudo apt-get install ssh

[email protected]:~$sudo apt-get install rsync

2、hadoop2.6

下载解压hadoop

[email protected]:~$wget http://mirrors.cnnic.cn/apache/hadoop/common/stable/hadoop-2.6.0.tar.gz

[email protected]:~$tar -xzvf hadoop-2.6.0.tar.gz

将hadoop移动到系统文件夹，并授予相关权限。

[email protected]:~$sudo mv hadoop-2.6.0 /usr/local/

[email protected]:~$cd /usr/local/

[email protected]:~$sudo chown -R root:root hadoop-2.6.0/

[email protected]:/home/myhaspl#vi /etc/profile

exportHADOOP_PREFIX=/usr/local/hadoop-2.6.0

[email protected]:/usr/local/hadoop-2.6.0$ export HADOOP_PREFIX=/usr/local/hadoop

[email protected]:/usr/local/hadoop-2.6.0$cd ~

显示hadoop文档

[email protected]:~$cd/usr/local/hadoop-2.6.0

[email protected]:~$bin/hadoop

Usage:hadoop [--config confdir] COMMAND

where COMMAND is one of:

fs run a generic filesystemuser client

version print the version

jar <jar> run a jar file

checknative [-a|-h] check native hadoop and compression librariesavailability

distcp <srcurl> <desturl> copyfile or directories recursively

archive -archiveName NAME -p <parentpath> <src>* <dest> create a hadoop archive

classpath prints the class path needed to get the

credential interact with credential providers

Hadoop jar and therequired libraries

daemonlog get/set the log level for eachdaemon

trace view and modify Hadoop tracingsettings

CLASSNAME run the class named CLASSNAME

Mostcommands print help when invoked w/o parameters.

伪分布式

hdfs的地址及端口号

[email protected]:~$sudo vi /usr/local/hadoop-2.6.0/etc/hadoop/core-site.xml <configuration>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

hdfs备份数量,改为1

etc/hadoop/hdfs-site.xml:

<name>dfs.replication</name>

</property>

</configuration>

时间： 2024-08-30 13:10:49

数学之路-分布式计算-hadoop、python与R(3)的相关文章

pwd显示当前文件夹,ls查看文件夹下的文件,cd 进入文件夹 -bash-4.2$ pwd /home/myhaspl-bash-4.2$ lsabc hadoop-2.4.1 mydoclist mypylst mypylsts numpyabd hadoop-2.4.1-src.tar.gz myl2 mypylst1 myrun pypy-2.3.1-srcerror.log hadoop-2.4.1.

数学之路-分布式计算-disco(1)

Disco是一个轻量级的.开源的基于mapreduce模型计算的框架,Disco强大且易于使用,这都要归功于python,Disco分发且复制数据,可高效安排作业.Disco甚至拥有能对数以亿计的数据点进行索引以及实时查询的工具.Disco于2008年在Nokia研究中心诞生,解决了在大量数据处理方面的挑战. Disco支持大数据集的并行计算,在不可靠的计算机集群中,Disco是一个完美的分析和处理大数据的工具,无需考虑因为分布式带来的技术困难,比如通信协议.负载均衡.锁.作业规划.故障容忍.

数学之路-分布式计算-disco(4)

第一个参数iter是一个迭代器,涉及被map函数产生的键和值,它们是reduce实例. 在本例中,单词随机被委托给不同的reduce实例,然后,要单词相同,处理它的reduce也相同,可确保最终合计是正确的. 第二个参数params与map函数中一致,在此,仅简单使用disco.util.kvgroup()来提取每个单词统计计数,累计计数,yield(产生)结果. 运行作业下面开始运行作业,可使用大量参数定制作业,但通常来说,对于简单的任务来说 ,仅使用其中3个即可.除了启动作业之外,我们还需

数学之路-分布式计算-linux/unix技术基础(1)

以centos为例 1.当前用户 $表示普通用户状态,#表示超级用户状态 -bash-4.2$ -bash-4.2$ su密码:[[email protected] myhaspl]# 2.命令基础命令名 [命令选项] [命令参数] 系统信息命令说明# arch 显示机器的处理器架构(1) [man]# cal 2007 显示2007年的日历表 [man]# cat /proc/cpuinfo 显示CPU info的信息 [man]# cat /proc/interrupts 显

数学之路-分布式计算-disco(2)

Disco旨在较大的应用程序轻松集成,比如web服务,那样要求计算的任务可以委托给独立于核心应用程序的集群去执行.Disco提供了一个非常紧凑的Python API--通常只需要两个函数,以及一个rest样式的Web API的工作控制和简单易用的状态监控Web界面.此外,Disco还拥有了一个简单的工作协议,允许作业以任何语言编写,实现协议. Disco对LINUX商业服务器集群非常友好,新节点可以通过单击Web界面动态地添加到系统.如果服务器崩溃,能够自动将失败的任务重新分配,这样就没有任何中

数学之路-分布式计算-hdfs(2)

1.DataNode为每个数据复制数据副本,保存在其它DataNode中.2.NameNode文件系统的元数据全保存在RAM中,DataNode初始化以及每隔1小时,向NameNode发送块报告,以便NameNode掌握各个DataNode的运行状态,并进行DataNode的映射.3.预写日志.通过在edits中顺序增加的方式减少I/O操作.4.fsimage:NameNode启动后,加载fsimage到RAM,引入edits变化.5.Hadoop的新版本已经实现周期性更换edits文件,提供事

数学之路-分布式计算-linux/unix技术基础(2)

让进程在后台运行,执行命令后立即返回,可以继续执行其它命令,在命令行最后加上"&" bash-4.2$ find ~ -name doc &[1] 5453bash-4.2$ /home/myhaspl/hadoop-2.4.1/share/doc/home/myhaspl/pypy-2.3.1-src/site-packages/numpy/doc/home/myhaspl/pypy-2.3.1-src/ctypes_configure/doc/home/myhasp

数学之路-分布式计算-hdfs(1)

一.hdfs写数据 1.客户端通过Hadoop文件系统相关API 发送请求.打开一个要写入的文件,如果该用户拥有足够的权限,这一请求会被发送到NameNode,在NameNode上建立该文件的元数据. 2.刚建立的新文件元数据并未将该文件和任何数据块关联,客户端仅收到打开文件成功的响应. 3.客户端在API层面上将数据写入流中,数据被自动拆分成数据包,数据包保存在内存队列中. 4.客户端有一个独立的线程,它从队列中读取数据包,并同时向NameNode请求一组DataNode列表,以便写入下一个数

数学之路-分布式计算-numpy在centos下的安装

numpy安装 1.下载numpy,网址为:http://www.scipy.org/scipylib/download.html. 2.系统更新. [[email protected]~]$ su 密码: [[email protected]]# yum install update 3.安装相关工具. [[email protected]]# yum install wget [[email protected]]# yum install unzip [[email protected]]