基于大数据的电影网站项目开发之阶段性总结(三)

一、基础讲解

1. 主机ping不同虚拟机

  虚拟机要设置IP地址,ip段是vmware
       编辑菜单-->虚拟网络编辑器  网段,
       网关:192.168.XXX.2
       IP地址,不要是.1/.2
       把vmware装好以后,在"网络适配器"里,应该多出两个虚拟网卡

2. linux
    使用linux里的一些命令
        cd:切换目录
        tar -zxvf ....tar.gz,对tar文件进行解压
        su [用户名]  不写用户名,默认是切换到root用户
        vi 文件名称。刚进入的时候,是命令模式
            输入i,进入insert模式
            编辑完成后,按esc退出inseret模式
                :wq  保存退出
                :q   只退出
                :q!   强制退出
    用户机制:
        root用户,超级用户,对整个linux系统有完全的权限
            一般不使用这个用户,这个用户的权限太大了
        普通用户,有一定的权限
            一般可以操作自己家目录和/tmp目录
            用户家目录/home/用户名
        
        linux权限
            ll命令查看文件的时候,
                drwxr-xr-x. 2 hadoop hadoop 4096 Jun 26 23:11 Desktop
                drwxr-xr-x:10个字符,
                            第一个字符表示文件的类型,-代表是文件,d是目录,l"快捷方式"
                            后面9个字符,分为了3组,每组是3个字符
                            第一组(文件所有者的权限信息):rwx,r可读,w可写,x可执行
                            第二组(文件所有者的同一组其他用户的权限信息)
                            第三组:其他用户的权限信息
        
        linux里的文件系统
            和windows不一样,没有盘符的概念
            只有一个根目录 /
                /root  root用户的家目录

3.ssh免密登录:rsa加密方式,会生出一个公钥和私钥
            配置的时候,需要把公钥发送给受信任主机
            A主机      B主机
            A把自己的公钥发送给B,A就可以免密登录B

二、之前的配置操作可能出现的问题
格式化出错
    配置文件有问题
进程少一个
    大部分是namennode,一般来说,是hosts文件没有配置
        ping 主机名
重启后进程少了
    /tmp里和hadoop相关的文件被删除了
   
格式化操作:
    bin/hdfs namenode -format操作生成了一些格式化信息
    默认在/tmp/hadoop-用户名/dfs/name/current/VERSION
    如果需要再次格式化,需要把上面的信息删除
    
    因为格式化信息默认是在/tmp,该目录里的文件可能被linux系统删除
    
    把HDFS的存储信息,放到一个安全的地方
    
    在hdfs-site.xml文件中设置
        <property>
            <name>dfs.name.dir</name>
            <value>/home/hadoop/appData/hadoop/name</value>
        </property>
        <property>
            <name>dfs.data.dir</name>
            <value>/home/hadoop/appData/hadoop/data</value>
        </property>
    重新格式化

三、关键节点解释
NameNode在内存中存储集群的元数据
    元数据:
        文件的类型,权限
        文件块的信息
        数据节点的信息等

fsimage:集群的镜像文件,存储了集群的元数据
edits文件:保持对文件系统的修改(元数据)
fsimage和edits文件都是存储元数据,有什么区别。
    随着集群的使用,元数据会越来越多,1M--100M--1G--10G
    当元数据是1M的时候,写数据很快
    当元数据到达10G的时候,想写数据没那么容易
edits每次对集群修改的时候,先把元数据写到edtis文件中,
    等到达一定条件的时候(时间,文件大小),再把edits文件和fsimage进行合并
        
HDFS文件系统和linux文件系统比较类似
    HDFS文件系统是建立在linux文件系统之上的

SecondaryNameNode是Namenode的一个备用,但是在NN失效后,SecondaryNameNode不能及时切换为NN
    SecondaryNameNode主要作用是把fsimage和edits文件进行合并
        
NN要恢复,需要fsimage和edits文件,如果NN的磁盘坏了,NN会丢失数据
    因为只能使用SecondaryNameNode里存储的fsimage文件。

退出安全模式
    bin/hdfs dfsadmin -safemode leave

DN:执行NN的指令(读文件,删除文件,添加文件)
    每隔3秒向NN发送一个心跳。告诉NN我还活着
    每隔6小时向NN报告块信息

四、hadoop命令
[[email protected] hadoop-2.6.0]$ bin/hadoop fs
Usage: hadoop fs [generic options]
    [-appendToFile <localsrc> ... <dst>]
    [-cat [-ignoreCrc] <src> ...]
    [-checksum <src> ...]
    [-chgrp [-R] GROUP PATH...]
    [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
    [-chown [-R] [OWNER][:[GROUP]] PATH...]
    [-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>]
    [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
    [-count [-q] [-h] <path> ...]
    [-cp [-f] [-p | -p[topax]] <src> ... <dst>]
    [-createSnapshot <snapshotDir> [<snapshotName>]]
    [-deleteSnapshot <snapshotDir> <snapshotName>]
    [-df [-h] [<path> ...]]
    [-du [-s] [-h] <path> ...]
    [-expunge]
    [-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
    [-getfacl [-R] <path>]
    [-getfattr [-R] {-n name | -d} [-e en] <path>]
    [-getmerge [-nl] <src> <localdst>]
    [-help [cmd ...]]
    [-ls [-d] [-h] [-R] [<path> ...]]
    [-mkdir [-p] <path> ...]
    [-moveFromLocal <localsrc> ... <dst>]
    [-moveToLocal <src> <localdst>]
    [-mv <src> ... <dst>]
    [-put [-f] [-p] [-l] <localsrc> ... <dst>]
    [-renameSnapshot <snapshotDir> <oldName> <newName>]
    [-rm [-f] [-r|-R] [-skipTrash] <src> ...]
    [-rmdir [--ignore-fail-on-non-empty] <dir> ...]
    [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
    [-setfattr {-n name [-v value] | -x name} <path>]
    [-setrep [-R] [-w] <rep> <path> ...]
    [-stat [format] <path> ...]
    [-tail [-f] <file>]
    [-test -[defsz] <path>]
    [-text [-ignoreCrc] <src> ...]
    [-touchz <path> ...]
    [-usage [cmd ...]]

在这里的local指的是linux的文件系统
    没有加local则是HDFS
    
上传文件
    bin/hadoop fs -copyFromLocal/-put  localsrc  dst
查看文件
    bin/hadoop fs -ls path
    -rw-r--r--   1 hadoop supergroup        101 2017-06-27 23:26 /NOTICE.txt
    查看的命令和显示的结果都和linux相似,这样可以降低学习hadoop的成本
查看文件内容
    bin/hadoop fs -cat path
    
    chmod u+[rwx] 文件
    chmod 777 文件
        777 rwxrwxrwx
        744 rwxr--r--
下载文件
    bin/hadoop fs -copyToLocal/-get src  localdst

创建目录
    bin/hadoop fs -mkdir /aa   --创建一级目录
    bin/hadoop fs -mkdir -p /aa  --一次创建多级目录,增加参数-p
    
删除目录
    bin/hadoop fs -rmdir /aa  --只能删除空目录
删除文件
    bin/hadoop fs -rm /NOTICE.txt

bin/hadoop fs -rm -r /NOTICE.txt   -r进行递归删除
    
单独启动NN进程
    nohup bin/hdfs namenode &

Hadoop web接口。http://192.168.85.99:50070/
    关闭防火墙
    root用于:service iptables stop

时间: 2024-10-15 08:42:15

基于大数据的电影网站项目开发之阶段性总结(三)的相关文章

基于大数据的电影网站项目开发之HBase分布式安装(四)

1.hbase解压,通过xftp将hbase-1.0.1.1-bin.tar.gz上传到虚拟机中 通过tar -zxvf hbase-1.0.1.1-bin.tar.gz解压到soft目录下 2. 设置环境变量 HBASE_HOME=/home/meng/soft/hbase-1.0.1.1 export PATH=$PATH:$HBASE_HOME/bin 3.hbase-env.sh中有如下属性: export JAVA_HOME=/usr/java/jdk1.6 将其开启并修改环境变量ex

大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型

一.项目开发流程1.1.项目调研1.2.项目需求分析1.3.方案设计1.3.1.概要设计1.3.2.详细设计1.4.编码实现1.4.1.单元测试1.4.2.集成测试1.4.3.压力测试1.4.4.用户测试二.大数据常用应用2.1.数据出售2.2.数据分析2.2.1.百度统计2.2.2.友盟2.2.3.其他统计分析组织2.3.搜索引擎2.3.1.solr2.3.2.luence2.3.3.luence & solr 对比2.4.推荐系统(高数)2.4.1.技术2.4.2.算法2.5.精准营销2.5

基于大数据技术之电视收视率企业项目实战(hadoop+Spark)张长志(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

基于大数据技术推荐系统算法案例实战视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

Hadoop Spark大数据全套课程+共享单车开发项目实战

hadoop spark大数据实时计算全套课程+共享单车开发项目实战 [下载地址:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q ] 有着三四年工作经验的你,面对如此诱惑的薪资和热度爆棚的岗位是否想尝试一下突破紧急,走上职业生涯巅峰? 本期推出java,hadoop,spark大数据从基础到项目实战的全过程培训教材课程目录: 原文地址:http://blog.51cto.com/aino007/2148831

基于微博数据应用的HBase实战开发_HBase视频教程

基于微博数据应用的HBase实战开发 课程观看地址:http://www.xuetuwuyou.com/course/150 课程出自学途无忧网:http://www.xuetuwuyou.com 一.课程用到的软件 1.centos6.7 2.apache-tomcat-7.0.47 3.solr-5.5 4.zookeeper 3.4.6 5.eclipse-jee-neon-R-win32-x86_64  6.jdk1.7_49 7.HBase1.2.2 8.Ganglia3.7.2 9.

新的学习路径、学习想法和思路的头脑风暴:基于泰迪云课程,对数据分析和数据建模,机器学习算法进行统筹,接着是基于大数据的数据挖掘、进度、

新的学习路径.学习想法和思路的头脑风暴:基于泰迪云课程,对数据分析和数据建模,机器学习算法进行统筹,接着是基于大数据的数据挖掘.进度. 泰迪云代码已经下载,对相关内容进行应用和学习 想通视频之后对代码进行研究 专家经验.优秀经验工程师经验转化. 从论文中第三四大章,读取 设计和解决问题流程 找论文.使用benchmark 上有收录论文.找到论文.不建议自己先去想. 以后一定 偏分析,偏挖掘.偏决策的.不是执行者,执行者是最low的,最强的解决方案,都按论文来找. 高端会议.每年会出来十多篇研究成

下载基于大数据技术推荐系统实战教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

地址:http://pan.baidu.com/s/1c2tOtwc  密码:yn2r 82课高清完整版,转一播放码. 互联网行业是大数据应用最前沿的阵地,目前主流的大数据技术,包括 hadoop,spark等,全部来自于一线互联网公司.从应用角度讲,大数据在互联网领域主要有三类应用:搜索引擎(比如百度,谷歌等),广告系统(比如百度凤巢,阿里妈妈等)和推荐系统(比如阿里巴巴天猫推荐,优酷视频推荐等). 本次培训以商业实战项目作为驱动来学习大数据技术在推荐系统项目中的应用.使得学员能够亲身体会大数

大数据从基础到项目实战(一站式全链路最佳学习路径)

大数据从基础到项目实战(一站式全链路最佳学习路径)课程链接:https://pan.baidu.com/s/1HC9zqxwUFNBJHT9zP1dlvg 密码:xdgd 本课程为就业课程,以完整的实战项目为主线,项目各个环节既深入讲解理论知识,又结合项目业务进行实操,从而达到一站式学习,让你快速达到就业水平. 全真企业项目全流程演示: 大数据生产->采集->存储->处理->计算->分析(离线+实时)->抽取(离线+实时)->Java接口->可视化Web展示