大数据学习实践总结(2)--环境搭建,JAVA引导,HADOOP搭建

PS:后续的文章会把我实践的内容分解成为一个个的小模块,方便大家的学习,交流。文未我也会附上相关的代码。一起加油!    学有三年的大数据原理,一直没有实践过。最近准备离职,正好把自己所学的大数据内容全部实践一下,也不至于只会纯理论。面对实践,首先要有空杯心态,倒空自己之后,才能学到更多,加油!也希望大家多关注,以后会更多注重实践跟原理的结合。

环境搭建

对于大数据,重点在于Hadoop的底层架构。虽说现在spark架构用的还是比较多。但hadoop还是基础。还有就是为什么要以Linux为基础,主要是因为现行网站大部分服务端都是在linux系统中。这一点,个人感觉还是在文件读取及数据调用这方面有很多优点。而linux的开源,又方便了大多数编程人员对于系统的理解。而装有linux又对Python编程有很大帮助。至于坊间流传的:人生苦短,你要用Python.个人的理解的,用Python编程起来会非常简单。而且只要是装有Linux系统就可以。

对于环境搭建这一部分,操作过程中。最大的困难就是在于NAT的设置,对于这一步,没有按照视频内容一步步来操作。在为我是用无线来操作的,而大部分个人PC在无线链接后获取到的IP都是192.168网段,当虚拟机要跟主机以NAT方式来进行通信时,就要设置在不同网段内,而我个人是将虚拟机的改为172.20的这一网段。不至于影响到后续操作。

JAVA引导

对于这一部分,由于前期在R原理课时,学过这一块的相关设置环境变量。再在虚机的linux上进行相关设置就能够深入明白其原理。并将原来引导都指向相关路径。

这一部分主要的难点就是vim编辑器的理解,相关命令的解释。当时最大的困惑就是在打开一个文件后,如何编辑,如何保存退出。后来通过查找百度,看一些技术贴子之后才逐步明白vim编辑器的用法。还有就是对于原理的理解,还有就是英语要好,遇到报错之后,要知道从哪里找解决的办法,并实践执行。在一个地方卡住,一定要在一天内解决,要不然对人的学习积极性打击很大。

Hadoop搭建

这一部分,vim命令是最多的。也即在hadoop-1.2.1下如何设置相关的参数,最后datanode,jobtrack,tasktrack,namenode这些关键进程是否起来。而这一部分,是自己在格式化namenode后,多次进行开启服务才起来的。这一块可能涉及到三台虚机的互联以及相互传递参数。所以这一块是最慢的。  还有一个难点,就是你的虚机上若是没有公钥文件(我的就没有)。这就需要用touch 来建立,而在检测用户权限的时候,又要用到chmod命令。总之,这一部分内容是综上有点难度的,需要你能综合写vim命令,同时对hadoop的相关进程有所了解。

总结

现在就差Python的命令了,就觉得,理论跟实践真的很不一样,不断的学习过程中,不光要克服代码上的天生缺陷,也要对内核原理有更深入的理解。好在已经养成的好习惯,会把工作中的操作都一一记录下来。便于后续学习跟理解。也欢迎大家一起来讨论。

时间: 2024-12-11 15:54:49

大数据学习实践总结(2)--环境搭建,JAVA引导,HADOOP搭建的相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以

大数据学习系列之六 ----- Hadoop+Spark环境搭建

引言 在上一篇中 大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合HBase,并且测试成功了.在之前的大数据学习系列之一 ----- Hadoop环境搭建(单机) : http://www.panchengming.com/2017/11/26/pancm55/ 中成功的搭建了Hadoop的环境,本文主要讲的是Hadoop+Spark 的环境.虽然搭建的是单机版,

大数据学习贴(1)-环境搭建

最近开始准备系统的把自己所学过的大数据理论知识给落地实践,报了一个培训班.为了督促自己的实践学习,会将自己学习实践过程中的一些内容做一个总结.一方面梳理自己的理论知识,一方面加强理论与实践之间的有效链接. 虚拟机 这个可谓是大数据迈向实践的第一步,首先要在自己的PC上装虚拟机.我用的是VMware 12,虚拟机是装上了,这一步还是比较容易.但是在设置相关虚拟机IP及网关上卡住了.这一块估计今天还得再深入研究一下才能得到较好的答案. 虚拟机的安装,加载,设置是大数据的基础,而这一部分对于自己来说却

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习方向,从入门到精通

推荐一个大数据学习群 119599574晚上20:10都有一节[免费的]大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,你愿意来学习吗 很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么? 所有萌生入行的想法与想要学习Java的同学的初衷是一样的.岗位非常火,就业薪资比较高,,前景非常可观.基本都是这个原因而向往大数据,但是对大数据却不甚了解. 如果你想学习,那么首先你需要学会编

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习路径

大数据学习路径我vx ①⑤零零③④③⑥⑨③① 备注 A 更多大数据第一阶段linux+搜索+hadoop体系 Linux基础→shell编程→高并发架构→lucene,solr搜索→hadoop体系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→项目实战一 第二阶段机器学习 R语言→mahout→项目实战二 第三阶段storm流式计算 kafka→storm→redis→项目实战三 第四阶段spark内存计算 scala编程→spark core

大数据学习路线整理

一.大数据技术基础 1.linux操作基础 linux系统简介与安装    linux常用命令–文件操作    linux常用命令–用户管理与权限    linux常用命令–系统管理    linux常用命令–免密登陆配置与网络管理    linux上常用软件安装    linux本地yum源配置及yum软件安装    linux防火墙配置    linux高级文本处理命令cut.sed.awk    linux定时任务crontab 2.shell编程 shell编程–基本语法    shel

2019大数据学习方向【最新分享】

一.大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等.因为企业中的项目基本上都是使用Linux环境下搭建或部署的. 1)Linux系统概述2)系统安装及相关配置?3)Linux网络基础?4)OpenSSH实现网络安全连接?5)vi文本编辑器 6)用户和用户组管理7)磁盘管理?8)Linux文件和目录管理?9)Linux终端常用命令?10)linux系统监测与维护 二.大数据开发核心技术 -