出于安全稳定考虑很多业务都需要服务器服务器Hadoop+Hive搭建,但经常有人问我,怎么去选择自己的配置最好,今天天气不错,我们一起来聊一下这个话题。
Hadoop+Hive环境搭建
1虚拟机和系统安装+JDK环境
JDK安装采用二进制包压缩方式(解压之后就是直接可用了,但需要修改环境变量,使其任何路径下都可行)
修改/etc/profile,~/.bashrc 配置文件,修改环境变量。
2 Hadoop安装
Hadoop安装采用二进制文件压缩方式
三种方式
1 单机:修改 环境变量使得Hadoop命令在任何路径下可运行
2 伪分布:修改配置文件 core-site.xml Hdfs-site.xml hadoop-env.sh
格式化namenode,运行jps查看是否6个进程都已启动。
集群
三种方式分别需要修改配置文件。
3 Hive安装
Hive安装采用二进制文件压缩方式
三种方式
1 内嵌修改 环境变量使得Hive命令在任何路径下可运行
2mysql
安装mysql,修改配置文件hive-site.xml 使其连接mysql,同时将mysqljdbc放到hive、lib中
3远程
修改配置文件hive-site.xml 加上
datanucleus.autoCreateSchema
true
Hive依赖于Hadoop,而Hadoop依赖于JDK,安装Hive后,Hive的启动交给Hadoop,需要配置hadoop配置文件,同时把hive/lib下的hive* jar拷贝到hadoop/lib下。在启动Hadoop时同时启动Hive,jsp查看是否存在进程runjar。
4mysql安装
采用二进制文件压缩方式,mysql安装之后需要配置密码登入方式,同时配置允许远程用户登入,为hive新建一个登入用户和数据库hive,授权。
后话总结:
要为自己的服务器选择一个合适的配置,要考虑IDC公司、线路、带宽、防御、机器硬件配置,机型+CPU+内存+硬盘等等,因为不同业务所考虑的核心点不大一样,所以我们需要抓住最核心的开始考虑,如开游戏、视频多人聊天、下载客户先考虑机房带宽防御,企业客户先考虑企业资质服务正规情况在考虑带宽充足情况等,根据自身不同的情况个性化选择针对性的配置才能达到最合适。