分布式系统基础架构——Hadoop

1.Hadoop

  a.概念:Hadoop是一个由Apache基金会所开发的分布式系统基础架构

  b.组成:Hadoop = HDFS (文件系统) + Mapreduce (数据处理)

2.安装

  a.配置Java运行环境

  b.从官网下载 Hadoop 并解压,地址:http://hadoop.apache.org/releases.html

  c.下载 winutils 对 windows 进行支持,地址:https://github.com/steveloughran/winutils(支持老版本)

                      https://github.com/zyj108/apache-hadoop-3.1.0-winutils(支持Hadoop3.1.2)

  d.解压 winutils 覆盖到 Hadoop 根目录(主要是覆盖bin目录)

  e.在 Hadoop 的 etc\hadoop 下,修改如下配置文件

    ①修改core-site.xml,配置默认hdfs的访问端口

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9527</value>
    </property>
</configuration>

    ②修改hdfs-site.xml,配置复制集(1为不复制)以及namenode文件路径和datanode数据路径

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/hadoop/data/dfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/hadoop/data/dfs/datanode</value>
    </property>
</configuration>

    ③修改mapred-site.xml,配置mr使用的框架为yarn

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

    ④修改yarn-site.xml,配置yarn使用mr混洗

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

    ⑤修改hadoop-env.cmd,设置Java访问路径

set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_201

    注意:由于路径中不能包含空格,所以 Program Files 需要用 PROGRA~1 代替

  f.在 hadoop 的 bin 目录下,执行CMD命令格式化hdfs:hdfs namenode -format

  g.在 hadoop 的 sbin 目录下,执行CMD命令启动服务:start-all.cmd

  h.访问 http://localhost:8088/ 及 http://localhost:9870/ 集群状态及Hadoop状态

3.问题及解决:

  a.问题:在执行 start-all.cmd 时,其中有窗口报出java.lang.ClassNotFoundException: org.apache.hadoop.yarn.server.timelineservice.collect 的异常

   解决:将 hadoop 的 share\hadoop\yarn\timelineservice 目录下的 hadoop-yarn-server-timelineservice-3.1.2.jar,复制到上一级目录 share\hadoop\yarn 中即可

4.参考文章:https://www.cnblogs.com/chevin/p/9090683.html

      https://blog.csdn.net/qq_33398459/article/details/86687379

原文地址:https://www.cnblogs.com/vettel0329/p/11136800.html

时间: 2024-10-02 20:30:35

分布式系统基础架构——Hadoop的相关文章

分布式系统基础架构

Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDF

大数据基础和hadoop

一.大数据的特点 大数据是什么?其实很简单,大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地随时产生的数据,在大数据时代,任何微小的数据都可能产生不可思议的价值.大数据有4个特点,为别为:Volume(大量).Variety(多样).Velocity(高速).Value(价值),一般我们称之为4V. 所谓4V,具体指如下4点: 1.大量.大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,

大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言. 我们可以带着下面问题来阅读本文章: 1.hadoop都包含什么技术 2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性 3. Spark与hadoop的关联是什么? 4. Storm与hadoop的关联是什么

漫谈spring cloud 与 spring boot 基础架构

详情请交流  QQ  709639943 01.漫谈spring cloud 与 spring boot 基础架构 02.漫谈spring cloud分布式服务架构 03.Node.js入门到企业Web开发中的应用 04.精通高级RxJava 2响应式编程思想 05.Java秒杀系统方案优化 高性能高并发实战 06.Java深入微服务原理改造房产销售平台 07.快速上手Linux 玩转典型应用 08.快速上手Ionic3 多平台开发企业级问答社区 09.Java Spring Security开

大数据技术原理与应用——大数据处理架构Hadoop

Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中. Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce. Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力. Hadoop的特性 Hadoop是一个能够对大量数据进

b2c项目基础架构分析(一)

我最近一直在找适合将来用于公司大型bs,b2b b2c的基础架构. 实际情况是要建立一个bs架构b2b.b2c的网站,当然还包括wap站点.手机app站点. 一.现有公司技术人员现状: 1.熟悉asp.net页面级开发.页面级处理的后端人员. 基本特点:掌握小型单站.单页的相关开发技术. 技术熟练度为:asp.net原理基础.asp.net webform控件中等.jquery基础.js初步到基础.sql基础到中等. 面对大型站点可能存在的弊端: a.不熟悉大型环境的架构: b.对站点.页面在大

读《百度基础架构技术发展之路》有感

这篇文章主要介绍SDF的研发过程,包括问题的提出,解决方案,以及部署在实际系统过程中遇到的问题.SDF的论文发表在ASPLOS 2014会议上.首先问题来自于实际工业环境:随着数据中心将成为承载互联网用户存储和计算的主要战场,如何设计和改进体系结构以满足大规模系统对性能,成本,功耗以及可扩展性的要求成为新的挑战.可以看到的是百度的ARM云服务器方案解决了存储的成本和功耗问题,而SDF架构则幅度提升了性能的性能(当然也会降低成本和功耗). SDF的提出是为了应对固态盘的诸多缺陷:其中包括带宽利用率

分布式系统的架构思路

一.前言 在计算机领域,当单机性能达到瓶颈时,有两种方式可以解决性能问题,一是堆硬件,进一步提升配置,二是分布式,水平扩展.当然,两者都是一样的烧钱.今天聊聊我所理解的分布式系统的架构思路. 二.分布式系统的两种方式 平时接触到的分布式系统有很多种,比如分布式文件系统,分布式数据库,分布式WebService,分布式计算等等,面向的情景不同,但分布式的思路是否是一样的呢? 1.简单的例子 假设我们有一台服务器,它可以承担1百万/秒的请求,这个请求可以的是通过http访问网页,通过tcp下载文件,

零基础学习hadoop到上手工作线路指导(中级篇)

此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解: hadoop分为hadoop1.X.hadoop2.X,并且还有hadoop生态系统.这里只能慢慢介绍了.一口也吃不成胖子. hadoop 1.x分为 mapreduce与hdfs其中mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸不着头脑. 我们不知