关于分布式系统的简单说明

最近略忙,一直没机会把Spark系统情况跟二位交代一下。。。

简单说说,如果有时间的话再作补充。

当前共三个节点:tianchi-node1(202.113.76.229),tianchi-node2(某公网ip)和tianchi-node3(202.113.76.35)。

登录主机的用户帐号(三台相同):tianchi

密码:alibaba

系统所用软件及版本:Hadoop 2.6.0, Spark 1.3.0

软件位置(三台主机相同):/home/tianchi/project-base/tianchi/software/hadoop-2.6.0, /home/tianchi/project-base/tianchi/software/spark-1.3.0-bin-hadoop2.4

如果想启/停分布式系统或进行其他操作的话可以参考相关文档。

Hadoop: (可以跳过对配置选项的讲解,直接看底部的操作命令。咱目前只需使用hadoop提供的文件系统HDFS,不用启动Yarn、Mapreduce什么的)

http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

Spark:  (Spark集群有多种架构方式,我们采用的是standalone模式。以下四篇官方文档涵盖了对standalone模式的讲解、如何提交并执行spark程序、常用的spark编程接口和机器学习库的使用,看完这些就应该可以上手操作了)

http://spark.apache.org/docs/latest/spark-standalone.html

http://spark.apache.org/docs/latest/submitting-applications.html

http://spark.apache.org/docs/latest/programming-guide.html

http://spark.apache.org/docs/latest/mllib-guide.html

在HDFS系统和Spark系统中我都是将tianchi-node1即202.113.76.229当作master节点,所以HDFS文件系统的路径前缀总是“hdfs://tianchi-node1:9000”,Spark master参数总是"spark://tianchi-node1:7077"。

HDFS使用方法请自行百度,提交并运行作业的具体方法请参考上面给出的spark官方文档,如果还有问题的话可以找我。

查看HDFS系统状态:http://202.113.76.229:50070/dfshealth.html#tab-overview

Spark系统状态:http://202.113.76.229:8080/

ok,就这么多,有时间再补充。

by yx

时间: 2025-01-02 09:08:25

关于分布式系统的简单说明的相关文章

Paxos Made Simple(译)

The Paxos algorithm, when presented in plain English, is very simple. 我叫Leslie Lamport,我最屌. 1. 简介 用于实现高容错性分布式系统的Paxos算法,一直以来总是被认为是难以理解的,或许是因为对很多人来说,初始版本就像是"希腊语"一样(最初的论文是以希腊故事展开的形式)[5].实际上,它也算是最浅显易见的分布式算法之一了.它的核心就是一个一致性算法--论文[5]中的"synod"

Paxos Made Simple

Paxos一致性算法——分布式系统中的经典算法,论文本身也有一段有趣的故事.一致性问题是分布式系统的根本问题之一,在论文中,作者一步步的加强最初一致性问题(2.1节提出的问题)的约束条件,最终导出了一个可实现的一致性模型.当前Paxos算法的研究越来越多,相关实现也不少,而原论文依然是最不可少的资料.论文通篇没有一个数学公式,这是大牛的坚持![]中的是我个人的注释.先解释文中几个关键词的翻译:Proposal译为“议案”,由proposer提出,被aceeptor批准或否决Value译为“决议”

月薪80k阿里架构师漫谈他是如何从一名小码农走到今天这一步。

01 刚当程序员时,我是属于那种勤勤恳恳类型的员工,工作态度用认真来形容不为过,每天我几乎是团队里最早到公司,又最晚下班的一个.而组员张工一般情况下都是准时上下班的,即使项目进度比较紧急,他也很少加班,除非是有特殊情况,他才加班. 要是按勤奋程度和工作时间长短来衡量,我想我比张工积极多了.按理说,我这么积极,工作量应该比张工多才对,其实不然,领导安排给我的工作任务和张工的任务相比,我比他还要少. 张工之前是做java服务端的,后来自学了Android移动开发,再后来又自学了iOS移动开发,那时他

VKS维客国际系统开发

数字货币社区.开始时间2009年,参与人群主要是一些程序员极客.投机圈.金融圈.数字货币社区的梦想非常简单,就是人人都使用比特币或者数字货币进行消费.它的技术实现是无准入制度的分布式系统,简单来说就是去中心化的系统.你要使用比特币,或者想参与比特币网络的维护,只需要运行矿机就可以.它的发展形式就是自洽的经济激励制度,就是你参与到比特币的系统维护,它的系统会给你一定的奖励,但是目前比特币的奖励普通人是没有兴趣参与进去的. 移动互联网也颠覆了价值创造的规律.我们必须回归到商业的本质,找到用户的痛点.

1.分布式架构的来源演进

架构的本质 一个软件系统随着功能越来越多,调用量急剧增长,整个系统逐渐碎片化,越来越无序,最终无法维护和扩展,所以系统在一段时间的野蛮生长后,也需要及时干预,避免越来越无序.架构的本质就是对系统进行有序化重构,使系统不断进化那架构是如何实现无序到有序的呢? 基本的手段就是分和合,先把系统打散,然后重新组合. 分的过程是把系统拆分为各个子系统 / 模块 / 组件,拆的时候,首先要解决每个组件的定位问题,然后才能划分彼此的边界,实现合理的拆分.合就是根据最终要求,把各个分离的组件有机整合在一起,相对

【10分钟学Spring】:(一)初识Spring框架

简介 Spring是一个轻量级的企业级的Java开发框架.主要是用来替代原来更加重量级的企业级Java技术,比如EJB(Enterprise JavaBean).Java数据对象(Java Data Object)等.Spring的出现极大简化了Java开发. 另外Spring框架是一个一体化的框架,它不仅能无缝对接比如Struts.Hibernate等传统框架,也能很好地同其他各种企业级开发组件(比如Redis.MQ.Mybatis等)集成. Spring发展到现在,已经不仅仅是一个开发框架了

搭建简单的分布式系统

说明:传统项目中我们的Controller.Service.DAO.POJO都写在一个工程中,在分布式的项目中我们将每个模块分开. 项目分前台和后台两个部分: 前台是普通用户看到的网站,比如你看到的淘宝页面就是前台. 后台是公司内部的管理人员使用的,用于管理商品信息,比如淘宝的店主需要编辑商品. 父工程:分布式架构中,通常设计一个父工程,父工程中不写业务代码,只在pom文件中配置jar包的版本信息.所有的工程都继承它,从父工程中获取jar包版本信息.这样在jar包升级的时候,我们只要修改父工程的

一个简单的算法,分布式系统的性能瞬间被提升10倍以上!

一.概要 这篇文章,给大家聊聊分布式文件系统HDFS在大量客户端并发写数据时,如何进行性能优化? 二.背景引入 先引入一个小的背景,假如多个客户端同时要并发的写Hadoop HDFS上的一个文件,这个事儿能成吗? 明显不可以接受啊,因为HDFS上的文件是不允许并发写的,比如并发的追加一些数据什么. 所以HDFS里有一个机制,叫做文件契约机制. 也就是说,同一时间只能有一个客户端获取NameNode上面一个文件的契约,然后才可以写入数据. 此时如果其他客户端尝试获取文件契约的时候,就获取不到,只能

简单分布式系统构建知识

不同操纵系统之间的特点:网络端口管理与分发:哪些网络协议可以帮助我们更好的完成工作,监控虚拟机的时候是在虚机上加代理好还是用协议去控制:硬件是否支持分布式,在扩展过程中对于.net C#的兼容怎么样:什么时候使用多线程,在把线程交给程序调度的时候我们怎么控制和捕捉线程的异常:日志系统对于整个分散的系统是多么的重要:何时使用关系数据库,什么时候使用Nosql:消息队列用擅长的MSMQ还是RabbitMQ.怎样有效的和其他部门的同事沟通:用什么样的方式去有效调度不同语言开发的系统:测试用例对于大系统