Raft论文学习笔记

先附上论文链接  https://pdos.csail.mit.edu/6.824/papers/raft-extended.pdf

最近在自学MIT的6.824分布式课程,找到两个比较好的github:MIT课程《Distributed Systems 》学习和翻译 和 https://github.com/chaozh/MIT-6.824-2017

6.824的Lab 2 就是实现Raft算法。Raft是一种分布式一致性算法,提供了和paxos相同的功能和性能,但比paxos要容易理解很多。

一:Raft的一些概念

为了提升可理解性,Raft 将一致性算法分解成了几个部分:、

1)Leader选举:当之前的Leader宕机的时候,要选出新的Leader

2)日志复制:Leader从客户端接收日志然后复制到集群中的其它节点,并且要使其它节点的日志保持和自己相同

3)安全性:如果有任何的服务器节点已经commit一个日志条目到它的状态机中,那么其它服务器节点不能在同一个日志索引位置commit一个不同的指令。

Raft将系统中的角色分为领导者(Leader)、跟随者(Follower)和候选人(Candidate):

Leader:通常情况下系统中只有一个Leader,其它服务器节点都是Follower。Leader负责接受客户端的请求并把日志同步到Follower。Raft 中日志条目都遵循着从Leader发送给其它节点这一个方向,这也是Raft追求简单易懂的体现,像Viewstamped Replication和Zookeeper日志条目的流动都是双向的,导致机制比较复杂。

Follower:接受并持久化Leader同步的日志,在Leader告之日志可以提交之后,提交日志。

Candidate:Leader选举过程中的临时角色。

这三种角色的转换如下图:

Follower只响应来自其他服务器的请求。如果Follower接收不到消息,那么它就会变成Candidate并发起一次选举。获得集群中大多数选票的Candidate将成为Leader。Leader在宕机之前一直都会是Leader。

Raft算法将时间分为一个个的任期(term),每一个term的开始都是Leader选举。在成功选举Leader之后,Leader会在整个term内管理整个集群。如果Leader选举失败,该term就会因为没有Leader而结束,在下一个term继续选Leader。

 二:Leader选举

  Raft 使用一种心跳机制来触发领导人选举。在初始状态,服务器节点都是Follower,如果Follower在一段时间(election timeout)内没有接收到Leader的心跳,则认为Leader挂了。此时Follower会将term加1,并转换为Candidate状态。然后Follower会向集群中其它服务器节点发送RequestVote消息请求其它节点投票给自己。一个节点收到RequestVote 消息后通过比较两份日志中最后一条日志条目的索引值和term得出谁的日志比较新。如果本节点的日志比较新,则会拒绝掉该投票请求,否则赞成。当Candidate得到大多数节点的赞成后,则此Candidate会成为Leader,并不断发送心跳给其它节点,以维持其Leader地位。
  这种选举方法保证了Leader有着最新的日志,这样就能保证日志条目都遵循着从Leader发送给其它节点这一个方向,使Raft更容易理解。

  如果选票被瓜分,会导致所有Candidate都无法得到大多数节点的赞成票,会导致选举失败。在下一轮选举中,同样也会出现这种选票瓜分的情况。为了避免出现这种问题,raft将选举超时时间随机化,这样就不会出现多个Candidate同时选举超时,再同时发起选举的情况。这样在第一个选举超时的Candidate会有最大的term,发送RequestVote从而成为Leader。

三、日志复制

  Leader被选举出来后,就可以接受客户端的请求了。客户端的每个请求都包含一条被Replicated State Matchine执行的指令。Leader把客户端发过来的指令作为一条新的日志条目加到日志中区,随后发起AppendEntries RPC请求将指令发送给其它节点。当日志条目被安全地复制(大多数节点已经将该日志条目写入日志当中)后,则Leader将这个日志条目应用到它的状态机中,然后把执行结果返回给客户端。

  那么Follower 是怎么接受来自Leader 的AppendEntries 的呢?先说一下一致性检查的过程。由于Follower可能落后Leader一些日志(比如之前挂了后来恢复了),或者比Leader多一些日志(比如这个结点是上一个term的Leader,有一些日志还没Commited就挂了),而raft要求Follower要完整复制Leader的日志,因需要进行一致性检查。在发送AppendEntries  RPC时,Leader会包含最新日志的前一个条目的索引和任期号。如果Follower在日志中找不到包含相同索引号和任期号的条目,那么它将会拒接接受新的日志条目。

  Leadre针对每个Follower维护了一个nextIndex,表示下一个要发送给Follower的日志条目的索引。当一个Leader刚被选举出时,将nextIndex初始化为自己最新日志的index+1。如果AppendEntries 请求被拒绝,Leader会减小nextIndex进行重试,直到在某个位置Leader和Follower的日志一致,则AppendEntries  RPC成功,Follower上冲突的日志条目会全部删除并加上Leader的日志。这时,Follower的日志就会和Leader保持一致。

之前任期日志条目的处理

  本轮任期的Leader不能提交一个之前任期内的日志条目,否则可能会出现下述情况

  1. 在阶段a,term为2,S1是Leader,且S1写入日志(term, index)为(2, 2),并且日志被同步写入了S2;
  2. 在阶段b,S1离线,触发一次新的选主,此时S5被选为新的Leader,此时系统term为3,且写入了日志(term, index)为(3, 2);
  3. S5尚未将日志推送到Followers变离线了,进而触发了一次新的选主,而之前离线的S1经过重新上线后被选中变成Leader,此时系统term为4,此时S1会将自己的日志同步到Followers,按照上图就是将日志(2, 2)同步到了S3,而此时由于该日志已经被同步到了多数节点(S1, S2, S3),因此,此时日志(2,2)可以被commit了(即更新到状态机);
  4. 在阶段d,S1又很不幸地下线了,系统触发一次选主,而S5有可能被选为新的Leader(这是因为S5可以满足作为主的一切条件:1. term = 5 > 4,2. 最新的日志为(3,2),比大多数节点(如S2/S3/S4的日志都新),然后S5会将自己的日志更新到Followers,于是S2、S3中已经被提交的日志(2,2)被截断了,这是致命性的错误,因为一致性协议中不允许出现已经应用到状态机中的日志被截断。

为了避免这种错误,Raft要求只有Leader当前term里的日志可以被提交。当然,由于日志匹配特性,之前的日志条目也会被提交。

参考链接:https://zhuanlan.zhihu.com/p/27207160

原文地址:https://www.cnblogs.com/tonychen-tobeTopCoder/p/8471179.html

时间: 2024-08-01 06:19:02

Raft论文学习笔记的相关文章

2015.03.10,学习,论文学习笔记-“水轮机压力脉动的混频幅值置信度分析方法研究”

文献:胡江艺.水轮机压力脉动的混频幅值置信度分析方法研究.水利机械技术,2014(3).17-22 摘要:文章根据IEC试验规程要求,对常见的用于计算压力脉动混频幅值置信度方法进行了分析.结合模型试验结果对压力脉动随机变量的分布进行了讨论.分析了计算方法的实用性,提出了符合要求的计算方法. 关键词:压力脉动 混频幅值 置信度 正态分布 笔记: 国内压力脉动测量采用混频压力脉动相对幅值,即时域内压力脉动的峰峰值与净水头H的幅值,其中峰峰值采用了置信度方法计算.IEC规程定义的混频压力脉动幅值称为宽

Word2vec Parameter Learning Explained 论文学习笔记

原始论文:http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf 之前学习Word2vec时,脱离了神经网络,这周补充了下相关知识,打算之后再 看下源码,加深自己的理解.

《一种策略融合的跨语言文本情感倾向判别方法》论文学习笔记(大一下)

现象:因特网资源呈现多语言化和跨语言的特点,给普通用户获取非母语网络信息造成障碍. 目标:整合多语言倾向信息,以通用的数据形式让用户了解多语言数据对某个对象的评价. 针对跨语言情感倾向分类任务,提出两种跨语言情感倾向分析策略: 半监督框架的跨言情感倾向判别方法(双语协同文本情感倾向判别框架) 关键:跨语言一致文本 材料:源语言数据集和目标语言数据集 目标:利用源语言数据集的情感倾向标签,预测目标语言数据集中未标注样本点的情感倾向标签,即学习跨语言函数. 方法:将情感倾向一致样本点作为载体,采用半

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

第十七篇:博采众长--初探WDDM驱动学习笔记(七)

基于WDDM驱动的DirectX视频加速重定向框架设计与实现 现在的研究生的论文, 真正质量高的, 少之又少, 开题开得特别大, 动不动就要搞个大课题, 从绪论开始到真正自己所做的内容之间, 是东拼西凑地抄概念, 抄公式, 达到字数篇幅的要求, 而自己正真做了什么, 有哪些实际感受, 做出的内容, 相比前面的东拼西凑就几点内容, 之后就草草结束, 步入感谢的段落. 原因不光只有学生自己, 所谓的读研, 如果没有一个环境, 学生有再大的愿望, 再强的毅力, 到头来也只是空无奈. 有些导师要写书,

学习笔记: cdq分治

今年的课程有很大一部分内容是cdq分治及其扩展(也就是二进制分组),拜读后觉得还是蛮有用的,这里小小地总结一下.(话说自己草稿箱里还有好多学习笔记的半成品呢,真是弱爆了.顺便感谢下fy与wxl向我介绍了那么好的东西) 推荐论文: 1 <从<Cash>谈一类分治算法的应用> 陈丹琦 2 <浅谈数据结构题的几个非经典解法>  许昊然 Q: cdq分治和普通的分治有什么区别? A: 在我们平常使用的分治中,每一个子问题只解决它本身(可以说是封闭的).而在cdq分治中,对于划分

Opencv学习笔记(六)SURF学习笔记

原创文章,转载请注明出处:http://blog.csdn.net/crzy_sparrow/article/details/7392345 本人挺菜的,肯定有非常多错误纰漏之处 ,希望大家不吝指正. 看了harris角点检測之后,開始研究SURF角点检測,发现挺复杂的,一时也仅仅了解了大概,把了解的东西总结下,以便下次深入学习. SURF角点检測算法是对SIFT的一种改进,主要体如今速度上,效率更高.它和SIFT的主要差别是图像多尺度空间的构建方法不同. 在计算视觉领域,尺度空间被象征性的表述

Hadoop学习笔记(2) ——解读Hello World

Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello Word. OK,我们先来看一下当时在命令行里输入的内容: $mkdir input $cd input $echo "hello world">test1.txt $echo "hello hadoop">test2.txt $cd .. $bin/ha

【点击模型学习笔记】Ad centric model discovery for redicting ads&#39; click through rate_ANT2013_Tencent

腾讯soso的人写的一篇文章,介绍soso广告系统的ctr预估技术.2013年的,应该反映了当前soso的ctr预估系统的情况. ANT会议质量一般,elsevier出版社出版.搞笑的是,文章摘要居然把论文模板上的这句话"Click here and insert your abstract text"原封不动的写在了第一句,并且就这样发表了! 主要内容: 描述soso搜索结果页面中广告点击率预测的系统实现. 具体内容: 1. 相关工作 Rechardson用逻辑回归来预测ctr ki