分布式文件系统FastDFS原理介绍

在生产中我们一般希望文件系统能帮我们解决以下问题，如：1.超大数据存储；2.数据高可用（冗余备份）；3.读/写高性能；4.海量数据计算。最好还得支持多平台多语言，支持高并发。

由于单台服务器无法满足以上要求，这就迫使开发者不得不考虑使用其他方式解决此类问题。分布式文件系统就在这样迫切的需求下孕育而生。

今天为什么把标题定为“分布式文件系统”呢？是因为我想通过此次分享（FastDFS原理介绍），和大家去做更多关于分布式文件系统的研究和分享。我想这项研究应该会是一个“系列”性的专题。在本文之后还计划分享“FastDFS源码分析”，“FastDFS扩容及资源优化”。

——————————————————---------——————————————————————-

什么是FastDFS？

FastDFS是一个开源的轻量级分布式文件系统。它解决了大数据量存储和负载均衡等问题。特别适合以中小文件（建议范围：4KB < file_size <500MB）为载体的在线服务，如相册网站、视频网站等等。在UC基于FastDFS开发向用户提供了：网盘，社区，广告和应用下载等业务的存储服务。

FastDFS架构：

FastDFS服务端有三个角色：跟踪服务器（tracker server）、存储服务器（storage server）和客户端（client）。

tracker server：跟踪服务器，主要做调度工作，起负载均衡的作用。在内存中记录集群中所有存储组和存储服务器的状态信息，是客户端和数据服务器交互的枢纽。相比GFS中的master更为精简，不记录文件索引信息，占用的内存量很少。
storage server：存储服务器（又称：存储节点或数据服务器），文件和文件属性（meta data）都保存到存储服务器上。Storage server直接利用OS的文件系统调用管理文件。
client：客户端，作为业务请求的发起方，通过专有接口，使用TCP/IP协议与跟踪器服务器或存储节点进行数据交互。

Tracker Server：跟踪服务器，主要做调度工作，在访问上起负载均衡的作用。
Storage Server：存储服务器（又称数据服务器）。

ps：这样的架构具有以下特点：1.轻量级（相比GFS简化了master角色，不再管理meta数据信息）。2.对等结构。3.分组方式。

FastDFS协议：

FastDFS角色间是基于TCP/IP协议进行通信，协议包格式为：header + body。具体结构如图：

FastDFS各节点间都是通过tcp/ip的方式来进行通信的。
协议包由两部分组成：header和body

上传机制：

同步时间管理：

当一个文件上传成功后，客户端马上发起对该文件下载请求（或删除请求）时，tracker是如何选定一个适用的存储服务器呢？

其实每个存储服务器都需要定时将自身的信息上报给tracker，这些信息就包括了本地同步时间（即，同步到的最新文件的时间戳）。而tracker根据各个存储服务器的上报情况，就能够知道刚刚上传的文件，在该存储组中是否已完成了同步。同步信息上报如下图：

下载机制：

精巧的FID：

说到下载就不得不提文件索引（又称：FID）的精巧设计了。文件索引结构如下图，是客户端上传文件后存储服务器返回给客户端，用于以后访问该文件的索引信息。文件索引信息包括：组名，虚拟磁盘路径，数据两级目录，文件名。

ps：

组名：文件上传后所在的存储组名称，在文件上传成功后有存储服务器返回，需要客户端自行保存。
虚拟磁盘路径：存储服务器配置的虚拟路径，与磁盘选项store_path*对应。
数据两级目录：存储服务器在每个虚拟磁盘路径下创建的两级目录，用于存储数据文件。
文件名：与文件上传时不同。是由存储服务器根据特定信息生成，文件名包含：源存储服务器IP地址、文件创建时间戳、文件大小、随机数和文件拓展名等信息。

快速定位文件：

知道FastDFS FID的组成后，我们来看看FastDFS是如何通过这个精巧的FID定位到需要访问的文件。

通过组名tracker能够很快的定位到客户端需要访问的存储服务器组，并将选择合适的存储服务器提供客户端访问；
存储服务器根据“文件存储虚拟磁盘路径”和“数据文件两级目录”可以很快定位到文件所在目录，并根据文件名找到客户端需要访问的文件。

本次分享的主要内容包含：FastDFS各角色的任务分工/协作，文件索引的原理设计以及文件上传/下载操作的流程。通过此次学习我们对FastDFS有了初步的了解，如：

FastDFS只有三个角色；且跟踪服务器和存储服务器均不存在单点。
跟踪服务器被动的接收存储服务器汇报，对存储服务器进行分组管理；并为客户端选定适用的存储服务器。同一存储服务器可以同时向多台跟踪服务器汇报状态信息。
存储服务器组内所有存储服务器是对等关系，存储的数据一一对应且相同；所有的存储服务器均是同时在线服务，极大的提高的服务器的使用率，分担了数据访问压力。

时间： 2024-12-26 07:15:47

分布式文件系统FastDFS原理介绍的相关文章

一、分布式文件系统FastDFS原理及入门

1.简介:FastDFS是用C语言编写的一款开源的分布式文件系统,FastDSF充分考虑了冗余备份.负载均衡.线性扩容等机制,并注重高可用.高性能等特点,使用FastDFS可以很容易的搭建一套高性能的文件服务器集群提供文件上传.下载等服务. 2.原理:FastDFS系统结构如下图所示: FastDFS分为Tracker.Storage,其中Storage负责存储文件,Tracker负责存储文件所在地址,主要作用是负载均衡和资源调度. Tracker.Storage都可以实现集群部署,Tracke

【架构设计】分布式文件系统 FastDFS的原理和安装使用

本文地址分享提纲: 1.概述 2. 原理 3. 安装 4. 使用 5. 参考文档 1. 概述 1.1)[常见文件系统] Google了一下,流行的开源分布式文件系统有很多,介绍如下: -- mogileFS:Key-Value型元文件系统,不支持FUSE,应用程序访问它时需要API,主要用在web领域处理海量小图片,效率相比mooseFS高很多. -- fastDFS:国人余庆老师(GitHub)在mogileFS的基础上进行改进的key-value型文件系统,同样不支持FUSE,提供比mo

轻量级分布式文件系统FastDFS使用安装说明手册（新手入门级）

轻量级分布式文件系统FastDFS使用安装说明手册(新手入门级) 实验室所在的课题组以研究云计算为主,但所有的研究都是在基于理论的凭空想像,缺少分布式环境的平台的实践,云计算神马的都是浮云了.因此,我想借助Hadoop把实验室的服务器搭建出一个基础的分布式实验环境,方便于以后进行实验测试神马的.无意中,看到了一款开源的轻量级分布式文件系统FastDFS,它是用纯C语言实现,详细信息可参见博客:分布式文件系统FastDFS架构剖析.通过收集资料,自己动手做了一些安装和测试使用,现在对前人的一些经验

记录：CentOS 7 安装配置分布式文件系统 FastDFS 5.1.1

CentOS 7 安装配置分布式文件系统 FastDFS 5.1.1 软件下载:http://download.csdn.net/download/qingchunwuxian1993/9897458 yum-y install net-tools.x86_64 前言项目中用到文件服务器,有朋友推荐用FastDFS,所以就了解学习了一番,感觉确实颇为强大,在此再次感谢淘宝资深架构师余庆大神开源了如此优秀的轻量级分布式文件系统,本篇文章就记录一下FastDFS的最新版本5.1.1在CentOS7

高可用高性能分布式文件系统FastDFS进阶keepalived+nginx对多tracker进行高

在上一篇分布式文件系统FastDFS如何做到高可用中已经介绍了FastDFS的原理和怎么搭建一个简单的高可用的分布式文件系统及怎么访问. 高可用是实现了,但由于我们只设置了一个group,如果现在有5台服务器那将会出现5台只有一个group,每台服务器内的文件内容都相同(互备份)如下图,会造成资源浪费. 因此下面就5台服务器进行优化改造,进一步添加keepalived+nginx多tracker 架构,做到真正的高可用和高性能. FastDFS集群服务器分布其中keepalived+ngi

分布式文件系统fastDFS

分布式文件系统fastDFS 1.什么是FastDFS FastDFS是一个开源的轻量级分布式文件系统.它解决了大数据量存储和负载均衡等问题.特别适合以中小文件(建议范围:4KB < file_size <500MB)为载体的在线服务,如相册网站.视频网站等等.在UC基于FastDFS开发向用户提供了:网盘,社区,广告和应用下载等业务的存储服务. 2.FastDFS架构和原理 FastDFS服务端有三个角色:跟踪服务器(tracker server).存储服务器(storage server)

分布式文件系统FastDFS动态扩容

当用户量越来越大,则集群中某个group总会到达其极限,这时就得扩展集群的容量了. FastDFS的扩容分为对group纵向扩容和横向扩容纵向扩容指在同一个group组中增加服务器,实现数据冗余,数据备份.同一个group中最大容量取决于最小的storage的存储容量.因此如果还想继续使用此group,则需要对此group对应的所有服务器挂载同样容量的磁盘,指定store_path1--,但这样做的话成本相当的高,不推荐. 横向扩容是通过集群实现,指新增一个group,增加整个FastDFS

分布式文件系统FastDFS介绍和配置过程

http://ylw6006.blog.51cto.com/470441/948729/ 由于网站使用nfs共享方式保存用户上传的图片,附件等资料,然后通过apache下载的方式供用户访问,在网站架构初期,使用这种简单的方式实现了静态资源的读写分离,但随着网站数据量的增加,图片服务器渐渐成为整个网站的短板,缘次催生了使用fastfds的想法,故而先进行一番简单的测试!在开始之前还是先来看看fastfds的介绍信息: FastDFS is an open source high performan

分布式文件系统FastDFS设计原理

FastDFS是一个开源的轻量级分布式文件系统,由跟踪服务器(tracker server).存储服务器(storage server)和客户端(client)三个部分组成,主要解决了海量数据存储问题,特别适合以中小文件(建议范围:4KB < file_size <500MB)为载体的在线服务. Storage server Storage server(后简称storage)以组(卷,group或volume)为单位组织,一个group内包含多台storage机器,数据互为备份,存储空间以g

猜你喜欢

安装MariaDB phpMyAdmin

1 安装设置MariaDB5.5 [[email protected] ~]# yum -y install mariadb-server [[email protected] ~]# vi /etc ...

jquery 将disabled的元素置为enabled的三种方法

转--http://www.jb51.net/article/19342.htm 在jquery中可以通过jqueryObj.attr("disabled","disab ...

JavaScript中数组迭代方法（jquery）

var arr = [1,2,4,5,6]; //1.forEach(让数组中的每一项做一件事)arr.forEach(function(item,index){ console.log(ite ...

CoreAnimation 之CAReplicatorLayer

CAReplicatorLayer: 主要作用有以下两个: CAReplicatorLayer的目的是为了高效生成许多相似的图层,它会绘制一个或多个图层的子图层并在每个复制体上应用不同的变换使用C ...

Ubuntu 16.04TLS安装Eclipse配置Pydev

原材料: 下载 jdk-8u121-linux-x64.tar.gz 下载 eclipse-jee-neon-2-linux-gtk-x86_64.tar.gz 1.安装jdk sudo mkdir ...

蓝桥杯—盾神与条状项链

思路: 直接使用STL的list容器. 分两种情况: 1.DEL Q.直接调用void remove( const TYPE &val )函数即可. 2.ADD P Q.首先找出P所在的位置, ...

初识设计模式、软件设计的六大原则

总结:本篇文字分为两个部分.第一部分:设计模式基本常识:第二部分:软件设计中的六大原则,并详细分析了单一职责原则.(本篇文章的时间轴参考:为知笔记支撑文件夹\Java设计模式(时间序列图).vsdx) ...

实战经验：MySQL 构建高并发网站性能优化

最近在优化一个比较大型的高并发网站,收益颇多,经验分享给大家. 1. 表字段分割.经常访问的表.行数量大的表,切记保持最少长度字段,不在select列表的数据,请做垂直分割.举例:文章表,不要将文章正 ...

在Win7下要通过某个线程来调用SavaDialog文件选择框的问题

如果在Win7下要通过某个线程来调用SavaDialog文件选择框的代码选择窗口有时会出不来需要设置如下: ThreadthreadOfRec = new Thread(Reciv ...

qemu/kvm/qemu-kvm/virsh的区别

转自:http://www.2cto.com/os/201305/209596.html qemu是一套虚拟机管理系统,kqemu是qemu的加速器,可以认为是qemu的一个插件:qemu可以虚拟出不 ...

学习了Python

1 今天看视频看到里面的老师讲了Python的知识学会了for循环 for i in range(10): i+=3 print("i") 循环三次 for 循环还有步长步长只 ...

实战EmptyView，为ListView的加载缓冲

前言在我们的大多数应用中,会用到ListView,而ListView的数据,有时候是来自网络或者耗时操作之后得到的,这时候,有必要在数据显示之前提供一个友好的提示,结合上一篇文章的Android实战 ...

条款5：了解C++提供的默认函数

当我们定义一个类时,如何没有声明任何函数,那么C++编译器会默认提供4个函数:默认构造函数.复制构造函数.赋值操作符函数.析构函数,并且这些函数默认都是public且inline的.因此,当你定义如下 ...

Android应用源码之捕获全局异常

Android应用源码之捕获全局异常本项目就是一个简单的全局异常捕捉例子,捕捉到异常以后可以把异常信息写入文件以供后来分析或者用友好的方式进行提示后再退出程序. 下载地址:http://www.de ...

oracle rac 修改private ip

背景:由于rac环境私有ip网段和java应用冲突,因此需要修改私有ip的网段. 修改前的privateip为10.10.2网段修改后的privateip为10.10.1网段节点一的信息: [[e ...

BZOJ 1443 JSOI 2009 游戏Game 二分图+博弈

题目大意:给出一个带有坏点的网格图,每次移动棋子到相邻的格子中,要求格子不能重复,问先手是否有必胜策略,如果有,输出所有的棋子可以摆放的初值位置. 思路:很经典的二分图博弈模型,将图黑白染色,就变成了 ...

分享3个Putty配色方案【转】

本文转载自:https://www.coder4.com/archives/1506 分享3个Putty配色方案 4 Replies 虽然服务器都是Linux的,平时也基本用Linux,但是难免还是要 ...

vim常用快捷汇总

移动光标的方法 h 或向左箭头键(←) 光标向左移动一个字符 j 或向下箭头键(↓) 光标向下移动一个字符 k 或向上箭头键(↑) 光标向上移动一个字符 l 或向右箭头键(→) 光标向右移动一 ...

Android学习之天气预报简单版

自己想做一个简单的天气预报,由于能力有限,暂时做个简单的. 大概讲一下自己的开发步骤吧. 第一步:获得可以开发的json数据的及时更新的接口. 通过强大的度娘,我这里使用的json的地址是:http: ...

Glusterfs文件系统删除文件异常原因及处理方案

删除glusterfs共享目录异常:transport endpoint is not connected 原因:glusterfs存储系统间数据不一致,服务器间通信出现问题:对volume做reb ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.