分布式文件系统MogileFS

MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器)。目前国内使用 MogileFS 的有图片托管网站 yupoo 等。

MogileFS 特性

1. 应用层 – 不需要特殊的核心组件

2. 无单点失败 — MogileFS分布式文件存储系统安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败。(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器。

3. 自动的文件复制 — 基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求。比如你有一个图片网站,你可 以设置原始的JPEG图片需要复制 至少三份,但实际只有1or2份拷贝,如果丢失了数据,那么MogileFS分布式文件存储系统可以重新建立遗失的拷贝数。用这种办 法,MogileFS(不做RAID)可以节约磁盘,否则你将存储同样的拷贝多份,完全没有必要。

4. “比RAID好多了”– 在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问。 MogileFS分布式文件存储系统在不同的机器之间进行文件复制,因此文件始终是可用的。

传输中立,无特殊协议 — MogileFS分布式文件存储系统客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下。

5. 简单的命名空间 –文件通过一个给定的key来确定,是一个全局的命名空间。你可以自己生成多个命名空间,只要你愿意,不过这样可能在同一MogileFS中会造成key冲突。

6. 不用共享任何东西 — MogileFS分布式文件存储系统不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘。

7. 不需要RAID — 在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS分布式文件存储系统已经提供了。

MogileFS 的结构

在使用前,我们需要对 MogileFS 有个基本的了解,就是他的三个大的部分,Tracker and Database 和 Storage Nodes, Client 组成。由二个服务进程 MogileFSd 和 mogstored 。

MogileFS 的组成部分

前面提到 Tracker and Database 和 Storage Nodes, Client 组成,我们这先不讲 Client.因为Client实际上是一个 Perl 的 pm,可以写程序调用该 pm 来使用 MogileFS 系统,对整个系统进行读写操作。另外,象 nginx 之类有相关的模块。另外也有做成象文件系统一样采用fuse方式挂载.

Trackers(跟踪器 ,调度器)

这个是 MogileFS 的核心部分,通俗点讲,就他是一个调度器。MogileFSd 进程就是 trackers程序,类似 MogileFS 的 wiki 上介绍的,trackers 做了很多工作,Replication ,Deletion,Query,Reaper,Monitor等等。这个是基于事件的( event-based ) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到 “query workers” 中,让 MogileFSd 的子进程去处理. mogadm,mogtool 的所有操作都要跟 trackers 打交 道,Client 的一些操作也需要定义好 trackers,因此最好同时运行多个 trackers 来做负载均衡。trackers 也可以只运行在一台机器 上,也可以跟其他程序运行在一起(不建议)

配置文件: /etc/mogilefs/mogilefsd.conf

数据库(MySQL)部分

如上图所显示的,数据库用来存放 MogileFS 的元数据 (命名空间, 和文件在哪里). 是 Trackers 来操作和管理它。你可以用 mogdbsetup 程序来初始化数据库。因为数据库保存了MogileFS的所有元数据,如果这儿挂了,那么整个 MogileFS 将处于不可用状态。因此最好是HA结构。

存储节点(Storage Nodes )

实际文件存放的地方. 存储节点是一个 HTTP 服务器,用来做删除,存放,重命名等事情,任何 WebDAV 服务器都可以, 不过推荐使用 mogstored 。 MogileFSd 可以配置到两个机器上使用不同端口… mogstored 为所有 DAV 操作 (和流量监测), 并且你自己选择的快速的 HTTP 服务器用来做 GET 操作(给客户端提供文件). 典型的应用是一个挂载点有一个大容量的 SATA 磁盘,它们被挂载到 /var/mogdata/devNN. 只要配置完配置文件后 mogstored 程序的启动将会使本机成为一个存储节点。当然还需要 mogadm 这个工具增加这台机器到 Cluster 中。

配置文件: /etc/mogilefs/mogstored.conf

MogileFS 服务进程

对应上面的部分

MogileFSd — MogileFS 的主守护进程,就是上面指的 trackers(跟踪器 ),由 /etc/MogileFS/MogileFSd.conf 这个配置文件控制。

mogstored — MogileFS 存储守护进程, 这个就是上面指的存储节点(Storage Nodes ),由 /etc/MogileFS/mogstored.conf 这个配置文件控制。

MogileFS由3个部分组成
   第1个部分: 是server端,包括mogilefsd和mogstored两个程序。前者即是mogilefsd的tracker,它将一些全局信息保存在数据库 里,例如站点domain,class,host等。后者即是存储节点(store node),它其实是个HTTP Daemon,默认侦听在7500端口,接受客户端的文件备份请求。在安装完后,要运行mogadm工具将所有的store node注册到mogilefsd的数据库里,mogilefsd会对这些节点进行管理和监控。
   第2个部分:是utils(工具集),主要是MogileFS的一些管理工具,例如mogadm等。
   第3个部分:是客户端API,目前只有Perl API(MogileFS.pm)、PHP,用这个模块可以编写客户端程序,实现文件的备份管理功能,提供MogileFS.pm。

CAP理论:一致性,可用性,分区容错性;指一个分布式系统不可以满足一致性,可用性和分区容错性这三个需求,最多只能同时满足其中的两个;
   C(Consistency):一致性,任何一个读操作总是能够读取之前完成的写操作;就是一个数据写入一立马被读到;
   A(Availability):可用性,每一次操作总是能够 在确定的时间返回;无论成功或失败都能收到一个返回值的;
   P(Tolerance of network Partition):分区容错性,在出现网络分区的情况下,仍然能够满足一致性和可用性;

BASE法则模型反ACID模型,完全不同ACID模型,牺牲高一致性,获得可用性或可靠性:
   BA:Basically Available,基本可以用,支持分区失败(sharding碎片划分数据库);
   S:Soft state,软状态,接受一段时间内的状态不同步,异步;
   E:Eventually consistent:最终一致性,弱一致性的表现;
   BASE思想主要强调基本的可用性,如果你需要High 可用性,也就是纯粹的高性能,那么就要以一致性或容错性为牺牲,BASE思想的方案在性能上还是有潜力可挖的。

Paxos算法:比2PC提交更轻量级的分布式事务的协调方式;大概是指不出现故拜占庭将军的前提下,要取得数据的一致性,在通信信道不安全的时候,我们数据传输可能会被人劫持,这样就不能保证数据的可信了,所以必须保证通信信道安全下Paxos算法才可行;

[ Mogilefs分为几部分 ]

1. 数据库(MySQL)部分
你可以用 mogdbsetup程序来初始化数据库。数据库保存了Mogilefs的所有元数据,你可以单独拿数据库服务器来做,也可以跟其他程序跑在一起,数据库 部分非常重要,类似邮件系统的认证中心那么重要,如果这儿挂了,那么整个Mogilefs将处于不可用状态。因此最好是HA结构。

2. 存储节点
mogstored 程序的启动将使本机成为一个存储节点。启动时默认去读/etc/mogilefs/mogstored.conf ,具体配置可以参考配置部分。mogstored启动后,便可以通过mogadm增加这台机器到cluster中。一台机器可以只运行一个 mogstored作为存储节点即可,也可以同时运行其他程序。

3. trackers(跟踪器)
mogilefsd即 trackers程序,类似mogilefs的wiki上介绍的,trackers做了很多工作,Replication ,Deletion,Query,Reaper,Monitor等等。mogadm,mogtool的所有操作都要跟trackers打交 道,Client的一些操作也需要定义好trackers,因此最好同时运行多个trackers来做负载均衡。trackers也可以只运行在一台机器 上,也可以跟其他程序运行在一起,只要你配置好他的配置文件即可,默认在/etc/mogilefs/mogilefsd.conf。

4. 工具
主要就是mogadm,mogtool这两个工具了,用来在命令行下控制整个mogilefs系统以及查看状态等等。

5. Client
Client实际上是一个Perl的pm,可以写程序调用该pm来使用mogilefs系统,对整个系统进行读写操作。

[ 概念定义 ]
可以参考官方wiki的这儿,简单说一下
domain:最高域,在一个域下key是唯一的。
class:包含在domain中,可以针对每一个class定义保存的份数。
key:对文件的唯一标识。
file:文件。

[ 适用性 ]
     由于Mogilefs不支持对一个文件的随机读写,因此注定了只适合做一部分应用。比如图片服务,静态HTML服务。
即文件写入后基本上不需要修改的应用,当然你也可以生成一个新的文件覆盖上去。

三.配置
1)创建数据库
#mogdbsetup –dbhost=10.15.6.28 –dbname=mogilefs –dbuser=root
2)tracker配置
新建/etc/mogilefsd.conf文件内容:
db_dsn DBI:mysql:mogilefs
db_user mogile
db_pass 123123
conf_port 6001
listener_jobs 5
 
db_dsn指向的是你数据库的位置,如果你数据库不在同一个机器上,请改为:
db_dsn DBI:mysql:mogilefs:127.0.0.1
 
由于mogilefsd不能用root用户启动.所以添加mogile用户
# adduser mogile
在配置下面以前先启动 trackers server
# su mogile
# mogilefsd -c /etc/mogilefsd.conf –daemon
2)Storage Server 配置
用mogadm工具将storage server加到数据库中:
#mogadm -lib=/usr/lib/perl5/5.8.8 -trackers=10.15.6.28:6001 host add mogilestorage -ip=10.15.6.28 -port=7500 -status=alive(由于我是在一台机器上配,故trackers的地址和ip地址是一样的)
用下面命令来检测是否成功:
#mogadm -lib=/usr/lib/perl5/5.8.8 -trackers=10.15.6.28:6001 host list
加入一个设备到你的storage server:
#mogadm -lib=/usr/lib/perl5/5.8.8 -trackers=10.15.6.28:6001 device add mogilestorage 1
用下面命令来检测是否成功:
#mogadm -lib=/usr/lib/perl5/5.8.8 -trackers=10.15.6.28:6001 device list
Device ID 是唯一的,一旦创建将无法删除,只能mark为dead. 所以,如果你某个磁盘坏了,你mark为dead, 后来又修好了,
那么你必须重新格式化并命名为新的device id, 不支持将device从dead变为alive.
 
新建配置文件:/etc/mogstored.conf内容是
httplisten=0.0.0.0:7500
mgmtlisten=0.0.0.0:7501
docroot=/opt/mogdata
建个存放文件的目录 # mkdir /opt/mogdata
 
在存放文件的目录下面在建个目录:
#mkdir -p /opt/mogdata/dev1
PS:mogadm 参数的用法请参考http://search.cpan.org/~dormando/MogileFS-Utils/mogadm
3)运行MogileFS
启动 storage server
#mogstored -c /etc/mogstored.conf –daemon
启动 Trackers
su mogile
mogilefsd -c /etc/mogilefs/mogilefsd.conf –daemon
查看你所有的服务都起来没有
#ps -ef | grep mogilefsd
#ps -ef | grep mogstored
三.测试阶段
生成domain
#mogadm -lib=/usr/lib/perl5/5.8.8 -trackers=10.15.6.28:6001 domain add testdomain
 
加一个 class 到domain
#mogadm -lib=/usr/lib/perl5/5.8.8 -trackers=10.15.6.28:6001 class add testdomain testclass
时间: 2024-10-19 22:46:13

分布式文件系统MogileFS的相关文章

深入浅出分布式文件系统MogileFS集群

    一,简介    MogileFS是一款开源的分布式文件存储系统,由LiveJournal旗下的Danga Interactive公司开发.Danga团队开发了包括 Memcached.MogileFS.Perlbal 等多个知名的开源项目.目前MogileFS的日益成熟使用此解决方法的公司越来越多,例如日本的又拍.digg.中国的豆瓣.1号店.大众点评.搜狗和安居客等,分别为所在的组织或公司管理着海量的图片.和传统网络存储不一样的是分布式文件系统是将数据分散存储至多台服务器上,而网络文件

分布式文件系统 ~MogileFS~

  一.分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,也就是集群文件系统,可以支持大数量的节点以及PB级的数量存储.相对地,在一个分享的磁盘文件系统中,所有节点对数据存储区块都有相同的访问权,在这样的系统中,访问权限就必须由客户端程序来控制.分布式文件系统可能包含的功能有:透通的数据复制与容错.也就是说,即使系统中有一小部份的节点脱机,整体来说系统仍然可以持续运作而不会有数据

分布式文件系统mogilefs的简单应用

简介 MogileFS是一个开源的分布式文件存储系统,由LiveJournal旗下的DangaInteractive公司开发.Danga团队开发了包括Memcached.MogileFS.Perlbal等多个知名的开源项目. 特性 1.应用层:用户空间文件系统,无须特殊的核心组件 2.无单点:(tracker, mogstore, database(MySQL)) 3.自动文件复制:复制的最小单位不是文件,而class: 4.传输中立,无特殊协议:可以通过NFS或HTTP进行通信: 5.简单的命

分布式文件系统MogileFS的使用

MogileFS简介 MogileFS是一套开源的分布式存储组件,由LiveJournal旗下的Danga Interactive研发,主要应用于存储海量的小文件. MogileFS有3个组件: 1)Tracker Nodes:是文件系统集群的核心节点,借助数据库节点保存元数据,主要功能包括监控后端Storage节点,及指示Storage节点完成数据的添加.删除.查询,及节点之间数据的复制等,该节点上运行的进程为mogilefsd.往往Tracker节点有多个,以实现负载均衡和高可用: 2)St

分布式文件系统 Mogilefs 安装步骤

我这里的环境都是 RHEL 5 的环境. MySQL 数据库 和 tracker 都放到一台服务器上, 为 192.168.2.85 storage server两台, 分别为 192.168.2.98          192.168.2.222 第一:    安装 Mysql 数据库 Mysql的安装请大家直接下载 rpm 安装包最方便, 下载源码安装也很简单.我这里是使用 rpm 包安装. 安装完毕后使用命令   service  mysql  start  启动 启动后使用mysql的客

分布式文件系统之MogileFS的使用

一.mogilefs简介 MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached.MogileFS.Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器). MogileFS由3个部分组成: 第1个部分: 是server端,包括mogilefsd和mogstored两个程序.前者即是mogilefsd的trac

分布式文件系统之——mogilefs

本节我们将来认识下分布式文件系统,不过我主要讲的是关于其中的一个比较流行的mogilefs进行介绍,好了其他的不多说了,下面我们就开始吧. 什么是分布式文件系统? 什么是分布式文件系统(Distributed File System)?顾名思义,就是分布式+文件系统.它包含了2方面,从文件系统的客户端的角度来看,他就是一个标准的文件系统,提供了API,由此可以进行文件的创建.删除.读写等操作:从内部来看的话,分布式文件系统则与普通的文件系统不同,它不在是本地的磁盘中,它的内容和目录都不是存储在本

CentOS 6.5 分布式文件系统之MogileFS工作原理及实现过程

   MogileFS是一套高效的文件自动备份组件,由Six Apart开发,广泛应用在包括LiveJournal等web2.0站点上.MogileFS由3个部分组成:    第1个部分:是server端,包括mogilefsd和mogstored两个程序.前者即是mogilefsd的tracker,它将一些全局信息保存在数据库里,例如站点domain,class,host等.后者即是存储节点(store node),它其实是个HTTP Daemon,默认侦听在7500端口,接受客户端的文件备份

MogileFS的分布式文件系统的实现

MogileFS:是一套分布式文件存储的解决方案,它不需要特殊的核心组件.无单点失败.自动的文件复制.比RAID好多了.传输中立,无特殊协议(客户端可以通过NFS或HTTP来和MogileFS通信).简单的命名空间.不用共享任何东西.不需要RAID.不会碰到文件系统本身的不可知情况 等等优点. server端由mogilefsd和mogstored两个程序组成,mogilefsd既tracker,用来存数全局元数据放在数据库中,mogstored既存储节点. 实验目的: 实现mogilefs分布