云存储的那些事(2)——数据分布算法CRUSH

在分布式系统中,数据最终还是要存储到物理设备上的,ceph的底层设备抽象角色是OSD,那么数据是如何被决定放在哪块OSD上的,答案就是CRUSH算法。

关键字:CRUSH、一致性hash、ceph数据分布

总体来说,数据存储分为2个阶段

  1,首先根据一般的hash算法,对数据x的hash数值进行PG数取模运算

    PG是ceph中由OSD再进一步抽象出来的资源池pool中的虚拟存储单元

    为什么要抽象出这一层呢,其实可以类比LVM的作用,即为了让一切资源都能够变得“不那么硬“,

    方便在故障发生时,系统扩容时,可以迅速的调整,并且对整体系统影响最小

    PG的存在让节点的增加和减少变为了逻辑层面的调整,对物理层的OSD起到了封装的作用

  2,确定了PG后,再根据monitor节点中的全局拓扑cluster map,结合数据规则(副本数),再次映射到具体的OSD节点上

    此时需要注意选择的OSD节点可能是多个,算法会保证不在同一个故障域

    故障域的大小可以是(从小到大级别):host-rack-row-root

下面照例总结一张图:

时间: 2024-10-15 04:19:54

云存储的那些事(2)——数据分布算法CRUSH的相关文章

云宏超融合集群数据分布原理

超融合通过软件定义基础架构,整合计算.存储.网络和虚拟化资源以替代传统SAN存储的方式来建设数据中心,更注重基于低成本的x86服务器来达到数据的管理和控制. 云宏超融合整合了自主研发的服务器虚拟化平台CNware?和高性能分布式存储系统WinStore.云宏分布式存储基于开源的Ceph做了深度的优化和功能开发.在2015年--超融合元年,云宏便推出了Winhong HCI v1.0,云宏分布式存储WinStore以模块化的方式运行在Hypervisor中而不是运行在虚拟机上,可以将多台物理机上面

使用Azure云存储构建高速 Docker registry

使用Azure云存储构建高速 Docker registry 使用Docker来构建应用程序最常见的操作就是 docker run 或者 docker pull了,但是由于众所周知的原因,在国内想要高速稳定的获取docker hub上面的资源并不是件容易的事情,虽然国内的一些docker社区也提供了所谓的加速器,但是实测结果并不理想.今天这篇文章就给大家介绍一下怎么借助Azure Storage来搭建一个高速的私有 Docker Hub (Registiry). 一图解千言,基本上一看你就明白了

升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)

      Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序

坚果云创业团队访谈:我们 DIY 云存储

坚果云(http://jianguoyun.com/)是一款用于多平台文件同步.备份和交换的云存储工具,立志于提供“便捷,安全”的服务.坚果云自去年年初启动内测,至今年三月初刚刚正式发布.近日我们拜访了坚果云位于上海浦东张江的创业团队,就其产品本身与国内云存储行业的风云变化进行了交流.以下是本次访谈内容的整理—— 1.首先请大致地介绍一下你们产品(广告时间). 1)坚果云是国内最早支持 Windows.Mac.Linux.iOS.Android 全平台的同步工具,同步算法也很可靠,很多用户都评价

Linux最佳的云存储服务分析

什么样的云服务才适合作为 Linux 下的存储服务?兄弟连www.lampbrother.net来帮大家分析一下! 大量的免费空间.毕竟,个人用户无法支付每月的巨额款项. 原生的 Linux 客户端.以便你能够方便的在服务器之间同步文件,而不用做一些特殊的调整或者定时执行脚本. 其他桌面系统的客户端,比如 Windows 和 OS X.移动性是必要的,并且同步设备间的文件也很有必要. 基于 Android 和 iOS 的移动应用程序.在今天的现代世界里,你需要连接所有设备. 我不将自托管的云服务

Ceph之数据分布:CRUSH算法与一致性Hash

转自于:http://www.cnblogs.com/shanno/p/3958298.html?utm_source=tuicool 数据分布是分布式存储系统的一个重要部分,数据分布算法至少要考虑以下三个因素: 1) 故障域隔离.同份数据的不同副本分布在不同的故障域,降低数据损坏的风险: 2) 负载均衡.数据能够均匀地分布在磁盘容量不等的存储节点,避免部分节点空闲部分节点超载,从而影响系统性能: 3) 控制节点加入离开时引起的数据迁移量.当节点离开时,最优的数据迁移是只有离线节点上的数据被迁移

混合云存储跨云灾备方案之跨云备份

摘要: 阿里云混合云存储团队的云存储网关,混合云备份和混合云容灾产品能够给用户提供完备的容灾方案,从而解决客户本地IDC到阿里云的混合云灾备场景和其他云厂商平台到阿里云的跨云灾备/多云灾备场景所遇到的问题.通过两次备份和一次恢复来演示混合云备份是如何备份用户云主机上的文件,备份增量数据和恢复用户数据的. 公有云市场现状,问题及趋势 从全球公有云市场来看,亚马逊AWS一枝独秀,占据了接近40%的市场份额.2017年全年,AWS营收为43.3亿美元,销售额为174.6亿美元.而在中国公有云市场,阿里

物联网环境下的云存储安全问题研究

物联网环境下的云存储安全问题研究 物联网是一种利用计算机技术.互联网技术.通信技术.传感技术等多种技术将物品与互联网连接起来,以实现信息传递.智能识别.物品管理等功能的网络. 随着云计算技术受到广泛的关注,云存储技术也得到了广泛的重视.云存储可以在一系列软件的支撑下将多种存储设备进行整合,构成海量存储空间空用户使用.利用云存储服务,物联网供应商可以达到避免自建数据存储中心,节约运营成本,提高服务质量的目的. 一.云存储技术概述 云存储技术是云计算技术的延伸,该技术通过使用多种技术手段如集群应用.

又拍云叶靖:OpenResty 在又拍云存储中的应用

2019 年 7 月 6 日,OpenResty 社区联合又拍云,举办 OpenResty × Open Talk 全国巡回沙龙·上海站,又拍云平台开发部负责人叶靖在活动上做了<OpenResty 在又拍云存储中的应用>的分享.OpenResty x Open Talk 全国巡回沙龙是由 OpenResty 社区.又拍云发起,邀请业内资深的 OpenResty 技术专家,分享 OpenResty 实战经验,增进 OpenResty 使用者的交流与学习,推动 OpenResty 开源项目的发展.