程序员修神之路--做好分库分表其实很难之一(继续送书)


菜哥,领导让我开发新系统了


这么说领导对你还是挺信任的呀~


必须的,为了设计好这个新系统,数据库设计我花了好多心思呢


做一个系统我觉得不应该从数据库入手,应该从设计业务模型开始,先不说这个,说说你的数据库设计的优势


为了高性能我首先设计了分库 分表策略,为以后打下基础


那你的数据量将来会很大吗?分库分表其实涉及到很多难题,你了解过吗?


我觉得分库分表很容易呀


是吗?

是否需要分

说到数据库分库分表,不能一味的追求,我们要明白为什么要进行分库分表才是最终目的。现在网上一些人鼓吹分库分表如何应对了多大数据,却不知针对很多人的业务来说,分库分表策略也许并非是银弹,而是令人焦虑的焦油坑。

分库分表是业务发展到一定阶段,数据积累到一定量级而衍生出来的解决方案。当DB的数据量级到达一个阶段,写入和读取的速度会出现瓶颈,即使是有索引,索引也会变的很大,而且数据库的物理文件大的会使备份和恢复等操作变的很困难。这个时候由于DB的瓶颈已经严重危害到了业务,最有效的解决方案莫过于DB的分库分表了。

有的leader甚至架构师会在业务初期以自己的主观意愿就进行分库分表,会为以后业务高速发展做铺垫。但是这里我要表达我几个观点:

1. 如果当前这个业务并非公司的核心业务,而且在业务是否能存活的前提下,初级的设计不要这么复杂。如果每个业务我们都按淘宝那样的规模做系统架构设计,将来不但会害死业务,更会让程序员死的更惨,背上黑锅的数量会更多。

2. 单台数据库的能力并非想象中那么脆弱。就算是mysql单表数据量大部分场景下也在百万级别(当然这和存储的具体数据格式有关),sqlserver更是不在话下,我司用的sqlserver,单表千万级别数据的大有所在,亿级的也有几个,Oracle更是不用多说。

3. 如果业务周期比较短,或者人力物力不足的情况下,盲目的在初期就进行分库分表设计,更是给自己下了绩效背D的套,

4. 系统的设计初期和公司的基础数据有直接关系,比如微信这样的数据规模,稍微一个小系统就有可能是千万甚至上亿的数据级别,但是多数初创公司有多少能有这样的级别呢?我这里喷一句:有的创业公司号称从XX大公司重金挖来的CTO,技术总监等等高人,尤其是这些带着金色光环的人在创业初期给开发人员埋雷,一个创业公司搞一套XX分布式,XX设计,殊不知,在当前的公司环境下这些其实没有必要,给公司带来的更多是苦不堪言。


一个好的系统设计者会在开始设计之初,充分考虑到各方面的综合因素来综合考虑。

分   库

根据业务划分


说到分库,菜菜这里想多啰嗦一句:推荐大家根据业务来进行划分,我一直在过去的文章中强调,一个系统的好坏,业务的边界划分起到举足轻重的作用。业务按照规则划分好边界,每个业务对应的数据库自然而然就诞生了,不要站在数据库的层面上去给业务分库。有的leader会有这样的行为:某个表的数据量太大,分配到单独的一个库,结果导致的结果就是很多SQL语句必须跨库Join。

具体的业务怎么划分呢?这个规则我不敢说,每个公司的业务形态不同,划分的维度就会不同。举一个简单的例子:一个典型的电商系统根据业务可划分为商品,订单,这也是许多公司的典型业务划分,但是我司根据自己的业务规则,划分为商品,订单,支付。因为支付系统在我司是一个独立的业务,不但包含了订单的支付,还包含了很多其他的支付场景。根据业务上的划分,DB的层面就出现了商品DB,订单DB和支付DB。


同一业务横向划分


除了根据业务垂直切分的策略之外,还有另外一种常用的分库方案,如果某个具体业务数据量比较大,可以把这业务的数据库根据某种规则来进行横向切分。比如用户信息的业务,当用户量达到一定量级,有些公司会把用户信息拆分到多个数据库,说到这里,有的同学会问,这和拆分到多个表有什么区别呢?如果把用户信息横切到同一个数据库的多个表,如果这些表位于一个物理磁盘上,对于提高这个业务的写入和读取IO最大值并没有什么用处,但是如果分配到多个服务器上,意味着这个业务整体的最大IO得到了提升,在一定程度上要比拆表效果要好,当然如果用到了表分区,每个分区散落在不同的物理磁盘上,也不一定比分库方式差。

把某个业务的DB按照规则横向切分之后,当然也会引入新的问题,下边会介绍。切分的规则在很多情况下用的最多的就是哈希取余的方式了,有时间咱们在讨论。


分库引入复杂性


我在上文提到过,分库分表并非是银弹,任何一种解决方案能解决一个问题,但是有可能会引入其他问题,世界是公平的,计算机世界亦如此。那分库会引入哪些问题呢?

1. 在执行了分库之后,难以避免会将原本逻辑关联性很强的数据划分到不同的表、不同的库上,这时,表的关联操作将受到限制,我们多数情况下无法join位于不同分库的表(因为多数公司都明令禁止跨库sql),结果原本一次查询能够完成的业务,可能需要多次查询才能完成。

2. 原来在单体DB环境下,可以用DB的事务来保证一些操作的原子操作,但是在分散到多个数据库的情况下,统一管理这些操作变的困难。虽然一些大厂提供的也有跨库的事务解决方案,但是性能上实在是差强人意,所以在很多情况下并不实用。比如上边提到的商品库存支付,在单体应用的情况下,三个业务在同一个数据库,当发生支付业务,更改商品库存和更新订单状态这两个操作可以利用数据库提供的事物来完成,而且性能在可接受范围之内,如果这三个业务分布在不同的数据库,有几率会发生只执行其中一个操作的情况发生,其实这也是分布式事物要解决的问题。在很多情况下,分布式事物是无法避免的,根据业务综合情况适当采用分布式事物也是一种有效的解决方案,最坏的情况下,可能需要人工介入了。

3. 分库对于DBA来说意味着工作量的成倍增加,原来只需要管理一个DB,现在却要管理N个DB,而且每个DB都需要备份,监控,甚至做高可用,扩展等工作。原来可能只需要一个DBA管理人员,分库之后可能会需要两个甚至三个,导致了公司在人力投入上的加大。

关于分库你有什么要说的吗?欢迎在留言区讨论,公众号内回复“抽奖”,送书活动还在继续!!

程序员过关斩将--你为什么还在用存储过程?
程序员过关斩将--小小的分页引发的加班血案
程序员修神之路--问世间异步为何物?
程序员修神之路--提高网站的吞吐量??
程序员修神之路--??分布式高并发下Actor模型如此优秀??
程序员过关斩将--论商品促销代码的优雅性
程序员过关斩将--你的面向接口编程一定对吗?
程序员修神之路--高并发下为什么更喜欢进程内缓存
程序员修神之路--高并发优雅的做限流

原文地址:https://www.cnblogs.com/zhanlang/p/11143657.html

时间: 2024-08-05 08:19:45

程序员修神之路--做好分库分表其实很难之一(继续送书)的相关文章

程序员修神之路--redis做分布式锁可能不那么简单

菜哥,复联四上映了,要不要一起去看看? 又想骗我电影票,对不对? 呵呵,想去看了叫我呀 看来你工作不饱和呀 哪有,这两天我刚基于redis写了一个分布式锁,很简单 不管你基于什么做分布式锁,你觉得很简单吗?来来来 在计算机世界里,对于锁大家并不陌生,在现代所有的语言中几乎都提供了语言级别锁的实现,为什么我们的程序有时候会这么依赖锁呢?这个问题还是要从计算机的发展说起,随着计算机硬件的不断升级,多核cpu,多线程,多通道等技术把计算机的计算速度大幅度提升,原来同一时间只能执行一条cpu指令的时代已

程序员修神之路--高并发下为什么更喜欢进程内缓存

菜菜哥,告诉你一个好消息 YY妹子,什么好消息,你有男票了? 不是啦,我做的一个网站,以前经常由于访问量太大而崩溃,现在我加上了缓存,很稳定啦 加的什么缓存呢? 我用的redis,号称业界最快的缓存组件了 你觉得现在的缓存操作应该是最快的了吗? 是的,我觉得没有缓存能比这种模式更快了 你先停停,我给你先讲个故事 进程内缓存是指缓存和应用程序在相同地址空间.即同一个进程内.分布式缓存是指缓存和应用程序位于不同进程的缓存,通常部署在不同服务器上. 从前有个机构,机构的主人叫做 CPU,这个机构专门派

程序员修神之路--高并发优雅的做限流(有福利)

菜菜哥,有时间吗? YY妹,什么事? 我最近的任务是做个小的秒杀活动,我怕把后端接口压垮,X总说这可关系到公司的存亡 简单呀,你就做个限流呗 这个没做过呀,菜菜哥,帮妹子写一个呗,事成了,以后有什么要求随便说 那好呀,先把我工资涨一下 那算了,我找别人帮忙吧 跟你开玩笑呢,给哥2个小时时间 谢谢菜菜哥,以后你什么要求我都答应你 好嘞,年轻人就是豪爽 ◆◆ 技术分析 ◆◆ 如果你比较关注现在的技术形式,就会知道微服务现在火的一塌糊涂,当然,事物都有两面性,微服务也不是解决技术,架构等问题的万能钥匙

程序员修神之路--为什么有了SOA,我们还用微服务?

菜菜哥,我最近需要做一个项目,老大让我用微服务的方式来做 那挺好呀,微服务现在的确很流行 我以前在别的公司都是以SOA的方式,SOA也是面向服务的方式呀 的确,微服务和SOA有相同之处 面向服务的架构(SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)进行拆分,并通过这些服务之间定义良好的接口和契约联系起来.接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台.操作系统和编程语言.这使得构建在各种各样的系统中的服务可以以一种统一和通用的方式进行交互.它是一种设计方法,其中包

程序员修仙之路--优雅快速的统计千万级别uv

菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧 写一个统计uv和pv的系统吧 网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己拥有主动权.给你两天时间,系统性能不要太差呀 好吧~~~ 定义PV是page view的缩写,即页面浏览量,通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标.网页浏览数是评价网站流量最常用的指标之一,简称为PV UV是unique visitor的简写,是指通过互联网访问.浏览这个网页的自

程序员修仙之路- CXO让我做一个计算器!!

菜菜呀,个税最近改革了,我得重新计算你的工资呀,我需要个计算器,你开发一个吧 CEO,CTO,CFO于一身的CXO X总,咱不会买一个吗? 菜菜 那不得花钱吗,一块钱也是钱呀··这个计算器支持加减乘除运算就行,很简单 CEO,CTO,CFO于一身的CXO (尼玛)那能不能给我涨点工资呀? 菜菜 公司现在很困难,你这个计算器关系到公司的存亡,你要注意呀!! CEO,CTO,CFO于一身的CXO (关于撇开话题佩服的五体投地)好吧X总,我尽快做 菜菜 给你一天时间,我这里着急要用 CEO,CTO,C

海量数据存储--分库分表策略详解 (转)

一.背景:     系统刚开始的时候,数据库都是单库单表结构.随着业务量的增加进行第一次数据库升级,根据业务垂直拆分数据库,这样多变成多个业务数据库,每个数据库里面还是单表结构.接下来,继续随着业务量的继续增加,单表已经很难承受数据量,就要进行分表,这个时候就是,多个业务库,每个业务库下对需要分表的表进行分表.再接下来,随着应用的增加,数据库IO,磁盘等等都抗不住了,就要把分表的表分到多个库,这样就形成了如下的结构. 重点:本文主要讨论的是分库分表的策略,也就是分库分表的规则或者说是算法. 二.

面试官:如何做到不停机分库分表迁移?

需求说明 类似订单表,用户表这种未来规模上亿甚至上十亿百亿的海量数据表,在项目初期为了快速上线,一般只是单表设计,不需要考虑分库分表.随着业务的发展,单表容量超过千万甚至达到亿级别以上,这时候就需要考虑分库分表这个问题了,而不停机分库分表迁移,这应该是分库分表最基本的需求,毕竟互联网项目不可能挂个广告牌"今晚10:00~次日10:00系统停机维护",这得多low呀,以后跳槽面试,你跟面试官说这个迁移方案,面试官怎么想呀? 借鉴codis 笔者正好曾经碰到过这个问题,并借鉴了codis一

zz 游戏程序员的学习之路(中文版)

游戏程序员的学习之路(中文版) Milo Yip · 1 天前 感谢 @楚天阔(tkchu)编写脚本及整理中文译本数据,自动从英文版生成中文版,SVG / PDF 版本中的书籍图片现在链接至豆瓣页面. Github miloyip/game-programmer 检视/下载中文版 SVG / PDF 「真诚赞赏,手留余香」 赞赏 15 人赞赏 程序员游戏开发书籍推荐 分享 举报 977 文章被以下专栏收录 Milo的编程 进入专栏 97 条评论 写下你的评论 trycatch 这是劝退吧...