从数据库到NoSQL思路整理


1. 数据库为什么要算范式?

细说起来太多。 范式解决了数据冗余,从而保证ACID的操作性能。
不然一堆删除异常,插入异常,就没法愉快的写SQL了

另外,对于多个业务公用的数据库,范式解决了集成的问题。

2. 海量数据了,数据库对此做了哪些优化?
    a. 分表,横向划分+纵向划分 (mysql集群)。
    b. share-disk 架构 (oracle的rac 集群),性能受到share里disk的限制.

3. 但是还不够,问题的根本是什么
    范式的限制太多,没有了数据冗余,那么每次操作就需要做关联。
    对分布式集群来说,关联的节点越多延迟越高,join等操作仍然需要将大表数据传输到小表机器上做计算。

4.  对范式的吐槽不是一天两天了,业界整了个聚合的方式来替代关系元组。
    优点: 聚合更简单,更直接,更容易表达。(不需要join等关联操作, 就非常适合分布式集群)。
    缺点: 但是由于冗余,一次修改,需要对应到N个实体。(非常之不适合ACID)。
    ps:其实关系型数据库也是朝聚合方向做出了优化的,比如————>物化视图。

5.  性能上去了 ACID就出问题了
    很好理解:分布式的可用性--------->数据的复制和分片---------->数据冗余---------->数据不一致
    比如:复制(3份)和分片(同机架不同机器一个备份, 不同机架再一个备份)。

6.  其实ACID很做作,其实重点在于原子性,转化成如下的问题描述
    a. 写冲突。
            1,中心节点模式下,多个写的怎么排序问题。
            2,无中心节点模式下,多个写并发的问题(仲裁问题)。
    b. 读写冲突。
    c.  数据持久性。

7. 解决方式:
   6.a.1 写排序问题(中心节点来决定排序,然后按顺序写多个副本)
    6.a.2 写并发的仲裁问题:
    写入仲裁: 写入成功的数目>复制因子的一半 即 W > N/2,这个好理解。
    读取仲裁:如果写N个副本,写W个算成功,就是允许N-W个失败。最坏的情况下, 你要
读至少N-W+1个数据才可以。
    放宽条件就变成了:R + W >= N  - W + 1 + W = N +1 > N ====== > R+W>N
    
    6.b 解决不了,让我们学会妥协。会话一致性,最终一致性。
    6.c 数据持久性(WAL方式)

7. 好奇一下,为啥不能完全解决?
    通俗的说:数据量大了,就得上分布式集群,不然搞不定。
   可是,冗余导致一致性很差,不冗余吧,可用性和性能都上不去。
    
   学术地说就是CAP定理。原始的CAP定理里3选2的说法其实不好理解。
    实际上可以理解成: 系统会遭遇分区情况时,我们只能在可用性和一致性中间做权衡。
    思考可用性和一致性,不如思考一致性和延迟中如何取舍。

PS:
    1.BASE比ACID更做作,基本可用和柔性状态也没有明确的定义。
    2.并不是所有的NoSQL都是为分布式诞生的,图数据库采用的是传统数据库的方式。
    3.列族存储,可以当成是2级聚合来理解。
    4.可用性的理解:
            有中心节点的系统,当某个节点挂掉,仍然可以正常工作。
            无中心节点的系统,当系统出现脑裂(brain split),系统仍然能工作

时间: 2024-10-09 19:55:54

从数据库到NoSQL思路整理的相关文章

搜索与排名思路整理

学习<集体智慧编程>第4章的思路整理: 本章的主要内容就是建立一个模拟的全文搜索引擎,主要的大步骤为:1.检索网页,2.建立索引,3.对网页进行搜索 4.多种方式对搜索结果进行排名 一.检索网页:主要利用python写了一个爬虫软件,通过爬取一个网站上链接来不断的扩充爬取的内容.主要利用了python的urllib库和BeautifulSoup库.这部分比较简单,核心代码如下: def crawl(self,pages,depth=2): for i in range(depth): newp

关系型数据库和NoSQL数据库

关系型数据库和NoSQL数据库 什么是NoSQL 大家有没有听说过 “NoSQL”呢?近年,这个词极受关注.看到“NoSQL”这个词,大家可能会误以为是“No!SQL”的缩写,并深感愤怒:“SQL怎么会没有必要了 呢?”但实际上,它是“Not Only SQL”的缩写.它的意义是:适用关系型数据库的时候就使用关系型数据库,不适用的时候也没有必要非使用关系型数据库不可,可以考虑使用更加合适的数据存 储. 为弥补关系型数据库的不足,各种各样的NoSQL数据库应运而生. 为了更好地了解本书所介绍的No

非关系型数据库(NoSQL)——Redis安装及部署详解

在现在的互联网大潮中,NoSQL可谓是家喻户晓,Redis作为NoSQL中及其重要的一员,使我们走向架构道路的一条必经之路.作为运维工程师来说,是必须要掌握的! 既然提到了Redis数据库是非关系型数据,并且需要掌握Redis数据库.那么关于关系型数据库与非关系型数据库的基本概念是必须要了解的. 一.关系型数据库与非关系型数据库的基本概念: 数据库按照其结构可以分为关系型数据库与其他数据库,而这些其他数据库,我们统称为非关系型数据库. 1.关系型数据库 关系型数据库是一个结构化的数据库,创建在关

关系型数据库与NoSQL数据库

关系型数据库的优缺点 优点: 可以做事务处理,从而保证了数据的一致性: 可以进行JOIN等多表查询: 由于以SQL标准化为前提,数据更新的开销很小(相同的字段基本上都只有一处). 缺点: 大量数据的写入处理不容易: 若表数据量太大,不容易对其进行做索引或表结构更新: 字段不固定时的应用会比较困难: 对简单查询处理不够快速: 扩展成本昂贵. NoSQL数据库的优缺点 优点: 成本:NoSQL数据库简单易部署,基本都是开源软件,不需要像使用Oracle那样花费大量成本购买使用,相比关系型数据库价格便

数据库架构设计思路

一 .58同城数据库架构设计思路 (1)可用性设计 解决思路:复制+冗余 副作用:复制+冗余一定会引发一致性问题 保证"读"高可用的方法:复制从库,冗余数据,如下图  带来的问题:主从不一致 解决方案:见下文 保证"写"高可用的一般方法:双主模式,即复制主库(很多公司用单master,此时无法保证写的可用性),冗余数据,如下图  带来的问题:双主同步key冲突,引不一致 解决方案: a)方案一:由数据库或者业务层保证key在两个主上不冲突 b)方案二:见下文 58同

关系型数据库与NOSQL(转)

出处:http://www.cnblogs.com/chay1227/archive/2013/03/17/2964020.html 关系型数据库把所有的数据都通过行和列的二元表现形式表示出来. 关系型数据库的优势: 1. 保持数据的一致性(事务处理) 2.由于以标准化为前提,数据更新的开销很小(相同的字段基本上都只有一处) 3. 可以进行Join等复杂查询 其中能够保持数据的一致性是关系型数据库的最大优势. 关系型数据库的不足: 不擅长的处理 1. 大量数据的写入处理 2. 为有数据更新的表做

快速排序思路整理

引言: 快速排序和归并排序是面试当中常常被问到的两种排序算法,在研究过数据结构所有的排序算法后,个人认为最复杂的当属快速排序.从代码量上来看,快速排序并不多,我之所以认为快排难以掌握是因为快排是一种递归算法,同时终止条件较多.如果你刚刚把快排的思路整理过一遍可能觉得不难,然而一个月之后呢? 面试要求的是临场发挥,如果不是烂熟于心,基本就卡壳了.在面试官眼里,你和那些完全不懂快速排序算法的菜逼是一样的,也许实际上你可能私底下已经理解很多遍了,然而并没卵.所以当下问题就是,如何将快排烂熟于心?我觉得

互联网数据库架构设计思路

一 .58同城数据库架构设计思路 (1)可用性设计 解决思路:复制+冗余 副作用:复制+冗余一定会引发一致性问题 保证"读"高可用的方法:复制从库,冗余数据,如下图   带来的问题:主从不一致 解决方案:见下文 保证"写"高可用的一般方法:双主模式,即复制主库(很多公司用单master,此时无法保证写的可用性),冗余数据,如下图   带来的问题:双主同步key冲突,引不一致 解决方案: a)方案一:由数据库或者业务层保证key在两个主上不冲突 b)方案二:见下文 5

初识关系型数据库(SQL)与非关系型数据库(NOSQL)

一.关系型数据库(SQL): Mysql,oracle 特点:数据和数据之间,表和字段之间,表和表之间是存在关系的 例如:部门表 001部分,   员工表 001 用户表,用户名.密码 分类表 和 商品表, 一对多关系. 优点:①数据之间有关系,进行数据的增删改查时非常方便的. ②关系型数据库 有事务操作. 保证数据的完整性 缺点:1.因为数据和数据之间有关系的,关系是由底层大量算法保证 大量算法会拉低系统运行速度 大量算法会消耗系统资源 2.海量数据的增删改查时会显得无能为力. 很可能宕机 3