为什么超长列表数据的翻页技术实现复杂

为什么超长列表数据的翻页技术实现复杂

http://timyang.net/data/key-list-pagination/

今天讨论了一个传统的问题,问题本身比较简单,就是针对key-list类型的数据,如何优化方案做到性能与成本的tradeoff。Key-list在用户类型的产品中非常普遍,如一个用户的好友关系 {“uid”:{1,2,3,4,5}},表示uid包含有5个好友;一条微博下面的评论id列表{“weibo_id”: {comment_id1, comment_id2……}},一个用户发表的微博id列表等。

在list长度较少时候,我们可以直接的使用数据库的翻页功能,如

SELECT * FROM LIST_TABLE LIMIT offset, row_count;

根据经验,在大部分场景下,单个业务的list数据长度99%在1000条以下,在数据规模较小时候,上面的方法非常适合。但剩下的1%的数据可能多达100万条,我们把这种单个列表记录数非常大的数据集合称为超长列表。在超长列表中,当访问offset较大的数据,上述方法非常低效(可参看Why does MYSQL higher LIMIT offset slow the query down?),但在实现方案的时候不能忽视这些超长列表的问题,因此要实现一个适合各种变长list的翻页方案,考虑到数据的长尾问题,并没有简单高效的方案。这也体现了常说的80%的时间在优化20%的功能。

List数据访问模型常见的有两种方式

1. 扶梯方式 扶梯方式在导航上通常只提供上一页/下一页这两种模式,部分产品甚至不提供上一页功能,只提供一种“更多/more”的方式,也有下拉自动加载更多的方式,在技术上都可以归纳成扶梯方式。 (图:blogspot的导航条)

(图:很多瀑布流式的产品只提供一个more的导航条)

扶梯方式在技术实现上比较简单及高效,根据当前页最后一条的偏移往后获取一页即可,在MySQL可使用以下方法实现。

SELECT * FROM LIST_TABLE WHERE id > offset_id LIMIT n;

由于where条件中指定了位置,因此算法复杂度是O(log n)

2. 电梯方式 另外一种数据获取方式在产品上体现成精确的翻页方式,如1,2,3……n,同时在导航上也可以由用户输入直达n页。国内大部分产品经理对电梯方式有特殊的喜好,如图 (图:timyang.net 网站的导航条)

但电梯方式在技术实现上相对成本较高,当使用以下SQL时

SELECT * FROM LIST_TABLE LIMIT offset, row_count;

我们可以使用MySQL explain来分析,从下文可以看到,当offset=10000时候,实际上MySQL也扫描了10000行记录。

为什么会这样?在MySQL中,索引通常是b-tree方式(但存储引擎如InnoDB实际是b+tree),如图 从图中可以看到,使用电梯方式时候,当用户指定翻到第n页时候,并没有直接方法寻址到该位置,而是需要从第一楼逐个count,scan到count*page时候,获取数据才真正开始,所以导致效率不高。对应的算法复杂度是O(n),n指offset,也就是page*count。

另外Offset并不能有效的缓存,这是由于 1、在数据存在新增及删除的情况下,只要有一条变化,原先的楼层可能会全部发生变化。在一个用户并发访问的场景,频繁变化的场景比较常见。 2、电梯使用比较离散,可能一个20万条的list,用户使用了一次电梯直达100楼之后就走了,这样即使缓存100楼之下全部数据也不能得到有效利用。

以上描述的场景属于单机版本,在数据规模较大时候,互联网系统通常使用分库的方式来保存,实现方法更为复杂。 在面向用户的产品中,数据分片通常会将同一用户的数据存在相同的分区,以便更有效率的获取当前用户的数据。如下图所示 (图:数据按用户uid进行hash拆分)

图中的不同年份的数据的格子是逻辑概念,实际上同一用户的数据是保存在一张表中。因此方案在常见的使用场景中存在很大不足,大部分产品用户只访问最近产生的数据,历史的数据只有极小的概率被访问到,因此同一个区域内部的数据访问是非常不均匀,如图中2014年生成的属于热数据,2012年以前的属于冷数据,只有极低的概率被访问到。但为了承担红色部分的访问,数据库通常需要高速昂贵的设备如SSD,因此上面方案所有的数据都需要存在SSD设备中,即使这些数据已经不被访问。

简单的解决方案是按时间远近将数据进行进一步分区,如图。

注意在上图中使用时间方式sharding之后,在一个时间分区内,也需要用前一种方案将数据进行sharding,因为一个时间片区通常也无法用一台服务器容纳。

上面的方案较好的解决了具体场景对于key list访问性能及成本的tradeoff,但是它存在以下不足

  • 数据按时间进行滚动无法全自动,需要较多人为介入或干预
  • 数据时间维度需要根据访问数据及模型进行精巧的设计,如果希望实现一个公用的key-list服务来存储所有业务的数据,这个公用服务可能很难实现
  • 为了实现电梯直达功能,需要增加额外的二级索引,比如2013年某用户总共有多少条记录

由于以上问题,尤其是二级索引的引入,显然它不是理想中的key list实现,后文继续介绍适合超长列表翻页key list设计的一些思路及尝试。

如想及时阅读Tim Yang的文章,可通过页面右上方扫码订阅最新更新。

« Kubernetes – Google分布式容器技术初体验 | Feed消息队列架构分析 »

12 Comments  »

  1. pi1ot

    14-12-04 10:19

    分离保存可显示的数据和已被删除的数据,保证可显示的数据索引是连续的,就可以做到常量时间跳到指定页面,再额外维护一个数据的总数,计算页数也很简单。

  2. heji

    14-12-04 17:36

    “互联网系统通常使用分库” 请教一下,分库的设计思想一般有哪些?最简单的ID的奇偶来做分库吗? 这个问题一直都很有疑惑,以及比较少的经验,期待各位大神给点建议,谢谢!

  3. heji

    14-12-04 17:38

    接上问,或如案例中说到的,按照访问数据的热门程度来做分库?

  4. 丽丽

    14-12-04 17:55

  5. gongweixin

    14-12-13 20:48

    由于where条件中指定了位置,因此算法复杂度是O(log n), 这个是怎么算的? 还有贵博客的RSS订阅不可用了啊?

  6. Tim

    14-12-13 21:17

    RSS是http://timyang.net/feed/ 我看了下,可以返回最新内容的。

  7. wmc

    14-12-19 23:55

    这是所谓的mysql 分代的意思??

  8. wmc

    14-12-19 23:59

    数据请求能不能用cursor 的方式,用 id >= cursor 的方式,每次请求count +1 个数据,通过获取个数判断是否有下一页。

  9. 1053734086

    14-12-24 08:44

    保存了记录个数的二级索引的引入会导致什么问题啊?是容易在写入的时候形成热点吗?

  10. j.vonneumann

    15-01-08 10:03

    为啥是O(log n)? 不是说了索引是B-tree么,那可不就是这个复杂度么 应该先讲索引数据结构^_^

时间: 2024-10-08 11:54:42

为什么超长列表数据的翻页技术实现复杂的相关文章

用PHP读取MyAQL表单中全部数据并将数据整理翻页

要注意的是我们的PHP是嵌入在html中的 <html> <head> <title></title> <meta http-equiv="Content-Type" content="text/html;charset=UTF-8"/> <style type="text/css"> </style> </head> <body> <

使用原生JS实现表格数据的翻页功能

使用原生JS实现如下图所示表格数据的翻页功能: HTML代码: <body> <div id="title"> <h1>表格标题</h1> </div> <table id="table" border="1"></table> <div id="pagination"> <button id="prev"

前嗅ForeSpider教程:采集表格/列表页中的数据(翻页)

以孔夫子旧书网的最近出版板块为例(http://www.kongfz.com/1004/)为例,采集列表页的所有数据:第一步:新建任务①击左上角"加号"新建任务,如图1: ②在弹窗里填写采集地址,任务名称如图2:③点击下一步,选择进行数据抽取还是链接抽取,本次采集需要采集当前板块的列表页所有内容,所以只需要在同一个模板中进行翻页链接抽取以及数据抽取即可.此处需要勾选"抽取链接"-"普通翻页"以及"抽取数据",如图3: 第二步:

翻页技术实现(转)

原地址http://timyang.net/data/key-list-pagination/ Thursday, Dec 4th, 2014 by Tim | Tags: mysql, nosql 今天讨论了一个传统的问题,问题本身比较简单,就是针对key-list类型的数据,如何优化方案做到性能与成本的tradeoff.Key-list在用户类型的产品中非常普遍,如一个用户的好友关系 {“uid”:{1,2,3,4,5}},一条微博下面的评论id列表,一个用户发表的微博id列表等. 根据经验

Atitit.pagging &#160;翻页功能解决方案专题 与 目录大纲 v3 r44.docx

Atitit.pagging  翻页功能解决方案专题 与 目录大纲 v3 r44.docx 1.1. 翻页的重要意义1 1.2. Dep废弃文档   paip.js翻页分页pageing组件.txt1 1.3. ---原理1 1.4. -------lib1 1.1.   翻页的重要意义 技术上,商业上,翻页都是一个非常高频率的功能.. 提升高频功能的效率,可以大力提升项目整体效率.. 效率优化的重要原则就是高频功能效率优化 1.2. Dep废弃文档   paip.js翻页分页pageing组件

Symfony2框架实战教程——第三天:用KnpPaginatorBundle实现翻页

创建业务数据模型 新闻数据算是我们业务模型里必不可少的模型之一.根据我们之前对需求的分析,我们可以很容易想到,新闻模型News需要的属性: 标题属性 文本属性 接下来,我们要在AppBundle里创建它,但是这些数据还需要一个持久层来保存数据,例如之前配置的Mysql.目前流行的开发方式,无论是Java还是ROR,都会使用ORM将数据库字段和类属性关联起来. Symfony2框架本身并不包含ORM工具(严格意义上来说,Symfony2框架,即FrameworkBundle,不包含ORM,安全组

Atitti usrQBf1801 翻页控件规范 &#160;v2

Atitti usrQBf1801 翻页控件规范  v2 1. 参考api  参考easyui ,.net系列的1 1.1. 翻页流程  初始化翻页控件,以及绑定新页面event onSelectPage2 1.2. 点击下一页2 1.3. 回调新页面时间获取数据,然后绑定在控件上们3 1.4. 翻页技术原理的的参考::4 1.1. 参考api  参考easyui ,.net系列的 翻页api应该参考easyui ,.net系列的 onSelectPage  (pageNumber, pageS

前嗅ForeSpider教程:采集表格/列表页中的数据(不翻页)

第一步:新建任务 ① 击左上角"加号"新建任务,如图1: [图1] ②在弹窗里填写采集地址,任务名称如图2: [图2] ③点击下一步,选择进行数据抽取还是链接抽取,本次采集需要采集当前页面列表中的所有内容,所以只需抽取列表数据即可,点击"抽取数据",如图3: [图3] 第二步:创建/选择表单 在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单.此处使用的是的前嗅的表单,如图4 方法一

vue10行代码实现上拉翻页加载更多数据,纯手写js实现下拉刷新上拉翻页不引用任何第三方插件

vue10行代码实现上拉翻页加载更多数据,纯手写js实现下拉刷新上拉翻页不引用任何第三方插件/库 一提到移动端的下拉刷新上拉翻页,你可能就会想到iScroll插件,没错iScroll是一个高性能,资源占用少,无依赖,多平台的javascript滚动插件.iScroll不仅仅是 滚动.它可以处理任何需要与用户进行移动交互的元素.在你的项目中包含仅仅4kb大小的iScroll,你的项目便拥有了滚动,缩放,平移,无限滚动,视差滚动,旋转功能.iScroll的强大毋庸置疑,本人也非常欢迎大家使用iScr