VLDB 2019:

纵览数据库顶会VLDB 2019论文,我们发现了六大发展动向

作者 | 韩硕

【导读】一年一度的数据库领域顶级会议 VLDB 2019 于当地时间8月26日-8月30日在美国加利福尼亚州洛杉矶召开,探讨交流数据库领域最前沿的技术和发展方向。

在本届大会上,腾讯公司与中国人民大学、新加坡国立大学合作,投中 Industry Paper 两篇。其中 TDSQL 团队的论文工作“A Lightweight and Efficient Temporal Database Management System in TDSQL”,介绍了基于分布式事务数据库 TDSQL扩展而来的全时态数据库系统T-TDSQL。该系统在保证OLTP性能的前提下,提供了轻量级的全时态数据管理功能和全时态数据的事务处理能力、以及集当前态数据于生产系统集历史态数据于分析型系统的集群架构,构成了全时态数据的完备解决方案。

在大会召开后,腾讯 TDSQL 团队对本届大会的论文进行了汇总归纳,萃取精华与读者一同分享。

VLDB 简介

VLDB会议的全称是Very Large Data Bases Conferences,由 VLDB Endowment 主办,来自全球各地的数据库相关领域研究人员、供应商、参与者、应用开发者等共同参与和关注的国际重大学术会议。其目的在于促进和交换全世界范围内的数据库及其相关领域中的前沿学术工作。VLDB 与 ACM 主办的 SIGMOD、IEEE 主办的 ICDE 合称数据库领域三大顶级会议。而在发表论文难度和受关注程度上,VLDB 与 SIGMOD 可谓并驾齐驱。

值得一提的是,与多数计算机领域学术会议一年一次或两次的投稿周期不同,VLDB Endowment自 2008 年以来建立了 PVLDB(The Proceedings of the VLDB),此后以期刊的形式评审论文,每一个月为一次投稿周期,即每个月的1号为上个月投稿周期的截止时间,一年有12次投稿机会。而审稿周期较传统期刊更短,论文作者一般会在一个半月到两个月的时间内收到评审意见反馈。在每年的 VLDB 会议上,一年以来被 PVLDB 收录的论文将进行集中报告。

VLDB 2019

本年度的 VLDB 会议已是第 45 届会议,于8月26日至30日在美国西海岸的著名城市洛杉矶举办。大会议程包括3个主题演讲(Keynote)、28个学术论文报告分会(Research Session)、4个工业界论文报告分会(Industry Session)、2个工业界邀请演讲(Invited Industry Talks)、2个系统展示论坛(Demo Session)、7个教程(Tutorial),以及博士生论坛(PhD Workshop)和多个子研讨会(Workshop)等。共历时5天,其中首尾两天是各个Workshop,正会3天。

今年一共有 128 篇 Research Paper,22 篇 Industry Paper,以及 48 篇 Demo Paper 入选。与去年相比,收录的 Research Paper 和 Demo Paper 数量保持基本稳定,而 Industry Paper 有了显著的提升,从去年的12篇增加到今年的22篇。从投稿数量与录用率来看,Research Paper投稿677篇,录用率18.9%,Industry Paper为72/30.6%,Demo Paper为127/37.8%。与去年相比,Research Paper的投稿数量略有下降,录用率则基本持平。

从工业界论文的收录数量增加可以看出,今年的 VLDB 会议学术界和工业界合作交流趋势进一步增强。而且除了 Industry Paper 以外,在 Research Paper 中也有许多工作是由企业或企业与高校联合完成的,例如 Google、Microsoft、IBM 和国内的阿里巴巴均有多篇 Research Paper 入选。大会的程序委员会中也能见到诸多业界人士担任分会主席或审稿人。

国内方面,今年由大陆高校(不含港澳台)和企业主导或参与的 Research Paper 共有 27 篇,数量上与去年相比略有提升,其中清华大学、浙江大学等高校均发表了多篇论文。来自大陆高校的论文中,最主要的研究方向集中在图数据和机器学习,其中有 7 篇论文与图数据相关。从往年大陆高校在 VLDB、SIGMOD 等数据库会议的论文发表情况来看,图数据一直是华人学者比较强势的研究方向。此外,在查询优化、隐私保护、空间数据、众包、区块链等主题上,国内高校也均有涉及。国内业界对于数据库学术会议的参与度进一步提高,腾讯、阿里巴巴、华为等国内企业在本届会议上均有论文发表,研究方向主要集中在 RDBMS 和分布式系统。

接下来,本文主要从论文分布和技术发展动向对本届 VLDB 论文进行概览。

论文总体分布情况

为了便于统一安排论文报告分会的时间长度,本届大会将论文粗略地按照研究方向均分为了 28 个 Research Session 和 4 个 Industry Session,每个 Session 有 4-5 篇论文进行报告。

由于论文的研究方向分布不均衡,热门的方向会安排多个 Session,例如事务处理、查询优化、分布式系统和图数据,而论文数量较少的不同方向可能混杂在同一个 Session 中,因此各 Session 之间的界限和层级关系并不太清晰。

我们阅读了全部论文的内容,在 Session 划分的基础上,根据每篇论文的研究方向以及针对的数据类型,将论文进行了更加细致清晰的分类,便于大家了解各个领域的研究热度。

图1. VLDB 2019 各领域论文分布

图2. VLDB 2018 各领域论文分布

因为存在一篇论文涉及多个领域的情况,因此图1中各个领域论文的数量之和大于了总论文数量。从图1的分布情况可以看出,关系型数据库(RDBMS)的研究仍然是主流,但总体数量上比去年(见图2)有所减少(今年34,去年42),占总论文数量的约1/4;其次是关于图数据和图数据库系统的研究,相关论文涉及了大规模数据图上的子图匹配、社团发现、带约束的最短路径查询等经典算法问题,以及分布式环境下的图分割等问题。除了关系数据模型的统治地位不可撼动之外,近年来图数据模型也逐渐被应用于实际业务中。而无论是关系型数据、图数据或是其他数据类型,查询执行和查询优化始终是性能优化的核心问题。随着移动互联网、物联网近年来的快速发展,不断催生了依赖于时空信息且实时性强的应用,因而时空数据和流数据的相关论文在本届会议上也占据了一席之地。此外,机器学习与数据库逐渐联系紧密,也有一些论文尝试使用机器学习算法来优化查询算法。

RDBMS 中各子领域论文分布情况

在与RDBMS相关的论文中,我们进一步按照其涉及的子领域进行细分,如图3所示。本届会议上有关事务处理的论文数量与去年(见图4)相比有明显增加,分布式事务处理既是难点也是热点。而查询优化、存储优化、缓存优化这些与性能密切相关的主题始终是数据库领域研究的核心。此外,研究者们逐渐意识到如何促进用户更方便直观地访问数据库是一个需要解决的重要问题,学术界将其定义为数据可用性(Data Usability)问题,因而近年来也有不少论文围绕这一问题研究了交互式访问接口、数据可视化等技术。

图3. VLDB 2019 RDBMS子领域论文分布

图4. VLDB 2018 RDBMS子领域论文分布

来自工业界的论文

工业界的论文来自 Google、Microsoft、IBM、Amazon、Facebook、SAP、eBay,以及国内的腾讯、阿里巴巴、华为等企业。除了 20 篇 Industry Paper 之外,据统计,在 Research Paper 中由企业独立完成或主导完成的论文有 11 篇,企业与高校合作的论文有 17 篇,占到 Research Paper 的 1/5;而 Demo Paper 中,也有 14 篇企业主导或参与的论文。由此可见工业界在数据库研究中参与度之高,企业与高校的合作日益密切。明显感到与学术界论文的区别是,工业界的论文更加注重系统实现和业务落地,而学术界论文则侧重于某个技术难点或者说算法问题的攻关。两者的优势结合则更有可能产出高质量的研究成果。

数据库技术发展动向

我们从本届 VLDB 论文中尝试观察总结数据库技术发展的新动向,抛砖引玉,期待与读者共同交流。如下是本届大会论文讨论到的一些重要话题。

分布式事务处理

随着摩尔定律的停滞失效,单机存储和计算能力增长遇到了瓶颈,现代数据库系统也朝着分布式多机集群发展,而其中遇到的最大的技术挑战即是分布式事务处理。如何保持分布式数据的一致性,事务隔离性不同级别的高效实现,都有待进一步深入研究。在本届 VLDB 中,事务处理的相关论文数量也有了明显增加。

例如论文“Adaptive Optimistic Concurrency Control for Heterogeneous Workloads”提出了一个简单有效的AOCC(自适应乐观并发控制)框架。根据查询读取的记录数,以及涉及更新操作的并发事务的写大小,AOCC自适应地选择合适的Validation 策略来降低开销,从而在不牺牲可串行化的前提下提升异质负荷的性能。论文“Improving Optimistic Concurrency Control Through Transaction Batching and Operation Reordering”则通过事务的批量执行和操作的重排序来提升OCC性能。恰巧,TDSQL的第二代事务处理机制,也是基于OCC机制,期待能有机会和大家深入进行探讨。

论文“SLOG: Serializable, Low-latency, Geo-replicated Transactions” 指出,现有的支持异地备援(Geo-replicated)的数据库通常需要在三个方面做取舍:(1)严格可串行化,(2)低延迟写入,(3)高事务处理吞吐量。该论文提出的SLOG系统利用了物理分区的局部性特征,能够同时满足以上三个要求。

在事务处理中,数据的故障恢复机制是很复杂的一项。传统的数据库实现通常需要维护WAL(Write Ahead Log)和数据本身的持久化存储,而且恢复算法渗透到了系统的各个模块,即数据库的各个模块在设计和实现时都需要考虑恢复功能的正确性,以保持事务的原子性。论文“FineLine: Log-structured Transactional Storage and Recovery” 中提出了FineLine——一个事务存储和恢复机制,舍弃了传统WAL,将所有需要持久化的数据存储到一个单一的数据结构,达到了数据库的持久化部分和内存中数据之间的设计解耦。

区块链技术 & Best Paper Award

区块链也是当下的热门话题之一,本届 VLDB 增加了一个关于区块链的单独 Session,共有 4 篇论文入围。值得一提的是,本届 VLDB 的 Best Paper Award 颁予了论文“Fine-Grained, Secure and Efficient Data Provenance on Blockchain Systems”。

这篇最佳论文的研究动机是,区块链系统还没有一个方便的方法来追溯数据的起源和变迁(Lineage,血统),只能依靠回放事务来重现过去的状态,这种方式适用于大规模的线下分析,但是不适合线上的事务处理系统。论文给出一个简单的例子:账户A给B转账,要求近期账户B的每日余额位于某一阈值以上,才可转账,现有系统需要重放近期B账户每天的交易,才能作出转账的决策。为了解决这样的问题,该论文提出了LineageChain系统,能够做到细粒度、安全高效地回溯区块链数据。LineageChain基于Hyperledger实现,底层存储为ForkBase(同一团队研发的面向区块链的存储系统,论文发表于VLDB 2018,“ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications”)。论文提出了一种新型的索引,针对区块链数据起源和变迁的查询作出优化。在线交易进行时,LineageChain能够精细、安全地保留下数据的变迁,并且对外提供简单的接口来访问这些数据变迁。

这篇论文提及“The management of that history, also known as data provenance or lineage, has been studied extensively in database systems.”,其实,这是对于历史数据的一种管理理念,其核心是认为“历史数据具有价值”。这一理念,使得数据处理系统的数据处理疆域扩展,延伸到了历史数据的存储、管理和计算领域,非常有意义。作为“Best Paper”,该文有许多值得我们学习之处。而异曲同工的是,腾讯TDSQL在本届VLDB投中的《A Lightweight and Efficient Temporal Database Management System in TDSQL》一文,系统地阐述了腾讯TDSQL对于历史数据管理的完备方案和主要技术:从数据生命周期到全时态数据模型的建立、从事务处理到分布式系统的全局读一致,从查询优化到索引建立,从事务型生产系统到分析历史数据的分析型集群的数据无损、性能无损的体系结构的一体化构建,表明了腾讯公司TDSQL系统处理历史数据的完备性、先进性,以及技术的前瞻性。

无独有偶,AWS在2018年底发布的QLDB(Quantum Ledger Database(量子账本数据库)),也意在解决历史态数据的存储、管理和计算。详情可参考《论亚马逊QLDB与腾讯TDSQL对历史数据的管理和计算》

新硬件

新的存储硬件和计算硬件,例如NVM、SSD、NUMA,SIMD、多核CPU、GPU、FPGA等,为数据库性能的scale up带来了新的机会。如何充分利用新硬件的优势来提高数据库性能也是近年来的研究热点之一。本届VLDB有多达9篇论文涉及该方向,提供了使用GPU、SIMD加速RDBMS或者机器学习平台的并行计算能力,使用NUMA实现分布式数据库的高可用数据复制方案等新技术思路。

机器学习平台

机器学习、深度学习作为时下最为火热的研究领域,也受到了数据库学者的广泛关注。机器学习、深度学习算法通常是计算密集型任务,而且在实际应用中训练数据通常也远超单机所能承受的数据规模,因此如何利用大数据分布式存储与计算能力,为用户提供一站式的机器学习和深度学习平台服务,是两者的契合点。一个明显的体现是最近三年来的数据库领域会议如 VLDB、SIGMOD 增加了机器学习相关的 Track。

使用机器学习算法优化DBMS性能

这是机器学习与数据库技术的另一个结合点。例如论文“Towards a Learning Optimizer for Shared Clouds”研究了在多租户云数据库环境下,使用历史查询的执行统计数据进行训练学习,来预估未来查询的中间结果基数大小,从而指导生成更优的查询计划。此外,近两年的VLDB、SIGMOD也有使用机器学习模型来优化索引结构、存储、参数自动调优的相关研究工作。

图数据库与图计算平台

相比于关系表结构,图模型更能灵活地表示事物实体之间的关联关系。随着知识图谱的普及和应用,对图数据的研究在数据库领域占据了一席之地。但与关系表的Lookup、Scan、Join等基本操作不同,图的各种算法操作种类繁多,而且其中很多算法复杂度较高。大规模图数据的存储、查询和各种分析计算,成为了新的技术难点。相关的研究内容有图数据库和图分析计算平台的构建。

以上介绍了这么多,大家对本届VLDB是不是有了更多的了解呢?欢迎与我们交流感想与思考。在后续的文章中,他二哥也会继续为大家带来更多的现场报道和技术分享,期待大家继续关注今年VLDB的动态哦!

本文作者介绍:

韩硕,2014年于北京邮电大学获得工学学士学位,2019年于北京大学获得理学博士学位。博士期间的主要研究方向为图数据管理和知识图谱。毕业后加入腾讯公司从事数据库技术研发工作。

  • hellocode24 天前

    文中提到的FineLine,并没有抛弃WAL,仍然是LogStructured的设计,

    ?赞?回复?踩?举报

  • rot.cx33 分钟前

    OCC比较适合具有冲突率极低, 短事务, touch的记录数目较少等特点的OLTP workload. "locking may be necessary only in the worst case"[1], 如果冲突极少, 加锁开销相对比较显著.

    OCC仅支持包括{read-only, update} transaction, 很显然, 不支持多次交互的conversational事务.

    ?赞?删除

  • rot.cx16 分钟前

    SLOG:
    SLOG uses locality in access patterns to assign a home region to each data granule. Reads and writes to nearby data occur rapidly, without cross-region com- munication. However, reads and writes to remote data, along with transactions that access data from multiple regions, must pay cross- region communication costs. Nonetheless, SLOG uses a determin- istic architecture to move most of this communication outside of conflict boundaries, thereby enabling these transactions to be pro- cessed at high throughput, even for high contention workloads.

    感觉一个数量级的提升,这个实验结果不一定 repeatable

    而且 dynamical remastering 对于频繁变化的 pattern 并不适用

    ?赞?删除

  • rot.cx5 分钟前

    FineLine:

    The distinguishing feature of FineLine in contrast to existing approaches is that it provides persistence without mapping data structures directly to a persistent storage representation.

    Following the WAL rule, a log record must be written before the affected page is written. FineLine, on the other hand, never flushes nodes or any other part of an in-memory data structure. Instead, it relies on the log, which is indexed for fast retrieval, as the only form of propagation to persistent storage. In order to retrieve a node into main memory, its most recent state is reconstructed from the log with the fetch operation.

    ?赞?删除

    • rot.cx1 分钟前

      FineLine:

      Sequential log变 Indexed log,实际 commit 写磁盘之前,先对 log 进行合并处理;

      然后核心是 对 Indexed log 的处理“very efficient”(如下):

      The commit queue is formatted as a log page that can be appended directly to the indexed log. Before the append occurs, the log records in this page are sorted primarily by node ID and secondarily by a node-local sequence number. This sort can be made very efficient if log pages are formatted as an array of keys (or key prefixes) and pointers to a payload region within the page.

原文地址:https://www.cnblogs.com/cx2016/p/11609300.html

时间: 2024-10-11 09:51:58

VLDB 2019:的相关文章

中国将有可能在全球化的背景下收获新的人口红利:3星|《<财经>2019:预测与战略》

<财经>2019 :预测与战略 <财经>杂志的年刊.内容是针对2019年的预测分析.我认为<财经>的调查报告比较有深度,分析则不是我爱看的类型. 总体评价3星,有参考价值. 以下是书中一些内容的摘抄,#号后面是kindle电子版中的页码: 1:北京最好的医院和中小学大都集中在四环.三环里.这道公共服务“悬崖”还存在于每个人身边,比如大家关注的世界上最好的大学校园大都是开放式的,而北大清华校园则是封闭式,因为北大清华校园内的公共服务和生态环境比校园外好得多,只要这道悬崖存

北航操作系统实验2019:Lab4-1流程梳理

北航操作系统实验2019:Lab4-1流程梳理 前言 操作系统的实验课实在令人头秃.我们需要在两周时间内学习相关知识.读懂指导书.读懂代码.补全代码.处理玄学bug和祖传bug,以及回答令人窒息的思考题.可以说,这门课的要求非常高,就个人感觉,远比计算机组成实验课要难受. 一方面,想要达到细致理解操作系统每个实现细节,非常困难,需要大量时间和经历的投入:但另一方面,如果我们能够理解了操作系统实现的每个细节,我们的水平也会有大幅度的提升.在这里,我记录下本次实验课下我的学习经历,如果有不对的地方,

IBM Think 2019:新一代IBM产品架构浮出水面,第四次转型进入下半场

"2012年,IBM在如日中天的时候,开始了第四次转型."IBM大中华区董事长陈黎明在2019年2月12日到15日美国旧金山举办的IBM Think 2019年度大会上,接受采访时谈了过去6年来的转型心路历程,"转型的第一要务是生存,再走向成功,再经历下一个转型."在2017年第四季度,IBM宣布结束了长达22个季度的营收下滑,2019年初底宣布2018全年实现营收增长.在这四次的转型生死大考中,IBM已经走过了"生存"阶段. 其实在整个第四次转

《使用CSLA 2019:CSLA .NET概述》原版和机译文档下载

自己从作者官方网站上(http://www.cslanet.com/)下载的免费版.PDF文档,又使用有道付款翻译的,供大家下载学习,文档中是对CSLA.NET4.9版本的介绍. 下载链接:http://www.oaflow.cn/CSLA 2019 - 01 Overview r0-1.zip 翻译结果部分截图: (内容如有问题请告知本人处理!) 原文地址:https://www.cnblogs.com/quluqi/p/10857020.html

微软开源 2019:“讨好”开发者,当开源圈的“万人迷”

又到了年末各种盘点出炉的时候,开源圈今年虽然没有"GitHub 被微软收购"."Red Hat 被 IBM 收购"如此重磅且出圈的新闻,但依然不失精彩.开源圈作为开发者密度最高的圈子,微软作为开发者群体中"***率"最高的商业公司,微软与开源之间的故事,天生自带流量属性. 本文就来和大家一起回顾微软在 2019 年与开源相关的重要事件 —— 主要是引发较多关注和广泛讨论的新闻. 为了更好地理解微软的开源 2019,下面我们将会按不同的领域而非时间

腾讯云 2019:一席之地与一段距离

中国第二大.亚太地区第四大的云服务商腾讯云正逐渐露出峥嵘. 2019 年 12 月 19 日,腾讯云行业方案总经理郑立鹏在微博上透露,腾讯云年度收入在 2019 年 Q3 突破 100 亿.这看起来是个不错的成绩——要知道,2018 年腾讯云全年的总营收为 97 亿. 此外,腾讯云业务营收在 2019 年 Q3 财报中被单独公开披露:腾讯云在该季度收入 47 亿元人民币,同比增长 80%.上一季度云业务收入还是"遮遮掩掩"地被包含在金融科技板块中:而更早之前的单独公开还要回追到 201

visual studio 2019:error c2760

笔者在敲书上的练习题时(完全按照书上代码,没有语法错误),报"error c2760"错误. 代码出错位置(代码并没有问题): 在网上查找了一下,发现"c2760"错误许多人都有遇到过,并且给出的解决方案是,在项目属性中,选择"c/c++",再选择"语言",在右侧将符合模式改为"否"即可.虽然错误详情有所不同,但如果报错"c2760"基本上就是通过这样的方法解决.笔者之前也碰到过这样的问

重点关注2019:多线程处理、高并发、网络安全(含答案)

重点关注:多线程处理.高并发.网络安全 jQuery? 1. jQuery 库中的$()是什么答:$()函数是jQuery()函数的别称,常用的方法. 2. 网页上存在5个<div>元素,如何使用和选择答:使用选择器,常用的选择器有id选择器.class选择器.标签选择器.eg:$("div")会返回所有的div标签的jQuery对象. 3. jQuery里的id选择器和class选择器的不同答:id选择器是使用id来选择元素,而class选择器是使用css class来进

win server 2019 :【2个?远程管理用户(单会话?)】升级为远程桌面服务【多用户(多会话)】

方法: 安装“远程桌面服务”,可以只选择“远程桌面会话主机”组件.重启计算机. 或,删除“[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Terminal Server\RCM\GracePeriod]”注册表项.重启计算机. 在组策略里,依次进入:计算机配置->管理模板->windows 组件->远程桌面服务->远程桌面会话主机->连接,将配置项“将远程桌面服务用户限制到单独的远程桌面服务会话” 为“已禁用” ,可以