牙疼用什么药| 农历今天什么日子| 医是什么结构| 蚰蜒吃什么| 脑溢血有什么症状| 椰子煲鸡汤放什么材料| 蝉吃什么食物| 牙根吸收是什么意思| 砷对人体有什么危害| 为什么心脏会隐隐作痛| 114514是什么梗| 打摆子什么意思| 不完全性右束支阻滞是什么意思| 胃疼检查什么项目| 早上流鼻血是什么原因| 刚拔完牙需要注意什么| 余什么意思| camouflage什么意思| 男宝胶囊为什么不建议吃| 红黄是什么颜色| bees是什么意思| 一什么永什么| 猫为什么流眼泪| 宁五行属性是什么| 抽筋吃什么药| 参保是什么意思| 梅毒是什么症状| 喝冰美式有什么好处| 兰花长什么样| 棋逢对手下一句是什么| 辰字属于五行属什么| 什么叫养生| 秋葵吃多了有什么坏处| 左边后背疼是什么原因| 什么发型适合自己| 肺结节有什么症状| 头痛到医院挂什么科| 高血压什么意思| 猩红热是什么症状| 用甲硝唑栓有什么反应| 月经期间吃什么| 黄花菜不能和什么一起吃| 山本耀司的品牌叫什么| 熊是什么意思| 阳虚吃什么调理| 什么玉便宜又养人| 史努比是什么品牌| 慢性子宫颈炎是什么意思| 鹿晗有什么歌| 下午两点多是什么时辰| 荨麻疹有什么忌口| 肝脏看什么科室| 滋阴润燥是什么意思| 头晕出虚汗是什么原因引起的| 闲敲棋子落灯花上一句是什么| 无事不登三宝殿什么意思| 三点水一个四读什么| 四风指什么| 有所作为的意思是什么| 怀疑心梗做什么检查| 为什么晚上睡觉老是做梦| 黄盖代表什么生肖| 朝秦暮楚是什么意思| 85年五行属什么| 什么的叶丛| 血常规一般查什么病| 卜卜脆是什么意思| 眼屎多用什么眼药水| 杵状指见于什么病| 你有毒是什么意思| 什么鱼是深海鱼| px是什么单位| 焦糖是什么糖| 货号是什么| md鞋底是什么材质| 上海市长什么级别| 为什么每天晚上睡觉都做梦| 现在开什么实体店赚钱| 耳目比喻什么| 生理曲度存在是什么意思| 咳嗽吃什么水果| 尿酸高能吃什么肉| 打豆浆用什么豆子| 什么是肾阴虚| 油边是什么肉| 什么样的智齿需要拔| 例假血发黑是什么原因| 血色素是什么意思| 灰面是什么面粉| 9月14号什么星座| 阴道清洁度三度什么意思| 病毒感染咳嗽吃什么药效果好| 墨子是什么家| 荷叶和山楂一起泡水有什么功效| 规格型号是什么意思| 合肥有什么好吃的| 拉拉是什么| 滇红茶属于什么茶| 恭送是什么意思| 贝壳吃什么| 血便是什么原因引起的| 梦见大鲤鱼是什么征兆| 男人尿道炎吃什么药最好| 落枕挂什么科| 男生回复嗯嗯代表什么| 副连长是什么军衔| 蟑螂屎长什么样| 梦见捡钱了是什么预兆| 酒精是什么| 做t是什么意思| 什么药治高血压效果最好| 1991年什么命| 古惑仔是什么| 什么地什么| 双侧中耳乳突炎是什么意思| 梦见吃酒席是什么预兆| 鹏字五行属什么| 减肥能喝什么饮料| 心脏疼吃什么药| 纪委是干什么的| 什么叫电解质| 持之以恒的恒是什么意思| 做梦被打了是什么意思| 茶苯海明片是什么药| 圹是什么意思| 生理年龄是什么意思| 人类的祖先是什么生肖| 混血是什么意思| cm医学上是什么意思| ky什么意思| 大是大非是什么意思| 中医为什么下午不把脉| 手淫导致的阳痿早泄吃什么药| 梅核气是什么病| 苯对人体有什么危害| gln是什么意思| 耳鼻喉科主要看什么病| 斜纹棉是什么面料| 喝老陈皮水有什么好处| 乙肝核心抗体阳性是什么意思| 尿道口感染吃什么药| 打完狂犬疫苗不能吃什么| 八珍胶囊适合什么人吃| 南什么北什么的成语| 金火什么字| 长沙有什么山| 甲状腺4a类什么意思| 为什么手机打不出去电话| 什么是高危行为| 舌头两边疼是什么原因| 三氧化硫常温下是什么状态| 左肩后背疼是什么原因| 什么是桥本病| 北瓜是什么| 放荡不羁爱自由什么意思| 为什么眼睛有红血丝| 为什么抽烟会恶心想吐| 血小板平均体积偏高是什么意思| 大头虾是什么意思| 炉果是什么| 区委书记是什么级别| 一饿就胃疼是什么原因| 问号像什么| 丙三醇是什么东西| 睡眠不好是什么原因引起的| 灼是什么意思| 原配是什么意思| 万圣节是什么时候| 好奇的什么| 头发硬是什么原因| 感染科主要看什么病| 2016年是属什么年| 低血压去药店买什么药| 减肥期间吃什么水果好| 西瓜有什么品种| 眉毛痒是什么原因| 为什么说冬吃萝卜夏吃姜| 坐骨神经有什么症状| 手术后吃什么补品好| 裸花紫珠是主治什么病| 送奶奶什么礼物好| 盆腔磁共振平扫能查出什么| 荆芥的别名叫什么| 肋骨外翻是什么原因| 花洒不出水什么原因| 乙肝表面抗体阳性什么意思| 氧化锌是什么| 尿常规查什么| waist是什么意思| 宝宝咳嗽吃什么药| 为什么老是打嗝| 大耗是什么意思| 女人脸肿是什么原因引起的| 骨折后吃什么恢复快| 8月11日是什么星座| 痛风要吃什么药好得快| td是什么意思| 胃窦粘膜慢性炎是什么病| 五月三十一号是什么星座| 万寿菊什么时候开花| 什么东西能加不能减| 天麻加什么治头晕| 口干口苦吃什么药好| 雪莲果什么季节成熟| 动脉硬化有什么危害| cdf1是什么意思| 尿检蛋白质弱阳性是什么意思| 嘴巴周围长痘痘是什么原因引起的| 三七治什么病最好| 清洁度三度是什么炎症| 单活胎是什么意思| 肌钙蛋白高是什么意思| 什么叫环比什么叫同比| 毛拉是什么意思| 张学良为什么被囚禁| 卡哇伊什么意思| pt是什么元素| 金银花洗澡对婴儿有什么好处| 系带割掉了有什么影响| pcm是什么意思| 乳化是什么意思| 大舌头是什么意思| 小孩子隔三差五流鼻血什么原因| 糖类抗原高是什么意思| 出道是什么意思| 一个月大的小狗吃什么| 海关是什么意思| 床上出现蜈蚣什么原因| 梨子什么时候成熟| 化学阉割什么意思| 泡泡像什么| 地下党是什么意思| 英红九号是什么茶| 去取环前需做什么准备| 茯苓的作用是什么| 氯胺酮是什么| 七匹狼男装是什么档次| 为什么打喷嚏会漏尿| 汽车抖动是什么原因| 皮肤发黑是什么原因引起的| 桑拿是什么| 茉莉花有什么功效| hbv是什么| 正师级是什么军衔| 微量元素挂什么科| 舔逼什么感觉| 梦见买衣服是什么预兆| 心慌吃什么药效果好| 左侧肋骨疼是什么原因| 尿酸ua偏高是什么意思| 离子四项是检查什么的| 压疮用什么药最快能好| 小郡肝是什么| 1212是什么星座| 多指是什么遗传方式| 程门立雪是什么生肖| img什么意思| 吃什么容易排便| 百香果和什么不能一起吃| 阿司匹林是什么药| 子宫直肠窝积液是什么意思| 睡觉开风扇有什么危害| 胆红素偏高挂什么科| 马卡龙是什么| 百度
无线组网 频道

SIGMOD2023:技术达人必须了解的数据库研究及前沿趋势

  作为数据库领域的“风向标”,SIGMOD会议拥有40年发展历史,每年为数据库领域提供大量高质量的研究论文和研究成果。可以说,SIGMOD代表行业最高水平,具有重要的学术价值和行业引导意义。那么,SIGMOD2023展示了数据库领域的哪些新进展、新方向?腾讯云数据库近期举办了《2023 SIGMOD 论文解读会》,针对机器学习、图计算、大模型、新硬件、数据库系统等前沿技术,邀请业内知名教授、学者进行了干货分享!

  1、 关于事务处理、搜索与数据分析研究方向

  在SIGMOD国际会议上,每年都会有大量高质量论文提交,但由于审核较严格,只有少量优秀的论文能够被录取和展示,近十年的接受率保持在20%左右。我国学者对SIGMOD的认可度很高,很多有代表性的论文为行业发展带来极大的参考价值。从2023年SIGMOD论文发表方向来看,和事务处理、向量数据库相关的话题,成为理论研究的重要方向之一。深圳大学特聘教授 秦建斌 老师,一直在研究数据库系统和数据质量相关的内容,其中与向量数据库关系密切的相似性搜索、高维向量等内容,都是研究重点。

  1) 事务处理

  推荐主题:

  l Transaction Scheduling :From Conflicts to Runtime Conflicts

  多线程事务调度算法研究:

  这是一篇来自于深圳计算科学研究院和爱丁堡大学合作的一篇论文,这篇论文是针对于大量并发事务需求做的多线程事务调度算法的研究。论文核心思想是,在多线程高吞吐量、高并发事务处理当中,现有的调度或者说叫事务划分的策略,会把有冲突的策略尽量划分到同一个区块里面,在一个线程里面去完成,由于T1、T2、T3之间冲突量比较大,会划分到一个区块里,另外一个线程会完成冲突率比较大的事务,利用并发控制(CC)的方法来完成并发控制。

  l Polaris:Enabling Transaction Priority in Optimistic Concurrency Control

  并行处理问题:

  在现有高并发事务情况下,一般会使用OCC协议这种策略,但OCC协议缺乏对优先级设置的通用支持,导致其难以应用于许多实际应用场景。在OCC协议下,需要在事务执行结束的时候才进行正确性检查,如果事情结束的时候发现冲突,可能会导致一些事务频繁的回滚,得不到更好的执行。所以,本文作者的优化方向是,在已有OCC并发控制协议下,加入了一些“令牌”的方式,来进行事务优先级的控制,比如:一个事务在考虑到它的重要程度或者在多次被回滚的情况下,会得到更高的优先级。这是一个非常有意思的方法,在一些比较极端的尾部延迟,时延在99%以上比较慢的情况下,会有效改善事务提交的成功率。

  l One-shot Garbage Collection for In-memory OLTP through Temporality-aware Version Storage

  基于steamGC的思想进行改进:

  steamGC在理想情况下能够将所有记录的版本链长度控制在当前所有所有活跃事务数量M之下。但是steamGC存在如下缺陷:steamGC会针对每个记录进行垃圾回收,因此会产生大量的随机访问,影响TP引擎的性能。oneshotGC则提出基于分区的版本划分,致力于一次回收一整个分区内的版本,以此减少随机访问。

  2) 估计和搜索

  推荐主题:

  l When Tree Meets Hash: Reducing Random Reads for Index Structures on Persistent Memories

  对基数树中的每个节点使用可扩展哈希:

  这种设计允许我们有一个相对较大的基数树的扇出(fanout),以保持树的高度较小,并且还实现了节点内的恒定时间查找。使用可扩展哈希还允许在插入和更新期间进行增量节点修改,而不会出现过多的写操作。通过在每个节点的哈希表中的键之间强制部分排序,而不会引入更多的哈希冲突,可以高效且健壮地处理范围查询。经典的可扩展哈希通过LSB(桶间/桶内无序)来索引桶,这不利于范围查询,所以此处的哈希表应用了类似CCEH的分层结构,通过在目录和桶中间引入segment层(由MSB索引,段间有序段内无序)达到支持范围查询的目的。

  l InfiniFilter: Expanding Filters to Infinity and Beyond

  无限过滤器:

  我们可以把过滤器可以看成类似于用来做过滤用的数据结构,过滤器或者这种数据结构是为了能够快速让用户,或者让系统能查询什么样的数据已经访问了,什么样的数据可能存在,什么样的数据不存在。为商数过滤器设计了一个无限扩张的过滤器之后,等于系统具备了无限扩展的能力。主要思想是,通过保留哈希值的商数,也就是哈希值上面那半段,使得上面半段做指纹的比对,保留上半段可以帮助商数过滤器进行扩展,在数据比较大的时候可以把哈希表往外扩。

  l Pea Hash: A Performant Extendible Adaptive Hashing Index

  哈希扩展:

  这是来自中科院的一篇关于哈希扩展相关的论文,但实现方式不一样。通常,我们在设计一个哈希表的时候,不知道需要设计多宽,希望哈希表能够自动去扩展。自动扩展的过程中有两种扩展:一种是存储空间的扩展;另外一个是哈希函数的扩展。本文主要思想是,引入了动态的哈希,当你的冲突并不是非常多的时候,只要有一个哈希函数就可以了,冲突比较大的时候,数据量比较大的时候,会采用2-Choise Hashing,用两个哈希函数来做一个选择。更极端的情况下,采用2-Choise Hashing加上其他Stash技术来做动态可扩展。

  l High-Dimensional Approximate Nearest Neighbor Search: withReliable and Efficient Distance Comparison

  高维向量搜索:

  我们在做高维向量搜索的时候,会获得大量信息,也需要做一些比对,当有几千维的高维向量,拿真实的场景和数据进行对比的时候,算真实结果的时候也会耗费很多时间,而基于ADSampling是递增计算距离的方法,就不用去完全比对。在ADSampling方法中,只要查询算法有欧式空间距离计算的环节,就可以采用ADSampling计算。一般先用随机正交矩阵对整个欧式空间进行随机旋转,之后再从头往后选取维度进行dis'的计算,以实现维度的抽取。

  l LiteHST: A Tree Embedding based Method for Similarity Search

  向量空间工作:

  在已有比较知名的HST数据结构上,tree embedding是树状的数据结构,上面进行了一些优化,一个是对保存结构做了优化,另外就是保存了更多的信息,用于更深入的剪枝,实验效果非常不错。

  3) 数据分析和数据科学流程

  l DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning over Tabular Data

  参数可调的预处理的pipeline:

  在一些机器学习任务中,预处理过程有可能占用大量时间,同时,预处理这个过程并没有真正参与到后面的机器学习参数学习的过程。Diffprep方法,是把一些预处理的工作标准化,再把标准化之后的预处理工作参数化,这种可以参数化的预处理的pipeline,可以直接参与到后面的机器学习过程中,为机器学习应用提供了一个很好的工具。

  l AutoOD: Automatic Outlier Detection

  异常值检测:

  很多人在做专用的异常值检测,当来了一个新的数据集,遇到新问题的时候,检测要重新训练、重新标注,本文提供了能够自动化跟人交互的方式下,自动化的一些方法。

  l HAIPipe: Combining Human-generated and Machine-generated Pipelines for Data Preparation

  将HI管道与AI管道相结合:

  本文的观点是,机器学习学出来的管道和人为写出来的管道有自己的优劣性,这个论文提出强化学习的方法,把人工写的广告和机器学习学出来的广告相结合来提升性能。

  除了事务处理、搜索与数据分析方向,GitTable大型语料库、利用表格的列类型和列关系来查找可连接表、混合数据匹配模型等话题也值得重点关注。通过对大量论文的梳理,秦建斌老师还发现:人工智能与数据库集成会持续是一个重要方向,超过15%的论文与此相关,表明将人工智能技术应用于查询优化、自动索引等方面有很大潜力;同时,云原生数据库会越来越受关注,近10%的论文探讨了Serverless、分布式系统等云计算话题,说明数据库向云平台迁移是重要趋势。

  2、新硬件为强大算力加速

  当人工智能与数据库深度集成,关于硬件的研究是行业关注重点。

  南方科技大学的助理教授 唐博 老师,主要分享了他们团队中稿件的三个方向:第一,基于Cardinality Estimation算法提出来一个端到端的加速技术;第二,如何基于Cardinality Estimation、PageRank这样的算法做大图的Visualization;第三,传统算法问题,比如:在有坡度的平面上怎么去找任意两点之间的最短距离,我们可以通过建立一个EAR-Oracle的方式去做这件事。

  推荐主题及介绍:

  l Distributed GPU Joins on Fast RDMA-capable Networks

  整个研究的目的是什么?关键词就是GPU!我们可以看到,CPU和GPU的性能特征是,CPU的内存很大,GPU的内存很小。CPU和GPU之间如果要做数据传输,需要通过PCIE,而PCIE很大,800GB和55GB,CPU和GPU之间的PCIe是12GB,这是一个瓶颈。同时,GPU的内存有限,当你要去用GPU的时候,怎么样快速执行。本文的解决方案是,把所有工作全部在CPU上做完,通过单边的RDMA,把数据传到GPU上去,在GPU上做Join的操作,有效解决了内存不足的问题。

  l Design Guidelines for Correct, Efficient, and Scalable Synchronization using One Sided RDMA

  如果我们的机器是建立在云原生上面,建立在分段解耦的架构上面,分段解耦之后有网络层用到RBMA去做内存访问,内存下降之后,我们怎么样去做一个正确的、高效和可扩充的同步协议,应该是年轻一代应该研究的方向。

  l Selection Pushdown in Column Stores using Bit Manipulation Instructions

  本篇论文出自微软研究院的一个专家,他用BMI Instructions去做Selection Pushdown,使得性能加速。他在2013年做过一次,类似于把Bitweaving拿出来操作;10年后,这个人又把英特尔用的BMI,也就是原本用的Software的比较,用BMI来做,在两种CPU上面进行操作的时候,性能有很大的提升。

  l Design and Analysis of a Processing-in-DIMM Join Algorithm: A Case Study

  这是一篇来自韩国团队的论文,是一个关于新奇硬件的研究。毋庸置疑,Join在RDBMS中是一个特别重要的操作,而Join High memory access bandwidth是加速join的核心问题或者核心机制,他提出在现有系统里面data和CPU的处理,其实是受了memory wall的影响,如果在memory里面有PIM,PIM就是Process-in-memory这样的硬件的话,可以把数据在PIM里面先处理,再拿到CPU上面去。

  l Ready to Leap (by Co-Design)? Join Order Optimisation on Quantum Hardware

  这是一篇来自超级大佬的脑洞大开,有点类似天外飞仙的感觉。他通过Co-Design,把Join Order的Optimisation和Quantum Hardware联系起来,把这个Join on Quantum Hardware做了很快的一些转换,变成mixed integer linear program的问题。

  除了端到端的加速技术和很多查询优化、算法优化等工作,还有Graph方向也就是研究重点,比如:基于PageRank算法做大图的Visualization等等,都是非常有意思的话题。

  3、 FlexMoE机器学习优化大模型训练

  在SIGMOD2023会议上,很多人在关注数据管理和机器学习相关工作,比如:如何利用机器学习以及数据管理的思路去优化大模型的训练系统。

  卡耐基梅隆的博士后研究员 苗旭鹏,主要介绍了两个部分的工作:第一部分,在以数据为中心的MLSys方面的最新进展;第二部分,关于MLSys研究趋势的看法以及被接受论文的案例研究。

  以FlexMoE为例,这是一个通过动态设备放置器缩放大规模稀疏预训练模型的训练。FlexMoE是针对稀疏的预训练模型,也就是MoE这种多专家混合模型进行动态资源放置的优化工作,该工作由北京大学软件研究院,CMU,还有北京智源等单位的作者共同完成。

  在过去这一年里,大模型变得越来越火,目前业界比较领先的transformer模型,大概在每两年750倍这样的速度进行增长,这样的模型规模增长也给底层GPU的硬件加速器带来非常大的压力,不管在计算和存储上都面临严重的瓶颈。

  MoE模型,是由谷歌提出的一种非常友好的具备很好的可扩展性的大模型,因为在原来稠密的transformer模型基础之上引入了稀疏特性,这也就导致随着模型规模的增长,我们可以获取一定模型效果的提升,但同时由于稀疏性可以保证计算量维持在常量水平。尽管MoE模型很容易覆盖到比较大的规模,但是现在的系统并不是非常适合进行这样模型的训练。一个主要的挑战就是,MoE模型当中具有不均衡和动态的负载变化,从而导致我们GPU的利用率可能比较低。现有的系统,比如说像开源的DeepSpeed系统,通常采用一些系统友好的解决方案,但是可能会影响最终模型的效果。

  一类方法是,去给每个专家网络能够接收的最大token设置一个容量的上限,但是这也会导致额外的问题,当我们的输入数据超过专家所能承载的容量之后,这些数据会被丢弃掉。最后,优化的策略是,主要是针对MoE模型训练当中不平衡和动态变化的负载特性进行优化,提出细粒度基于expert进行复制和调整的解决方案,通过动态管理可以使得专家到GPU设备的映射关系进行一些优化,从而降低不同GPU之间的通信,使得我们的端到端的训练效率得到显著的提升。

  4、图数据管理和挖掘成为重要课题

  在香港中文大学深圳校区的 方一向 教授看来,图数据非常普遍,在DBLP文献网络、生物蛋白质网络,知识图谱领域,都是图数据诞生的重要领域。图数据作为典型的大数据,具有“三维”特点,所以围绕大规模图数据这些年的研究,趋之若鹜。在SIGMOD2023,有599篇投稿,最后收了171篇,大概有90篇论文是graph相关方向。分别是:搜索与挖掘、模式子图匹配、还有路径、可达性以及连通性,包括图计算的系统、图表达学习、随机游走、知识图谱、Diffusion and Propagation等等。

  推荐主题:

  1)图搜索、图挖掘



  对这个课题研究已有40多年,针对密度的定义,最原始的密度定义就是边数除以点数。比如:一个密度最大的图,由于子图的个数是指数级爆炸的,所以这个问题求解起来是代价非常高,后面40年来,很多人都在研究,其中各种各样的密度定义还有不同的算法。本文发现,已有算法有一个很大的缺点,很少有算法能够支持任意不同的密度,而基于用c-core来解这个问题,可以解决传统方法带来的挑战。

  2)一种基于目标模式的子图匹配


  随着图的变化,match也会发生改变,怎么快速找到变化的match,这就是本文的关键点。本文研究主要分两个方向:第一,找一些候选集;第二,增量式的产生match。第一步可以找到candidate maintenance结果存储在哪,随着边的参数删除,就会把结果repot出来。Incremetal match generation dominates the oveall cost是第二步,第一步通常只占了0.5%,甚至更小。这篇论文主要思路就是说提出新的index,index尽可能少,基于index可以形成一个快速的incremental matching算法。

  3)可达性、连接性和最短路径


  这篇论文提出一个概念叫k-hop constrained s-t Simple Path Graph,一个Graph包括所有s-t simple path,这个问题是第一次被提出来,它可以包含所有s-t simple path。有了这个方法之后,其他操作就变得非常简单了。

  总结:

  通过SIGMOD2023干货解析,让我们更加清楚地看到,诸多热点技术背后,已不只是系统性的研究。不管是向量数据库、机器学习、新硬件还是图,已经有一些前沿实践,以及技术路线方案,让我们永葆技术热情,始终屹立于时代之巅。期待SIGMOD2024会更精彩,会有更多来自中国的优秀研究项目,在业界脱颖而出。

1
相关文章