阿里的一些论文

2020-05-20 tech alibaba paper theory 7 mins 2458 字

google，Facebook等国外大佬经常在顶级会议上（SOSP/PLDI/NSDI等等）发论文，阿里也发表了好些的论文。以前整理了相关东西，不成章法，凑了这篇文章，以后研究的话再捡起来。

SIGCOMM 2020

《VTrace: Automatic Diagnostic System for Persistent Packet Loss in Cloud-Scale Overlay Network》

超大规模下的云网络异常定位、

传统网络工具 VS 大数据染色报文分析

云网络碰到类似问题只能用网工三板斧来处理: 抓包，ping, trace。

阿里云网络团队首次采用大数据结合染色报文的方式，通过大数据技术给这个交警配备了一个超强的大脑，让他能实时处理千万级网络数据，同时，结合染色报文技术让所有网络里面的数据包信息实时传递给我们的云网络交警。最后的结果就是这个云网络交警能实时感知到整个云网络每台设备的丢包和拥塞情况。阿里云网络给这个交警取了一个名字，叫vTrace。当用户在上网过程中碰到网络问题时，vTrace能很快找到对应链路上出现问题的节点在哪里，解决了云网络排查问题难的痛点，加快用户网络问题恢复过程。

SIGCOMM2019

来自阿里云智能的两篇论文

《HPCC: High Precision Congestion Control》高速网络拥塞控制协议HPCC
- 阿里巴巴此前已通过对RDMA网络的改造，从网卡底层开始设计，结合自研交换机能力，建成全球最大规模的“RDMA高速网络”。
- 在这次的论文中，阿里巴巴就提出了一种全新的网络协议——新一代高速网络拥塞控制协议HPCC（High Precision Congestion Control），不仅保证传输性能快，还能保证传输稳定，真正适用于当下的网络需求。
《Safelyand Automatically Updating In-Network ACL Configurations with Intent Language》使用意图语言安全且自动地更新网络内ACL配置

FAST2020

存储行业顶级国际会议FAST2020（18th USENIX Conference on File and Storage Technologies）在美国圣克拉拉举行，大会公开论文名单显示，阿里巴巴3篇第一作者论文入选，是全球入选数最多的企业。

在《POLARDB结合可计算存储: 高效支持云原生关系数据库的复杂查询操作》一文中，阿里团队针对PolarDB，把SQL和存储引擎的计算逻辑下推到底层共享存储，并通过定制SSD内部的FPGA进一步下推计算至存储节点的SSD内部，完成更高效率计算的同时，大幅降低主机和网络带宽占用，为PolarDB在复杂查询场景下带来4~5倍的吞吐提升。

另两篇文章，聚焦键值存储（KVS）。

在《FPGA加速Compactions操作，基于 LSM-tree的键值存储》一文中，研究团队首次引入异构硬件FPGA，实现KVS核心操作Compaction加速，较仅CPU处理能力提升2~5倍，整体吞吐性能提升23%，能效提升31.7%。

在《HotRing：热点感知的无锁内存键值系统》一文中，阿里团队提出新型热点感知内存KVS — HotRing，采用轻量级的热点识别策略，在未增加元数据存储开销的同时，还对幂率分布的热点场景进行大量优化，使得HotRing的引擎吞吐性能可达600M ops/s，单次访问平均只需100ns，比目前最快KVS性能提升2.58倍。

ASPLOS’19

摘要： 阿里云首次在ASPLOS上发表论文，第24届ACM编程语言和操作系统（ASPLOS’19），于2019年4月13日至17日，在普罗维登斯召开，阿里云高级技术专家郑晓代表团队在会上发表了技术报告。

第24届ACM编程语言和操作系统（ASPLOS’19），于2019年4月13日至17日，在普罗维登斯召开，阿里云高级技术专家郑晓代表团队在会上发表了技术报告。

论文主题为《Fast and Scalable VMM Live Upgrade in Large Cloud Infrastructure》，作者是张献涛，郑晓，沈益斌等。这篇论文被计算机系统结构的顶级会议ASPLOS’19接受，是业界对于VMM热升级这项突破性技术的认可。

论文ACM下载地址：https://dl.acm.org/citation.cfm?id=3304034 PDF下载地址：https://yq.aliyun.com/download/3532

该论文系统的阐述了当前云计算领域面临的基础架构带业务热升级问题。提出了一种新型的，比热迁移更行之有效的方法，特别适合超大规模集群范围的使用，解决了困扰云计算行业多年的问题。该方案在阿里云大规模采用，服务百万级别的客户虚拟机数量。论文解决了在客户业务不中断的情况下以毫秒级的速度更换底层虚拟化组件。

阿里云热升级技术特点决定了可以同时热升级任意数量任意规格的虚拟机，并且升级时间恒定。更难得的是，在业界尚未有异构计算设备热迁移方案的情况下，阿里云热升级技术同时支持异构计算等以设备直通方式工作的虚拟机。帮助ECS在过去五年进行了快速的升级迭代，保障了产品和业务的快速奔跑。

ASPLOS（编程语言和操作系统的体系结构支持会议）会议全称为ACM International Conference on Architectural Support for Programming Languages and Operating Systems，是综合体系结构、编程语言和操作系统三个方向的计算机系统领域顶级会议，为CCF A类会议。从1982年创办至今的三十多年里，ASPLOS推动了多项计算机系统技术的发展，包括（但不限于）RISC、RAID、大规模多处理器、Cluster架构和网络存储等。