研究成果
当前位置:首页 > 研究成果

研究成果

实验室在SOSP 2025发表处理器静默错误研究,并在SIGOPS Strategic Workshop作专题报告

时间:2025-10-17

处理器芯片全国重点实验室(以下简称“实验室”)在处理器静默错误 (CPU Silent Execution Error, SCEE) 方面的相关研究取得重要进展,首次提出了低开销的数据中心在线静默错误检测方法,相关成果发表于操作系统领域顶级会议SOSP 2025, 并在ACM SIGOPS战略性研讨会 (SIGOPS Strategic Workshop) 2025 会议上展示。

随着芯片制程不断演进与工艺复杂度提升,处理器的可靠性问题日益突出。如今在拥有大规模CPU的数据中心环境中,处理器逐渐展现了一种全新的静默错误(CPU Silent Execution Error, SCEE),它会在不被现有容错系统察觉的情况下,悄然破坏应用的执行逻辑与数据对系统安全和数据完整性构成严重威胁。Google、亚马逊AWS和阿里巴巴等科技巨头都报告了大量CPU错误发生的现象。该种错误会导致静默数据损坏(Silent Data Corruption),严重时可能导致用户数据(User Data)被悄然破坏,进而引发严重后果。

针对上述挑战,实验室提出了目前为止第一个面向处理器静默错误的在线检测系统,完成论文《Orthrus: Efficient and Timely Detection of Silent User Data Corruption in the Cloud with Resource-Adaptive Computation Validation》第一作者为实验室博士生刘晨骁,指导教师为崔慧敏、杜子东、王晨曦等。论文在跨编程语言、运行时、操作系统构建全新的程序语义感知的数据中心系统软件(Semantics-Aware Cloud)的思路框架下,以极低的运行时性能开销(2%-6%),实现了静默错误高效检测,显著提升了数据中心服务可靠性。Orthrus观察到:云应用程序的代码结构通常可分为控制路径(Control Path)和数据路径(Data Path)。控制路径负责调度分发等控制逻辑,不直接操作用户数据;数据路径则执行用户数据的具体操作。为此Orthrus设计了一种混合策略对控制路径采取校验和方式,对数据路径采取重新执行方式,以此实现高效的错误检测。同时支撑该机制,Orthrus在编译、系统与运行时层面引入了一系列创新技术(见图1)




图1 Orhturs SCEE在线检验系统设计框架


SIGOPS Stragetic Workshop上报告《The Core Problem with Cores: It's All About the Software》进一步基于该研究讨论了新型处理器静默错误给数据中心带来的全新挑战。报告提出,处理器静默错误这一核心问题在高性能计算、数据中心领域非常关键,并且可以用软件方法来实现低开销、高效率的静默错误检测。


SOSP


第31届ACM操作系统原理研讨会SOSP 2025Symposium on Operating Systems Principles)于2025年10月13日至16日在韩国首尔举行。SOSP是计算机操作系统领域最重要的两大国际会议之一,本届录用率约为17.7%。会议由ACM SIGOPS组织,汇聚了来自学术界和工业界的专家,展示涵盖操作系统设计、实现、分析、评估部署等全方位的创新研究和实践经验。SOSP强调新颖性和实用性,促进操作系统及相关领域的理论与工程技术的深度交流和融合。


届SOSP Strategic Workshop 2025(操作系统原理战略研讨会)聚焦于操作系统与计算领域在过去十年间因硬件演进、分布式系统、AI驱动自动化及异构计算广泛应用所发生的深刻变革。本次研讨会以2015年SOSP历史日为基础,融汇历史经验和前瞻视野,邀请多个国家和地区的图灵奖获得者、资深学者、领域奠基人及新生代研究者共同探讨并绘制未来五年操作系统研究的战略路线图。本次研讨会与SOSP 2025主会议在首尔同期举办。