近日,中国电信云计算研究院在智能故障监测领域取得重要研究进展,由王彦文、汤闻达、吴杰研究团队完成的论文《Nip it in the Bud: Unsupervised KPI Incipient Fault Detection via Dynamic Latent Feature Ensembling》被分布式系统可靠性领域国际顶级会议IEEE SRDS 2025接收。研究聚焦云计算环境中早期故障检测的关键难题,为运维系统可靠性保障提供了创新性解决方案。
在云计算和分布式系统日益复杂的背景下,如何实时监控关键性能指标(KPI)并精准识别系统性能退化的早期信号,是保障服务连续性和用户体验的核心挑战。然而,受限于噪声干扰、多元时间序列(MTS)的高维关联性,以及缺乏充足标注数据,现有方法往往难以在KPI发生明显异常前及时发现潜在故障。本研究提出一种新型无监督检测框架HEIMDALLR,旨在挖掘隐藏在KPI背后的初始微弱异常信号。该方法以面向KPI的动态潜空间建模为核心,结合异常归因机制,对潜在因果关系进行刻画与拆解。相比传统方法,HEIMDALLR不仅在准确率与误报控制方面表现优越,同时具备低计算开销和高可解释性,更适用于大规模云系统的实时部署需求。
IEEE SRDS (International Symposium on Reliable Distributed Systems) 是分布式系统可靠性领域历史悠久的国际顶级会议,迄今已举办43届,会议涵盖分布式系统可信与隐私、容错自愈与实时技术、可信系统设计与评估等方向。SRDS 2025将于9月29日至10月2日在葡萄牙波尔图召开。
作为中国电信科技创新的重要研究机构,中国电信云计算研究院持续推进“智能泛在云”技术体系建设,不断深化前沿技术研究。本次在故障检测领域的研究突破,不仅丰富了云网智能监控的核心能力,也进一步夯实了在无监督智能诊断与高可靠分布式系统方向的技术储备。该成果的发表将有力支撑大规模云系统在高可靠、低延迟运维中的智能化演进,为下一代智能基础设施提供坚实的技术支撑。