提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇(二))
字数 1718 2025-08-11 17:40:22
京东云AIOps时间序列异常检测技术详解
1. 背景与概述
IT运维效率提升面临的核心挑战:
- 内容繁杂且持续变化
- 需要支持不同业务需求
- 需对运维过程、结果及系统状态进行全面管控
京东云AIOps解决方案:
- 基于深度学习的时间序列异常检测
- 支持单指标(UTS)和多指标(MTS)异常检测
- 快速发现线上业务问题,实现降本增效
2. 技术背景
2.1 时间序列异常检测方法分类
传统方法:
- 自回归模型(AR/ARMA/ARIMA)
- 动态时间规整(DTW)及其变种(DTW-I, DTW-D, DTW-A)
机器学习方法:
- 隐马尔可夫模型(HMM)
- k最近邻(k-NN)
- 支持向量机(SVM)
深度学习方法:
- 卷积神经网络(CNN)
- 递归神经网络(RNN)及其变种(LSTM, GRU)
- 混合模型(MC-DCNN, ALSTM-FCN, C-LSTM, TapNet等)
2.2 现有方法局限性
- 非深度学习方法难以适应复杂动态变化的计算机系统
- 传统方法需要较多先验知识
- 深度学习方法在大量输入信息和动态特征情况下表现优异
3. Mac-net模型架构
3.1 整体结构
主要组件:
- 三条并行卷积注意力管道
- 全连接层(FC)
输入形式:
- h+1个时间序列快照(当前序列+h个历史序列)
- 快照形式便于CNN处理
3.2 并行管道设计
每条管道包含:
- CNN单元:
- 卷积层(16个内核,步长1)
- 批归一化层
- ReLU激活层
- Dropout层(0.4比率)
三条管道区别:
- 内核大小分别为2x2、3x3和5x5
- 多尺度感知能力互补
3.3 全连接层
- 统一各管道输出形状
- 两层FC:32个神经元和2个神经元
- 最终输出:异常/正常二分类
4. 放大注意力机制
4.1 设计原理
核心思想:
- 强化重要历史序列的影响
- 抑制不相关序列的影响
- 基于时间序列内在特征优化权重分配
与传统注意力机制区别:
- 不使用查询参数和关键矩阵计算
- 减少计算开销
- 更强调偏差大的历史序列
4.2 实现步骤
-
相似度计算:
- 使用余弦距离计算历史序列与当前序列的相似度
- 得到相似向量S = (st-h, st-h+1, ..., st-1)
-
权重分配:
- 使用log操作代替exp(在[0,1]区间变化更剧烈)
- 找出相似度最小的历史序列smin
- 重点分配权重给[smin, sh-1]区间
-
注意力输出:
- 结果乘积乘以权重矩阵
- 进行归约操作(reduce_sum)
算法伪代码:
输入:历史序列X' = [xt-h, ..., xt-1], 当前序列xt
输出:注意力输出
1. 计算相似向量S:
for i in [t-h, t-1]:
s_i = cosine_similarity(x_i, x_t)
2. 计算权重向量w:
s_min = min(S)
for i in [t-h, t-1]:
if i == argmin(S):
w_i = -log(s_i)
else:
w_i = ε (极小值)
3. 计算注意力输出:
attention_output = reduce_sum(X' · w)
5. 实验评估
5.1 数据集
公共数据集:
- UTS:NAB数据集中的两个子集
- MTS:SelfRegulationSCP2和Wafer
京东内部数据集:
- 数据集A和B
- 包含正常和异常序列样本(图4)
5.2 评估指标
- 精确度(Precision)
- 召回率(Recall)
- F1-score
计算公式:
Precision = tp / (tp + fp)
Recall = tp / (tp + fn)
F1 = 2 * (Precision * Recall) / (Precision + Recall)
5.3 对比模型
-
Abl-mdl-1:
- 使用缩放点积注意力代替放大注意力
-
Abl-mdl-2:
- 使用LSTM层(16单元)代替注意力机制
5.4 实验结果
检测性能:
- Mac-net在所有数据集上获得最佳性能(表II)
- 放大注意力机制优于传统注意力和LSTM
收敛速度:
- 基于注意力的模型收敛最快
- Mac-net在15-20个epoch后达到稳定状态(图5)
- 训练过程震荡较少
6. 技术优势
-
模型创新:
- 多尺度并行卷积结构
- 专门设计的放大注意力机制
-
实际效果:
- 更高的检测准确率
- 更快的收敛速度
- 更强的稳定性
-
应用价值:
- 有效识别系统异常
- 降低故障发生概率
- 提升运维效率
7. 参考文献
- Multi-Attention Integrated Convolutional Network for Anomaly Detection of Time Series. ICCAE.
- IEEE论文链接:https://ieeexplore.ieee.org/document/9762449
8. 京东智能运维能力
- 自研算法学件:20+种(基线+异常检测)
- 根因定位算法:支持上万维度分析
- 运维知识图谱:30W+节点,90W+关系
- 学术成果:8篇IEEE论文,40+项专利