提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇(二))
字数 1718 2025-08-11 17:40:22

京东云AIOps时间序列异常检测技术详解

1. 背景与概述

IT运维效率提升面临的核心挑战:

  • 内容繁杂且持续变化
  • 需要支持不同业务需求
  • 需对运维过程、结果及系统状态进行全面管控

京东云AIOps解决方案:

  • 基于深度学习的时间序列异常检测
  • 支持单指标(UTS)和多指标(MTS)异常检测
  • 快速发现线上业务问题,实现降本增效

2. 技术背景

2.1 时间序列异常检测方法分类

传统方法

  • 自回归模型(AR/ARMA/ARIMA)
  • 动态时间规整(DTW)及其变种(DTW-I, DTW-D, DTW-A)

机器学习方法

  • 隐马尔可夫模型(HMM)
  • k最近邻(k-NN)
  • 支持向量机(SVM)

深度学习方法

  • 卷积神经网络(CNN)
  • 递归神经网络(RNN)及其变种(LSTM, GRU)
  • 混合模型(MC-DCNN, ALSTM-FCN, C-LSTM, TapNet等)

2.2 现有方法局限性

  • 非深度学习方法难以适应复杂动态变化的计算机系统
  • 传统方法需要较多先验知识
  • 深度学习方法在大量输入信息和动态特征情况下表现优异

3. Mac-net模型架构

3.1 整体结构

主要组件:

  • 三条并行卷积注意力管道
  • 全连接层(FC)

输入形式:

  • h+1个时间序列快照(当前序列+h个历史序列)
  • 快照形式便于CNN处理

3.2 并行管道设计

每条管道包含:

  1. CNN单元:
    • 卷积层(16个内核,步长1)
    • 批归一化层
    • ReLU激活层
    • Dropout层(0.4比率)

三条管道区别:

  • 内核大小分别为2x2、3x3和5x5
  • 多尺度感知能力互补

3.3 全连接层

  • 统一各管道输出形状
  • 两层FC:32个神经元和2个神经元
  • 最终输出:异常/正常二分类

4. 放大注意力机制

4.1 设计原理

核心思想:

  • 强化重要历史序列的影响
  • 抑制不相关序列的影响
  • 基于时间序列内在特征优化权重分配

与传统注意力机制区别:

  • 不使用查询参数和关键矩阵计算
  • 减少计算开销
  • 更强调偏差大的历史序列

4.2 实现步骤

  1. 相似度计算

    • 使用余弦距离计算历史序列与当前序列的相似度
    • 得到相似向量S = (st-h, st-h+1, ..., st-1)
  2. 权重分配

    • 使用log操作代替exp(在[0,1]区间变化更剧烈)
    • 找出相似度最小的历史序列smin
    • 重点分配权重给[smin, sh-1]区间
  3. 注意力输出

    • 结果乘积乘以权重矩阵
    • 进行归约操作(reduce_sum)

算法伪代码:

输入:历史序列X' = [xt-h, ..., xt-1], 当前序列xt
输出:注意力输出

1. 计算相似向量S:
   for i in [t-h, t-1]:
       s_i = cosine_similarity(x_i, x_t)
   
2. 计算权重向量w:
   s_min = min(S)
   for i in [t-h, t-1]:
       if i == argmin(S):
           w_i = -log(s_i)
       else:
           w_i = ε (极小值)
   
3. 计算注意力输出:
   attention_output = reduce_sum(X' · w)

5. 实验评估

5.1 数据集

公共数据集

  • UTS:NAB数据集中的两个子集
  • MTS:SelfRegulationSCP2和Wafer

京东内部数据集

  • 数据集A和B
  • 包含正常和异常序列样本(图4)

5.2 评估指标

  • 精确度(Precision)
  • 召回率(Recall)
  • F1-score

计算公式:

Precision = tp / (tp + fp)
Recall = tp / (tp + fn)
F1 = 2 * (Precision * Recall) / (Precision + Recall)

5.3 对比模型

  1. Abl-mdl-1

    • 使用缩放点积注意力代替放大注意力
  2. Abl-mdl-2

    • 使用LSTM层(16单元)代替注意力机制

5.4 实验结果

检测性能

  • Mac-net在所有数据集上获得最佳性能(表II)
  • 放大注意力机制优于传统注意力和LSTM

收敛速度

  • 基于注意力的模型收敛最快
  • Mac-net在15-20个epoch后达到稳定状态(图5)
  • 训练过程震荡较少

6. 技术优势

  1. 模型创新

    • 多尺度并行卷积结构
    • 专门设计的放大注意力机制
  2. 实际效果

    • 更高的检测准确率
    • 更快的收敛速度
    • 更强的稳定性
  3. 应用价值

    • 有效识别系统异常
    • 降低故障发生概率
    • 提升运维效率

7. 参考文献

  1. Multi-Attention Integrated Convolutional Network for Anomaly Detection of Time Series. ICCAE.
  2. IEEE论文链接:https://ieeexplore.ieee.org/document/9762449

8. 京东智能运维能力

  • 自研算法学件:20+种(基线+异常检测)
  • 根因定位算法:支持上万维度分析
  • 运维知识图谱:30W+节点,90W+关系
  • 学术成果:8篇IEEE论文,40+项专利
京东云AIOps时间序列异常检测技术详解 1. 背景与概述 IT运维效率提升面临的核心挑战: 内容繁杂且持续变化 需要支持不同业务需求 需对运维过程、结果及系统状态进行全面管控 京东云AIOps解决方案: 基于深度学习的时间序列异常检测 支持单指标(UTS)和多指标(MTS)异常检测 快速发现线上业务问题,实现降本增效 2. 技术背景 2.1 时间序列异常检测方法分类 传统方法 : 自回归模型(AR/ARMA/ARIMA) 动态时间规整(DTW)及其变种(DTW-I, DTW-D, DTW-A) 机器学习方法 : 隐马尔可夫模型(HMM) k最近邻(k-NN) 支持向量机(SVM) 深度学习方法 : 卷积神经网络(CNN) 递归神经网络(RNN)及其变种(LSTM, GRU) 混合模型(MC-DCNN, ALSTM-FCN, C-LSTM, TapNet等) 2.2 现有方法局限性 非深度学习方法难以适应复杂动态变化的计算机系统 传统方法需要较多先验知识 深度学习方法在大量输入信息和动态特征情况下表现优异 3. Mac-net模型架构 3.1 整体结构 主要组件: 三条并行卷积注意力管道 全连接层(FC) 输入形式: h+1个时间序列快照(当前序列+h个历史序列) 快照形式便于CNN处理 3.2 并行管道设计 每条管道包含: CNN单元: 卷积层(16个内核,步长1) 批归一化层 ReLU激活层 Dropout层(0.4比率) 三条管道区别: 内核大小分别为2x2、3x3和5x5 多尺度感知能力互补 3.3 全连接层 统一各管道输出形状 两层FC:32个神经元和2个神经元 最终输出:异常/正常二分类 4. 放大注意力机制 4.1 设计原理 核心思想: 强化重要历史序列的影响 抑制不相关序列的影响 基于时间序列内在特征优化权重分配 与传统注意力机制区别: 不使用查询参数和关键矩阵计算 减少计算开销 更强调偏差大的历史序列 4.2 实现步骤 相似度计算 : 使用余弦距离计算历史序列与当前序列的相似度 得到相似向量S = (st-h, st-h+1, ..., st-1) 权重分配 : 使用log操作代替exp(在[ 0,1 ]区间变化更剧烈) 找出相似度最小的历史序列smin 重点分配权重给[ smin, sh-1 ]区间 注意力输出 : 结果乘积乘以权重矩阵 进行归约操作(reduce_ sum) 算法伪代码: 5. 实验评估 5.1 数据集 公共数据集 : UTS:NAB数据集中的两个子集 MTS:SelfRegulationSCP2和Wafer 京东内部数据集 : 数据集A和B 包含正常和异常序列样本(图4) 5.2 评估指标 精确度(Precision) 召回率(Recall) F1-score 计算公式: 5.3 对比模型 Abl-mdl-1 : 使用缩放点积注意力代替放大注意力 Abl-mdl-2 : 使用LSTM层(16单元)代替注意力机制 5.4 实验结果 检测性能 : Mac-net在所有数据集上获得最佳性能(表II) 放大注意力机制优于传统注意力和LSTM 收敛速度 : 基于注意力的模型收敛最快 Mac-net在15-20个epoch后达到稳定状态(图5) 训练过程震荡较少 6. 技术优势 模型创新 : 多尺度并行卷积结构 专门设计的放大注意力机制 实际效果 : 更高的检测准确率 更快的收敛速度 更强的稳定性 应用价值 : 有效识别系统异常 降低故障发生概率 提升运维效率 7. 参考文献 Multi-Attention Integrated Convolutional Network for Anomaly Detection of Time Series. ICCAE. IEEE论文链接:https://ieeexplore.ieee.org/document/9762449 8. 京东智能运维能力 自研算法学件:20+种(基线+异常检测) 根因定位算法:支持上万维度分析 运维知识图谱:30W+节点,90W+关系 学术成果:8篇IEEE论文,40+项专利