从SIEM&AI到SIEM@AI :AI构建下一代企业安全大脑
字数 2120 2025-08-18 11:37:12

SIEM@AI:构建下一代企业安全大脑

1. SIEM概述

1.1 SIEM定义

SIEM(Security Information Event Management,安全信息事件管理平台)是企业安全的核心中枢,负责:

  • 收集汇总所有安全数据
  • 结合威胁情报进行准确判断和预警
  • 提供安全数据的收集、整合、分析、关联、处置和展现功能

1.2 SIEM发展历程

  • 10年前:作为企业内部日志管理平台
  • 现今:支持多维数据源输入、威胁情报中心、策略脚本库等
  • 全球市场:每年10%增长,2020年预计200亿人民币规模
  • 中国市场:2017年3.17亿人民币,每年近20%增长

1.3 SIEM适用场景

  • 初期企业:数据流和业务量单一,独立安全产品即可满足
  • 中大型企业:业务线增多,安全环境复杂,需要SIEM统一管理

2. SIEM架构解析

2.1 整体架构

SIEM平台由5个层次组成:

  1. 采集层:系统数据入口

    • 数据来源:终端设备、网络设备、服务器、存储设备等
    • 采集技术:
      • 侵入式:部署Agent或程序探针
      • 无侵入式:旁路镜像流量或输入日志
  2. 存储层

    • 存储内容:原始采集数据和计算结果
    • 存储类型:
      • 数据管道(如Kafka)
      • 热存储(常用数据)
      • 冷存储(不常用数据)
  3. 计算层:SIEM核心

    • 计算模式:
      • 实时计算平台(如Storm、Spark streaming)
      • 离线计算平台(如MapReduce)
    • 计算逻辑:目前主要基于规则引擎(如Drools)
  4. 输出层

    • 输出方式:展现、报表、报警通知、实时阻断等
    • 处理方式:
      • 自动方式:通知、预警、上报、阻断
      • 手动方式:借助工单系统跟踪
  5. 情报中心

    • 数据来源:
      • 公开威胁情报(X-Force Exchange等)
      • 自身搜集情报(蜜罐、API调取等)
      • 业务相关数据(用户注册信息、资产信息等)
    • 情报内容:IP库、设备指纹库、黑卡库、漏洞库等

2.2 相关概念

  • 态势感知:感知过去、理解现在、预测未来
  • SOC安全运营中心:强调人与平台、软件的联动

3. AI与SIEM结合

3.1 AI发展阶段

  1. 识别阶段:解决"What"问题(如验证码识别)
  2. 理解阶段:解决"Why"问题(如人机对话)
  3. 反馈阶段:解决"How"问题(实现人机互动)

3.2 SIEM&AI vs SIEM@AI

特征 SIEM&AI SIEM@AI
AI角色 算法插件 平台基础
人工介入 需要大量人工配置 无需或极少人工介入
特征工程 需要企业具备经验 自动完成
使用成本 高(学习、配置) 低(开箱即用)

4. SIEM@AI核心技术

4.1 无监督学习解决数据标注难题

安全领域样本标注困难,无监督学习通过聚类识别异常:

  1. 距离聚类(EM算法)

    • 挑战:事件边界定义、距离计算、簇数量选择
    • 解决方案:Z-Score算法进行距离映射
  2. 核密度聚类

    • 根据初始密度值聚类,标记离群点为威胁事件
    • 关键:初始密度值选择
  3. 层次聚类

    • 自下而上逐层合并事件
    • 核心:距离计算模型选择

4.2 数据关联分析

4.2.1 关联类型

  1. 纵向分析:按时间轴学习规律
  2. 横向关联:挖掘不直接相关事件的深层关系

4.2.2 关联算法

  1. 事件相关运算

    • 夹角距离:θ=acos(K1·K2/(|K1||K2|))
    • Jaccard距离:J(K1,K2)=|K1∩K2|/|K1∪K2|
  2. Apriori算法

    • 通过筛选频繁项产生关联规则
    • 适用于"啤酒与尿布"类简单关联
  3. 复杂事件关联

    • 引入桥梁事件建立间接关联
    • 示例:P(疑似CC攻击/业务线数据库变更)的推导链

4.2.3 数据降维

  1. 有监督降维:PCA(主成分分析)
  2. 无监督降维
    • LDA(主题发现模型)
    • SVD(奇异值分解):通过矩阵秩找到核心因素

5. SIEM@AI发展方向

5.1 主动学习

  • 引入安全专家对少量AI结果进行校验
  • 关键点:
    • 如何挑选人工校验的识别结果
    • 如何将纠正反馈到算法模型

5.2 深度学习

  • 解决非直观威胁识别(如加密流量)
  • 前提:需要大量标注样本积累

6. 实践案例

6.1 无监督学习示例

  • 场景:电商业务用户行为分析
  • 正常行为:登录页→授权页→订单页
  • 异常行为:绕过授权页直接访问订单页(刷单)
  • 结果:通过聚类自动识别异常离群点

6.2 复杂关联示例

  1. 外网接口攻击与内网数据库变更的关联
  2. 邮件系统Exchange日志与内网SSH事件的关联

7. 实施建议

  1. 数据采集:尽可能多地收集各类数据
  2. 算法选择
    • 优先考虑无监督学习
    • 根据数据类型选择合适的关联算法
  3. 性能优化:采用降维技术提高处理速度
  4. 持续学习:结合主动学习机制不断优化模型

8. 总结

SIEM@AI代表了下一代企业安全大脑的发展方向,其核心优势在于:

  • 减少对人工规则和标注数据的依赖
  • 自动发现异常和建立复杂关联
  • 持续学习和进化能力
  • 降低企业安全运营成本

通过将AI作为平台而非工具,SIEM@AI能够真正实现智能化的安全威胁识别和响应,为企业构建更加主动、高效的安全防御体系。

SIEM@AI:构建下一代企业安全大脑 1. SIEM概述 1.1 SIEM定义 SIEM(Security Information Event Management,安全信息事件管理平台)是企业安全的核心中枢,负责: 收集汇总所有安全数据 结合威胁情报进行准确判断和预警 提供安全数据的收集、整合、分析、关联、处置和展现功能 1.2 SIEM发展历程 10年前:作为企业内部日志管理平台 现今:支持多维数据源输入、威胁情报中心、策略脚本库等 全球市场:每年10%增长,2020年预计200亿人民币规模 中国市场:2017年3.17亿人民币,每年近20%增长 1.3 SIEM适用场景 初期企业:数据流和业务量单一,独立安全产品即可满足 中大型企业:业务线增多,安全环境复杂,需要SIEM统一管理 2. SIEM架构解析 2.1 整体架构 SIEM平台由5个层次组成: 采集层 :系统数据入口 数据来源:终端设备、网络设备、服务器、存储设备等 采集技术: 侵入式:部署Agent或程序探针 无侵入式:旁路镜像流量或输入日志 存储层 : 存储内容:原始采集数据和计算结果 存储类型: 数据管道(如Kafka) 热存储(常用数据) 冷存储(不常用数据) 计算层 :SIEM核心 计算模式: 实时计算平台(如Storm、Spark streaming) 离线计算平台(如MapReduce) 计算逻辑:目前主要基于规则引擎(如Drools) 输出层 : 输出方式:展现、报表、报警通知、实时阻断等 处理方式: 自动方式:通知、预警、上报、阻断 手动方式:借助工单系统跟踪 情报中心 : 数据来源: 公开威胁情报(X-Force Exchange等) 自身搜集情报(蜜罐、API调取等) 业务相关数据(用户注册信息、资产信息等) 情报内容:IP库、设备指纹库、黑卡库、漏洞库等 2.2 相关概念 态势感知 :感知过去、理解现在、预测未来 SOC安全运营中心 :强调人与平台、软件的联动 3. AI与SIEM结合 3.1 AI发展阶段 识别阶段 :解决"What"问题(如验证码识别) 理解阶段 :解决"Why"问题(如人机对话) 反馈阶段 :解决"How"问题(实现人机互动) 3.2 SIEM&AI vs SIEM@AI | 特征 | SIEM&AI | SIEM@AI | |------|---------|---------| | AI角色 | 算法插件 | 平台基础 | | 人工介入 | 需要大量人工配置 | 无需或极少人工介入 | | 特征工程 | 需要企业具备经验 | 自动完成 | | 使用成本 | 高(学习、配置) | 低(开箱即用) | 4. SIEM@AI核心技术 4.1 无监督学习解决数据标注难题 安全领域样本标注困难,无监督学习通过聚类识别异常: 距离聚类(EM算法) 挑战:事件边界定义、距离计算、簇数量选择 解决方案:Z-Score算法进行距离映射 核密度聚类 根据初始密度值聚类,标记离群点为威胁事件 关键:初始密度值选择 层次聚类 自下而上逐层合并事件 核心:距离计算模型选择 4.2 数据关联分析 4.2.1 关联类型 纵向分析 :按时间轴学习规律 横向关联 :挖掘不直接相关事件的深层关系 4.2.2 关联算法 事件相关运算 : 夹角距离:θ=acos(K1·K2/(|K1||K2|)) Jaccard距离:J(K1,K2)=|K1∩K2|/|K1∪K2| Apriori算法 : 通过筛选频繁项产生关联规则 适用于"啤酒与尿布"类简单关联 复杂事件关联 : 引入桥梁事件建立间接关联 示例:P(疑似CC攻击/业务线数据库变更)的推导链 4.2.3 数据降维 有监督降维 :PCA(主成分分析) 无监督降维 : LDA(主题发现模型) SVD(奇异值分解):通过矩阵秩找到核心因素 5. SIEM@AI发展方向 5.1 主动学习 引入安全专家对少量AI结果进行校验 关键点: 如何挑选人工校验的识别结果 如何将纠正反馈到算法模型 5.2 深度学习 解决非直观威胁识别(如加密流量) 前提:需要大量标注样本积累 6. 实践案例 6.1 无监督学习示例 场景:电商业务用户行为分析 正常行为:登录页→授权页→订单页 异常行为:绕过授权页直接访问订单页(刷单) 结果:通过聚类自动识别异常离群点 6.2 复杂关联示例 外网接口攻击与内网数据库变更的关联 邮件系统Exchange日志与内网SSH事件的关联 7. 实施建议 数据采集 :尽可能多地收集各类数据 算法选择 : 优先考虑无监督学习 根据数据类型选择合适的关联算法 性能优化 :采用降维技术提高处理速度 持续学习 :结合主动学习机制不断优化模型 8. 总结 SIEM@AI代表了下一代企业安全大脑的发展方向,其核心优势在于: 减少对人工规则和标注数据的依赖 自动发现异常和建立复杂关联 持续学习和进化能力 降低企业安全运营成本 通过将AI作为平台而非工具,SIEM@AI能够真正实现智能化的安全威胁识别和响应,为企业构建更加主动、高效的安全防御体系。