从SIEM&AI到SIEM@AI :AI构建下一代企业安全大脑
字数 2120 2025-08-18 11:37:12
SIEM@AI:构建下一代企业安全大脑
1. SIEM概述
1.1 SIEM定义
SIEM(Security Information Event Management,安全信息事件管理平台)是企业安全的核心中枢,负责:
- 收集汇总所有安全数据
- 结合威胁情报进行准确判断和预警
- 提供安全数据的收集、整合、分析、关联、处置和展现功能
1.2 SIEM发展历程
- 10年前:作为企业内部日志管理平台
- 现今:支持多维数据源输入、威胁情报中心、策略脚本库等
- 全球市场:每年10%增长,2020年预计200亿人民币规模
- 中国市场:2017年3.17亿人民币,每年近20%增长
1.3 SIEM适用场景
- 初期企业:数据流和业务量单一,独立安全产品即可满足
- 中大型企业:业务线增多,安全环境复杂,需要SIEM统一管理
2. SIEM架构解析
2.1 整体架构
SIEM平台由5个层次组成:
-
采集层:系统数据入口
- 数据来源:终端设备、网络设备、服务器、存储设备等
- 采集技术:
- 侵入式:部署Agent或程序探针
- 无侵入式:旁路镜像流量或输入日志
-
存储层:
- 存储内容:原始采集数据和计算结果
- 存储类型:
- 数据管道(如Kafka)
- 热存储(常用数据)
- 冷存储(不常用数据)
-
计算层:SIEM核心
- 计算模式:
- 实时计算平台(如Storm、Spark streaming)
- 离线计算平台(如MapReduce)
- 计算逻辑:目前主要基于规则引擎(如Drools)
- 计算模式:
-
输出层:
- 输出方式:展现、报表、报警通知、实时阻断等
- 处理方式:
- 自动方式:通知、预警、上报、阻断
- 手动方式:借助工单系统跟踪
-
情报中心:
- 数据来源:
- 公开威胁情报(X-Force Exchange等)
- 自身搜集情报(蜜罐、API调取等)
- 业务相关数据(用户注册信息、资产信息等)
- 情报内容:IP库、设备指纹库、黑卡库、漏洞库等
- 数据来源:
2.2 相关概念
- 态势感知:感知过去、理解现在、预测未来
- SOC安全运营中心:强调人与平台、软件的联动
3. AI与SIEM结合
3.1 AI发展阶段
- 识别阶段:解决"What"问题(如验证码识别)
- 理解阶段:解决"Why"问题(如人机对话)
- 反馈阶段:解决"How"问题(实现人机互动)
3.2 SIEM&AI vs SIEM@AI
| 特征 | SIEM&AI | SIEM@AI |
|---|---|---|
| AI角色 | 算法插件 | 平台基础 |
| 人工介入 | 需要大量人工配置 | 无需或极少人工介入 |
| 特征工程 | 需要企业具备经验 | 自动完成 |
| 使用成本 | 高(学习、配置) | 低(开箱即用) |
4. SIEM@AI核心技术
4.1 无监督学习解决数据标注难题
安全领域样本标注困难,无监督学习通过聚类识别异常:
-
距离聚类(EM算法)
- 挑战:事件边界定义、距离计算、簇数量选择
- 解决方案:Z-Score算法进行距离映射
-
核密度聚类
- 根据初始密度值聚类,标记离群点为威胁事件
- 关键:初始密度值选择
-
层次聚类
- 自下而上逐层合并事件
- 核心:距离计算模型选择
4.2 数据关联分析
4.2.1 关联类型
- 纵向分析:按时间轴学习规律
- 横向关联:挖掘不直接相关事件的深层关系
4.2.2 关联算法
-
事件相关运算:
- 夹角距离:θ=acos(K1·K2/(|K1||K2|))
- Jaccard距离:J(K1,K2)=|K1∩K2|/|K1∪K2|
-
Apriori算法:
- 通过筛选频繁项产生关联规则
- 适用于"啤酒与尿布"类简单关联
-
复杂事件关联:
- 引入桥梁事件建立间接关联
- 示例:P(疑似CC攻击/业务线数据库变更)的推导链
4.2.3 数据降维
- 有监督降维:PCA(主成分分析)
- 无监督降维:
- LDA(主题发现模型)
- SVD(奇异值分解):通过矩阵秩找到核心因素
5. SIEM@AI发展方向
5.1 主动学习
- 引入安全专家对少量AI结果进行校验
- 关键点:
- 如何挑选人工校验的识别结果
- 如何将纠正反馈到算法模型
5.2 深度学习
- 解决非直观威胁识别(如加密流量)
- 前提:需要大量标注样本积累
6. 实践案例
6.1 无监督学习示例
- 场景:电商业务用户行为分析
- 正常行为:登录页→授权页→订单页
- 异常行为:绕过授权页直接访问订单页(刷单)
- 结果:通过聚类自动识别异常离群点
6.2 复杂关联示例
- 外网接口攻击与内网数据库变更的关联
- 邮件系统Exchange日志与内网SSH事件的关联
7. 实施建议
- 数据采集:尽可能多地收集各类数据
- 算法选择:
- 优先考虑无监督学习
- 根据数据类型选择合适的关联算法
- 性能优化:采用降维技术提高处理速度
- 持续学习:结合主动学习机制不断优化模型
8. 总结
SIEM@AI代表了下一代企业安全大脑的发展方向,其核心优势在于:
- 减少对人工规则和标注数据的依赖
- 自动发现异常和建立复杂关联
- 持续学习和进化能力
- 降低企业安全运营成本
通过将AI作为平台而非工具,SIEM@AI能够真正实现智能化的安全威胁识别和响应,为企业构建更加主动、高效的安全防御体系。