清华大学 | ScannerGrouper:面向开放世界通用有效的扫描组织识别系统
字数 1583 2025-11-15 12:13:01

ScannerGrouper:面向开放世界的扫描组织识别系统教学文档

1. 系统概述

1.1 研究背景

近年来,互联网扫描活动显著增加,其中很大一部分源自扫描组织。这些组织利用扫描技术进步和云服务器租赁服务的普及,能够对公共地址空间进行频繁且大规模的扫描。

1.2 基本定义

扫描探针(Scanner):由公网IP地址标识的实体或程序,其向远程主机发送探测数据包,目的是:

  • 检测响应数据包的主机
  • 从主机响应数据包中提取信息

扫描组织:由多个扫描探针组成的实体,共同执行扫描任务。

2. 研究意义与应用价值

2.1 网络安全防御

  • 帮助防御者实施有针对性的安全策略
  • 减轻或阻止潜在的网络攻击
  • 支撑防火墙、NIPS等在线安全防御设备

2.2 扫描行为分析

  • 识别扫描组织的数据收集重点和偏好目标
  • 分析特定IP地址、端口、服务或软件的扫描行为
  • 支持攻击面分析

2.3 组织身份识别

  • 揭示潜在攻击组织的身份和规模
  • 通过有效载荷字段推断扫描组织身份

3. 现有研究局限性分析

3.1 传统方法的不足

  • WHOIS查询:只能粗略识别来源
  • IP地理位置定位:精度有限
  • 反向DNS解析:无法识别无域名的扫描探针

3.2 现有研究的缺陷

  1. 依赖Darknet流量:需要大量未使用的公共IP地址,缺乏普适性
  2. 特征选择问题:使用易变的时序特征和统计特征,鲁棒性差
  3. 评估机制缺失:无法自动评估未溯源扫描探针的识别结果
  4. 适用范围有限:在多样化实际场景中效果不一致

4. 研究挑战

4.1 鲁棒性挑战

  • 扫描探针行为特征具有高度可变性
  • 需要稳定的特征提取方法

4.2 开放世界挑战

  • 存在属于未知扫描组织的未溯源扫描探针
  • 需要增量更新能力以适应特征变化
  • 要求最小化更新所需时间

5. ScannerGrouper系统设计

5.1 核心设计思想

5.1.1 鲁棒性增强策略

  • 对蜜罐收集的扫描流量进行统计分析
  • 筛选能够区分扫描组织的稳定特征
  • 整合多个分类器结果改进识别方法

5.1.2 开放世界应对策略

  • 改进先进的开放集模型
  • 设计系统级增量更新方法

5.2 技术架构

5.2.1 特征工程

  • 统计分析蜜罐扫描流量
  • 识别稳定的组织区分特征
  • 避免使用易变的时序特征

5.2.2 分类器设计

  • 多分类器集成架构
  • 改进的开放集识别模型
  • 增量学习能力

5.2.3 评估机制

  • 自动化评估未溯源扫描探针
  • 减少人工评估依赖

6. 系统实现与验证

6.1 性能评估

  • 基准对比:与基线方法[26, 27, 38]相比
  • 性能提升:加权平均F1分数提高1.63-4.05倍
  • 增量版本:通过每周更新稳步提升性能

6.2 实际应用效果

  • 识别未溯源扫描探针中的已知组织
  • 通过有效载荷检查发现新的扫描组织
  • 增强对新兴扫描活动的理解
  • 支持快速防御响应

7. 技术特点总结

7.1 创新性

  • 首个独立于Darknet的扫描探针组织溯源系统
  • 适用于开放世界场景
  • 具备增量更新能力

7.2 实用性

  • 可部署在蜜罐和NIDS等监控系统
  • 常态化运行能力
  • 实际场景有效性验证

7.3 通用性

  • 不依赖特权网络环境
  • 对局部扫描有效
  • 适应多样化实际场景

8. 应用部署建议

8.1 部署环境

  • 受保护的目标网络
  • 蜜罐系统
  • 网络入侵检测系统(NIDS)

8.2 运维要求

  • 定期增量更新(建议每周)
  • 持续监控性能指标
  • 及时调整特征选择策略

9. 未来发展方向

9.1 技术优化

  • 进一步改进开放集识别算法
  • 增强对新型扫描技术的适应性
  • 优化增量学习效率

9.2 应用扩展

  • 扩展到更多安全监控场景
  • 集成到更广泛的安全防御体系
  • 支持更多类型的网络威胁检测

作者信息

  • 通讯作者:董恩焕(助理研究员)、杨家海(教授)
  • 所属机构:清华大学
  • 系统状态:已实现常态化运行

相关标签:#web安全 #基础安全

本文档基于清华大学研究成果整理,仅供教学研究使用。

ScannerGrouper:面向开放世界的扫描组织识别系统教学文档 1. 系统概述 1.1 研究背景 近年来,互联网扫描活动显著增加,其中很大一部分源自扫描组织。这些组织利用扫描技术进步和云服务器租赁服务的普及,能够对公共地址空间进行频繁且大规模的扫描。 1.2 基本定义 扫描探针(Scanner) :由公网IP地址标识的实体或程序,其向远程主机发送探测数据包,目的是: 检测响应数据包的主机 从主机响应数据包中提取信息 扫描组织 :由多个扫描探针组成的实体,共同执行扫描任务。 2. 研究意义与应用价值 2.1 网络安全防御 帮助防御者实施有针对性的安全策略 减轻或阻止潜在的网络攻击 支撑防火墙、NIPS等在线安全防御设备 2.2 扫描行为分析 识别扫描组织的数据收集重点和偏好目标 分析特定IP地址、端口、服务或软件的扫描行为 支持攻击面分析 2.3 组织身份识别 揭示潜在攻击组织的身份和规模 通过有效载荷字段推断扫描组织身份 3. 现有研究局限性分析 3.1 传统方法的不足 WHOIS查询 :只能粗略识别来源 IP地理位置定位 :精度有限 反向DNS解析 :无法识别无域名的扫描探针 3.2 现有研究的缺陷 依赖Darknet流量 :需要大量未使用的公共IP地址,缺乏普适性 特征选择问题 :使用易变的时序特征和统计特征,鲁棒性差 评估机制缺失 :无法自动评估未溯源扫描探针的识别结果 适用范围有限 :在多样化实际场景中效果不一致 4. 研究挑战 4.1 鲁棒性挑战 扫描探针行为特征具有高度可变性 需要稳定的特征提取方法 4.2 开放世界挑战 存在属于未知扫描组织的未溯源扫描探针 需要增量更新能力以适应特征变化 要求最小化更新所需时间 5. ScannerGrouper系统设计 5.1 核心设计思想 5.1.1 鲁棒性增强策略 对蜜罐收集的扫描流量进行统计分析 筛选能够区分扫描组织的稳定特征 整合多个分类器结果改进识别方法 5.1.2 开放世界应对策略 改进先进的开放集模型 设计系统级增量更新方法 5.2 技术架构 5.2.1 特征工程 统计分析蜜罐扫描流量 识别稳定的组织区分特征 避免使用易变的时序特征 5.2.2 分类器设计 多分类器集成架构 改进的开放集识别模型 增量学习能力 5.2.3 评估机制 自动化评估未溯源扫描探针 减少人工评估依赖 6. 系统实现与验证 6.1 性能评估 基准对比 :与基线方法[ 26, 27, 38 ]相比 性能提升 :加权平均F1分数提高1.63-4.05倍 增量版本 :通过每周更新稳步提升性能 6.2 实际应用效果 识别未溯源扫描探针中的已知组织 通过有效载荷检查发现新的扫描组织 增强对新兴扫描活动的理解 支持快速防御响应 7. 技术特点总结 7.1 创新性 首个独立于Darknet的扫描探针组织溯源系统 适用于开放世界场景 具备增量更新能力 7.2 实用性 可部署在蜜罐和NIDS等监控系统 常态化运行能力 实际场景有效性验证 7.3 通用性 不依赖特权网络环境 对局部扫描有效 适应多样化实际场景 8. 应用部署建议 8.1 部署环境 受保护的目标网络 蜜罐系统 网络入侵检测系统(NIDS) 8.2 运维要求 定期增量更新(建议每周) 持续监控性能指标 及时调整特征选择策略 9. 未来发展方向 9.1 技术优化 进一步改进开放集识别算法 增强对新型扫描技术的适应性 优化增量学习效率 9.2 应用扩展 扩展到更多安全监控场景 集成到更广泛的安全防御体系 支持更多类型的网络威胁检测 作者信息 : 通讯作者:董恩焕(助理研究员)、杨家海(教授) 所属机构:清华大学 系统状态:已实现常态化运行 相关标签 :#web安全 #基础安全 本文档基于清华大学研究成果整理,仅供教学研究使用。