JS敏感信息泄露检测工具WIH使用详解

一、WIH工具概述

WIH(WebInfoHunter)是ARL(Asset Reconnaissance Lighthouse)资产侦察灯塔系统中的一个功能模块，专门用于检测网页中的敏感信息泄露。该工具通过自定义规则匹配，能够高效地从网页中提取各类敏感数据，如API密钥、身份凭证、个人信息等。

二、工具获取与准备

1. 从ARL容器中提取WIH工具

# 创建wih目录
mkdir wih

# 从ARL容器中复制wih工具到本地
docker cp arl_worker:/usr/bin/wih /home/wih

# 验证是否复制成功
cd wih
ls

三、规则配置详解

WIH的强大之处在于其高度可定制的规则系统，配置文件为wih_rules.yml。

1. 内置规则

工具自带以下内置规则，可通过enabled: true/false启用或禁用：

domain: 域名检测
ip: IP地址检测
path: 路径检测
domain_url: 域名URL检测
ip_url: IP URL检测
secret_key: 密钥检测

2. 常用自定义规则

个人信息类

# 二代身份证
- id: id_card
  enabled: true
  pattern: \b([1-9]\d{5}(19|20)\d{2}((0[1-9])|(1[0-2]))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])\b

# 手机号
- id: phone
  enabled: false
  pattern: \b1[3-9]\d{9}\b

# 邮箱
- id: email
  enabled: false
  pattern: \b[A-Za-z0-9._\-]+@[A-Za-z0-9.\-]+\.[A-Za-z]{2,61}\b

云服务凭证类

# 阿里云 AccessKey ID
- id: Aliyun_AK_ID
  enabled: true
  pattern: \bLTAI[A-Za-z\d]{12,30}\b

# 腾讯云 AccessKey ID
- id: QCloud_AK_ID
  enabled: true
  pattern: \bAKID[A-Za-z\d]{13,40}\b

# 亚马逊 AccessKey ID
- id: AWS_AK_ID
  enabled: true
  pattern: '[" '' ](?:A3T[A-Z0-9]|AKIA|AGPA|AIDA|AROA|AIPA|ANPA|ANVA|ASIA)[A-Z0-9]{16}[" '' ]'

Token类

# JWT Token
- id: jwt_token
  enabled: true
  pattern: eyJ[A-Za-z0-9_/+\-]{10,}={0,2}\.[A-Za-z0-9_]{15,}={0,2}\.[A-Za-z0-9_]{10,}={0,2}

# Bearer Token
- id: bearer_token
  enabled: true
  pattern: \b[Bb]earer\s+[a-zA-Z0-9\-_]{20,500}\b

# GitHub Token
- id: github_token
  enabled: true
  pattern: \b((?:ghp|gho|ghu|ghs|ghr|github_pat)_[a-zA-Z0-9_]{36,255})\b

Webhook类

# 企业微信 webhook
- id: wechat_webhookurl
  enabled: true
  pattern: \bhttps://qyapi.weixin.qq.com/cgi-bin/webhook/send\?key=[a-zA-Z0-9\-]{25,50}\b

# 钉钉 webhook
- id: dingtalk_webhookurl
  enabled: true
  pattern: \bhttps://oapi.dingtalk.com/robot/send\?access_token=[a-z0-9]{50,80}\b

3. 排除规则配置

可以设置排除特定站点或内容的规则：

exclude_rules:
  # 排除站点 https://cc.163.com 中类型为 secret_key 的内容
  - name: "不收集 cc.163.com 的 secret_key"
    id: secret_key
    target: regex:cc\.163\.com
    enabled: true

  # 排除特定站点的bearer_token
  - name: "不收集 open.work.weixin.qq.com 的 bearer_token"
    id: bearer_token
    target: https://open.work.weixin.qq.com
    content: regex:Bearer\s+
    enabled: true

四、工具使用实战

1. 基本命令

./wih -t targets.txt -r wih_rules.yml -a -c 4 -P 4

参数说明：

-t targets.txt: 指定目标URL列表文件
-r wih_rules.yml: 指定规则配置文件
-a: 自动生成保存的文件名
-c 4: 设置总并发数为4
-P 4: 设置每个站点的并发数为4

2. 结果查看

扫描结果保存在results目录下：

普通敏感信息：按站点分类保存在各文件中
高敏感信息(如API密钥)：单独保存在ak_leak.txt中

查看所有结果：

cd results
cat *

五、最佳实践建议

规则定制：根据实际需求调整规则文件，启用/禁用特定规则
目标选择：从鹰图等平台获取目标URL，保存为targets.txt
并发控制：根据机器性能调整-c和-P参数
结果分析：优先处理ak_leak.txt中的高敏感信息
排除规则：合理使用排除规则减少误报和噪音

六、参考资源

ARL官方文档: https://tophanttechnology.github.io/ARL-doc/function_desc/web_info_hunter/
ARL系统安装指南: https://tophanttechnology.github.io/ARL-doc/system_install/