如何使用PyMeta搜索和提取目标域名相关的元数据
字数 1716 2025-08-10 19:49:14
PyMeta 元数据提取工具使用教程
工具概述
PyMeta 是一款针对目标域名元数据的信息收集工具,基于 Python 3 开发,是 PowerMeta(基于 PowerShell 开发)的 Python 3 重构版本。该工具能够从目标域名相关的网页中提取元数据(如各种文件),帮助识别目标域名、用户名、软件/版本和命名约定等信息。
主要功能
- 通过 Google 和 Bing 搜索引擎爬取目标域名的相关文件
- 支持识别和下载以下文件类型:
- PDF (.pdf)
- Excel 文件 (.xls, .xlsx)
- CSV 文件 (.csv)
- Word 文档 (.doc, .docx)
- PowerPoint 演示文稿 (.ppt, .pptx)
- 使用 exiftool 从下载的文件中提取元数据
- 生成包含提取结果的 CSV 报告
- 支持手动从指定目录提取元数据
安装要求
系统依赖
必须安装 exiftool:
- Ubuntu/Kali:
apt-get install exiftool -y - macOS:
brew install exiftool
Python 环境
需要 Python 3 环境
安装方法
通过 pip 安装
pip3 install pymetasec
从源码安装
git clone https://github.com/m8sec/pymeta
cd pymeta
python3 setup.py install
参数说明
基本选项
| 参数 | 描述 |
|---|---|
-h, --help |
显示帮助信息并退出 |
-T MAX_THREADS |
文件下载的最大线程数量(默认:5) |
-t TIMEOUT |
每次搜索任务的最大超时时间(默认:8秒) |
-j JITTER |
每次请求抖动间隔(默认:1秒) |
搜索选项
| 参数 | 描述 |
|---|---|
-s ENGINE, --search ENGINE |
指定搜索引擎(默认:'google,bing') |
--file-type FILE_TYPE |
指定搜索的文件类型(默认:pdf,xls,xlsx,csv,doc,docx,ppt,pptx) |
-m MAX_RESULTS |
每次搜索的最大结果数量 |
代理选项
| 参数 | 描述 |
|---|---|
--proxy PROXY |
设置代理请求(格式:IP:Port) |
--proxy-file PROXY |
从文件加载代理 |
输出选项
| 参数 | 描述 |
|---|---|
-o DWNLD_DIR |
设置下载目录路径(默认:./) |
-f REPORT_FILE |
自定义报告名称(默认:"pymeta_report.csv") |
目标选项
| 参数 | 描述 |
|---|---|
-d DOMAIN |
设置目标域名 |
-dir FILE_DIR |
设置结果文件目录 |
使用示例
基本用法
搜索 example.com 域名中的所有文件并提取元数据,结果保存到 CSV 报告:
pymeta -d example.com
从指定目录提取元数据
提取 Downloads/ 目录中所有文件的元数据并生成报告:
pymeta -dir Downloads/
自定义搜索选项
使用 Google 搜索 example.com 域名中的 PDF 和 Word 文档,最多 50 个结果:
pymeta -d example.com -s google --file-type pdf,doc,docx -m 50
使用代理
通过代理服务器进行搜索:
pymeta -d example.com --proxy 127.0.0.1:8080
或从文件加载多个代理:
pymeta -d example.com --proxy-file proxies.txt
自定义输出
将下载的文件保存到特定目录,并指定报告名称:
pymeta -d example.com -o /path/to/save -f custom_report.csv
许可证
PyMeta 采用 GPL-3.0 开源许可证协议发布。
项目地址
GitHub 仓库: PyMeta
注意事项
- 使用前请确保已安装 exiftool
- 大量请求可能会触发搜索引擎的反爬机制
- 使用代理时请确保代理服务器的可用性
- 工具运行需要网络连接
- 结果可能受搜索引擎的索引情况和隐私设置影响
高级技巧
- 可以结合多个搜索引擎提高结果覆盖率
- 调整线程数可以优化下载速度(但过高可能导致请求失败)
- 对于大型域名,可以分多次运行,每次针对特定文件类型
- 生成的 CSV 报告可以使用 Excel 或其他工具进一步分析