PyMeta 元数据提取工具使用教程

工具概述

PyMeta 是一款针对目标域名元数据的信息收集工具，基于 Python 3 开发，是 PowerMeta（基于 PowerShell 开发）的 Python 3 重构版本。该工具能够从目标域名相关的网页中提取元数据（如各种文件），帮助识别目标域名、用户名、软件/版本和命名约定等信息。

主要功能

通过 Google 和 Bing 搜索引擎爬取目标域名的相关文件
支持识别和下载以下文件类型：
- PDF (.pdf)
- Excel 文件 (.xls, .xlsx)
- CSV 文件 (.csv)
- Word 文档 (.doc, .docx)
- PowerPoint 演示文稿 (.ppt, .pptx)
使用 exiftool 从下载的文件中提取元数据
生成包含提取结果的 CSV 报告
支持手动从指定目录提取元数据

安装要求

系统依赖

必须安装 exiftool：

Ubuntu/Kali: apt-get install exiftool -y
macOS: brew install exiftool

Python 环境

需要 Python 3 环境

安装方法

通过 pip 安装

pip3 install pymetasec

从源码安装

git clone https://github.com/m8sec/pymeta
cd pymeta
python3 setup.py install

参数说明

基本选项

参数	描述
`-h`, `--help`	显示帮助信息并退出
`-T MAX_THREADS`	文件下载的最大线程数量（默认：5）
`-t TIMEOUT`	每次搜索任务的最大超时时间（默认：8秒）
`-j JITTER`	每次请求抖动间隔（默认：1秒）

搜索选项

参数	描述
`-s ENGINE`, `--search ENGINE`	指定搜索引擎（默认：'google,bing'）
`--file-type FILE_TYPE`	指定搜索的文件类型（默认：pdf,xls,xlsx,csv,doc,docx,ppt,pptx）
`-m MAX_RESULTS`	每次搜索的最大结果数量

代理选项

参数	描述
`--proxy PROXY`	设置代理请求（格式：IP:Port）
`--proxy-file PROXY`	从文件加载代理

输出选项

参数	描述
`-o DWNLD_DIR`	设置下载目录路径（默认：./）
`-f REPORT_FILE`	自定义报告名称（默认："pymeta_report.csv"）

目标选项

参数	描述
`-d DOMAIN`	设置目标域名
`-dir FILE_DIR`	设置结果文件目录

使用示例

基本用法

搜索 example.com 域名中的所有文件并提取元数据，结果保存到 CSV 报告：

pymeta -d example.com

从指定目录提取元数据

提取 Downloads/ 目录中所有文件的元数据并生成报告：

pymeta -dir Downloads/

自定义搜索选项

使用 Google 搜索 example.com 域名中的 PDF 和 Word 文档，最多 50 个结果：

pymeta -d example.com -s google --file-type pdf,doc,docx -m 50

使用代理

通过代理服务器进行搜索：

pymeta -d example.com --proxy 127.0.0.1:8080

或从文件加载多个代理：

pymeta -d example.com --proxy-file proxies.txt

自定义输出

将下载的文件保存到特定目录，并指定报告名称：

pymeta -d example.com -o /path/to/save -f custom_report.csv

许可证

PyMeta 采用 GPL-3.0 开源许可证协议发布。

项目地址

GitHub 仓库: PyMeta

注意事项

使用前请确保已安装 exiftool
大量请求可能会触发搜索引擎的反爬机制
使用代理时请确保代理服务器的可用性
工具运行需要网络连接
结果可能受搜索引擎的索引情况和隐私设置影响

高级技巧

可以结合多个搜索引擎提高结果覆盖率
调整线程数可以优化下载速度（但过高可能导致请求失败）
对于大型域名，可以分多次运行，每次针对特定文件类型
生成的 CSV 报告可以使用 Excel 或其他工具进一步分析

PyMeta 元数据提取工具使用教程工具概述 PyMeta 是一款针对目标域名元数据的信息收集工具，基于 Python 3 开发，是 PowerMeta（基于 PowerShell 开发）的 Python 3 重构版本。该工具能够从目标域名相关的网页中提取元数据（如各种文件），帮助识别目标域名、用户名、软件/版本和命名约定等信息。主要功能通过 Google 和 Bing 搜索引擎爬取目标域名的相关文件支持识别和下载以下文件类型： PDF (.pdf) Excel 文件 (.xls, .xlsx) CSV 文件 (.csv) Word 文档 (.doc, .docx) PowerPoint 演示文稿 (.ppt, .pptx) 使用 exiftool 从下载的文件中提取元数据生成包含提取结果的 CSV 报告支持手动从指定目录提取元数据安装要求系统依赖必须安装 exiftool： Ubuntu/Kali: apt-get install exiftool -y macOS: brew install exiftool Python 环境需要 Python 3 环境安装方法通过 pip 安装从源码安装参数说明基本选项 | 参数 | 描述 | |------|------| | -h , --help | 显示帮助信息并退出 | | -T MAX_THREADS | 文件下载的最大线程数量（默认：5） | | -t TIMEOUT | 每次搜索任务的最大超时时间（默认：8秒） | | -j JITTER | 每次请求抖动间隔（默认：1秒） | 搜索选项 | 参数 | 描述 | |------|------| | -s ENGINE , --search ENGINE | 指定搜索引擎（默认：'google,bing'） | | --file-type FILE_TYPE | 指定搜索的文件类型（默认：pdf,xls,xlsx,csv,doc,docx,ppt,pptx） | | -m MAX_RESULTS | 每次搜索的最大结果数量 | 代理选项 | 参数 | 描述 | |------|------| | --proxy PROXY | 设置代理请求（格式：IP:Port） | | --proxy-file PROXY | 从文件加载代理 | 输出选项 | 参数 | 描述 | |------|------| | -o DWNLD_DIR | 设置下载目录路径（默认：./） | | -f REPORT_FILE | 自定义报告名称（默认："pymeta_ report.csv"） | 目标选项 | 参数 | 描述 | |------|------| | -d DOMAIN | 设置目标域名 | | -dir FILE_DIR | 设置结果文件目录 | 使用示例基本用法搜索 example.com 域名中的所有文件并提取元数据，结果保存到 CSV 报告：从指定目录提取元数据提取 Downloads/ 目录中所有文件的元数据并生成报告：自定义搜索选项使用 Google 搜索 example.com 域名中的 PDF 和 Word 文档，最多 50 个结果：使用代理通过代理服务器进行搜索：或从文件加载多个代理：自定义输出将下载的文件保存到特定目录，并指定报告名称：许可证 PyMeta 采用 GPL-3.0 开源许可证协议发布。项目地址 GitHub 仓库: PyMeta 注意事项使用前请确保已安装 exiftool 大量请求可能会触发搜索引擎的反爬机制使用代理时请确保代理服务器的可用性工具运行需要网络连接结果可能受搜索引擎的索引情况和隐私设置影响高级技巧可以结合多个搜索引擎提高结果覆盖率调整线程数可以优化下载速度（但过高可能导致请求失败）对于大型域名，可以分多次运行，每次针对特定文件类型生成的 CSV 报告可以使用 Excel 或其他工具进一步分析