如何使用PyMeta搜索和提取目标域名相关的元数据
字数 1716 2025-08-10 19:49:14

PyMeta 元数据提取工具使用教程

工具概述

PyMeta 是一款针对目标域名元数据的信息收集工具,基于 Python 3 开发,是 PowerMeta(基于 PowerShell 开发)的 Python 3 重构版本。该工具能够从目标域名相关的网页中提取元数据(如各种文件),帮助识别目标域名、用户名、软件/版本和命名约定等信息。

主要功能

  • 通过 Google 和 Bing 搜索引擎爬取目标域名的相关文件
  • 支持识别和下载以下文件类型:
    • PDF (.pdf)
    • Excel 文件 (.xls, .xlsx)
    • CSV 文件 (.csv)
    • Word 文档 (.doc, .docx)
    • PowerPoint 演示文稿 (.ppt, .pptx)
  • 使用 exiftool 从下载的文件中提取元数据
  • 生成包含提取结果的 CSV 报告
  • 支持手动从指定目录提取元数据

安装要求

系统依赖

必须安装 exiftool:

  • Ubuntu/Kali: apt-get install exiftool -y
  • macOS: brew install exiftool

Python 环境

需要 Python 3 环境

安装方法

通过 pip 安装

pip3 install pymetasec

从源码安装

git clone https://github.com/m8sec/pymeta
cd pymeta
python3 setup.py install

参数说明

基本选项

参数 描述
-h, --help 显示帮助信息并退出
-T MAX_THREADS 文件下载的最大线程数量(默认:5)
-t TIMEOUT 每次搜索任务的最大超时时间(默认:8秒)
-j JITTER 每次请求抖动间隔(默认:1秒)

搜索选项

参数 描述
-s ENGINE, --search ENGINE 指定搜索引擎(默认:'google,bing')
--file-type FILE_TYPE 指定搜索的文件类型(默认:pdf,xls,xlsx,csv,doc,docx,ppt,pptx)
-m MAX_RESULTS 每次搜索的最大结果数量

代理选项

参数 描述
--proxy PROXY 设置代理请求(格式:IP:Port)
--proxy-file PROXY 从文件加载代理

输出选项

参数 描述
-o DWNLD_DIR 设置下载目录路径(默认:./)
-f REPORT_FILE 自定义报告名称(默认:"pymeta_report.csv")

目标选项

参数 描述
-d DOMAIN 设置目标域名
-dir FILE_DIR 设置结果文件目录

使用示例

基本用法

搜索 example.com 域名中的所有文件并提取元数据,结果保存到 CSV 报告:

pymeta -d example.com

从指定目录提取元数据

提取 Downloads/ 目录中所有文件的元数据并生成报告:

pymeta -dir Downloads/

自定义搜索选项

使用 Google 搜索 example.com 域名中的 PDF 和 Word 文档,最多 50 个结果:

pymeta -d example.com -s google --file-type pdf,doc,docx -m 50

使用代理

通过代理服务器进行搜索:

pymeta -d example.com --proxy 127.0.0.1:8080

或从文件加载多个代理:

pymeta -d example.com --proxy-file proxies.txt

自定义输出

将下载的文件保存到特定目录,并指定报告名称:

pymeta -d example.com -o /path/to/save -f custom_report.csv

许可证

PyMeta 采用 GPL-3.0 开源许可证协议发布。

项目地址

GitHub 仓库: PyMeta

注意事项

  1. 使用前请确保已安装 exiftool
  2. 大量请求可能会触发搜索引擎的反爬机制
  3. 使用代理时请确保代理服务器的可用性
  4. 工具运行需要网络连接
  5. 结果可能受搜索引擎的索引情况和隐私设置影响

高级技巧

  1. 可以结合多个搜索引擎提高结果覆盖率
  2. 调整线程数可以优化下载速度(但过高可能导致请求失败)
  3. 对于大型域名,可以分多次运行,每次针对特定文件类型
  4. 生成的 CSV 报告可以使用 Excel 或其他工具进一步分析
PyMeta 元数据提取工具使用教程 工具概述 PyMeta 是一款针对目标域名元数据的信息收集工具,基于 Python 3 开发,是 PowerMeta(基于 PowerShell 开发)的 Python 3 重构版本。该工具能够从目标域名相关的网页中提取元数据(如各种文件),帮助识别目标域名、用户名、软件/版本和命名约定等信息。 主要功能 通过 Google 和 Bing 搜索引擎爬取目标域名的相关文件 支持识别和下载以下文件类型: PDF (.pdf) Excel 文件 (.xls, .xlsx) CSV 文件 (.csv) Word 文档 (.doc, .docx) PowerPoint 演示文稿 (.ppt, .pptx) 使用 exiftool 从下载的文件中提取元数据 生成包含提取结果的 CSV 报告 支持手动从指定目录提取元数据 安装要求 系统依赖 必须安装 exiftool: Ubuntu/Kali: apt-get install exiftool -y macOS: brew install exiftool Python 环境 需要 Python 3 环境 安装方法 通过 pip 安装 从源码安装 参数说明 基本选项 | 参数 | 描述 | |------|------| | -h , --help | 显示帮助信息并退出 | | -T MAX_THREADS | 文件下载的最大线程数量(默认:5) | | -t TIMEOUT | 每次搜索任务的最大超时时间(默认:8秒) | | -j JITTER | 每次请求抖动间隔(默认:1秒) | 搜索选项 | 参数 | 描述 | |------|------| | -s ENGINE , --search ENGINE | 指定搜索引擎(默认:'google,bing') | | --file-type FILE_TYPE | 指定搜索的文件类型(默认:pdf,xls,xlsx,csv,doc,docx,ppt,pptx) | | -m MAX_RESULTS | 每次搜索的最大结果数量 | 代理选项 | 参数 | 描述 | |------|------| | --proxy PROXY | 设置代理请求(格式:IP:Port) | | --proxy-file PROXY | 从文件加载代理 | 输出选项 | 参数 | 描述 | |------|------| | -o DWNLD_DIR | 设置下载目录路径(默认:./) | | -f REPORT_FILE | 自定义报告名称(默认:"pymeta_ report.csv") | 目标选项 | 参数 | 描述 | |------|------| | -d DOMAIN | 设置目标域名 | | -dir FILE_DIR | 设置结果文件目录 | 使用示例 基本用法 搜索 example.com 域名中的所有文件并提取元数据,结果保存到 CSV 报告: 从指定目录提取元数据 提取 Downloads/ 目录中所有文件的元数据并生成报告: 自定义搜索选项 使用 Google 搜索 example.com 域名中的 PDF 和 Word 文档,最多 50 个结果: 使用代理 通过代理服务器进行搜索: 或从文件加载多个代理: 自定义输出 将下载的文件保存到特定目录,并指定报告名称: 许可证 PyMeta 采用 GPL-3.0 开源许可证协议发布。 项目地址 GitHub 仓库: PyMeta 注意事项 使用前请确保已安装 exiftool 大量请求可能会触发搜索引擎的反爬机制 使用代理时请确保代理服务器的可用性 工具运行需要网络连接 结果可能受搜索引擎的索引情况和隐私设置影响 高级技巧 可以结合多个搜索引擎提高结果覆盖率 调整线程数可以优化下载速度(但过高可能导致请求失败) 对于大型域名,可以分多次运行,每次针对特定文件类型 生成的 CSV 报告可以使用 Excel 或其他工具进一步分析