Nginx限流与防爬虫配置实战指南<\/h1>

一、核心需求与选型优势<\/h2>

1.1 业务痛点<\/h3>

流量突增<\/strong>：正常业务流量暴涨或遭受CC攻击，导致服务器压力过大。<\/li>
恶意爬虫<\/strong>：频繁请求消耗服务器带宽与计算资源，增加成本。<\/li>
数据泄露风险<\/strong>：敏感信息被恶意爬虫批量采集。<\/li>

用户体验下降<\/strong>：正常用户因资源被占用而访问缓慢或失败。<\/li> <\/ul>
1.2 技术选型：为何选择Nginx？<\/h3>

高性能<\/strong>：基于事件驱动模型，能高效处理数万并发连接。<\/li>
低资源消耗<\/strong>：内存占用远低于传统服务器（如Apache）。<\/li>
模块化设计<\/strong>：拥有丰富的官方及第三方模块，扩展性强。<\/li>
配置灵活<\/strong>：支持精细化的规则配置与动态重载，无需重启服务。<\/li> <\/ul>
二、核心限流算法原理解析<\/h2>
2.1 令牌桶算法 (Token Bucket)<\/h3>

核心机制<\/strong>：系统以恒定速率向一个容量固定的“桶”中添加令牌。请求处理需从桶中获取一个令牌。<\/li>
特性<\/strong>：

桶满时，新令牌被丢弃。<\/li>
请求到达时，若桶中有令牌则立即处理；若无令牌则请求被限流（拒绝或排队）。<\/li> <\/ul> <\/li>
Nginx实现<\/strong>：ngx_http_limit_req_module<\/code> 模块基于此算法实现请求速率限制。<\/li> <\/ul> 2.2 漏桶算法 (Leaky Bucket)<\/h3> 核心机制<\/strong>：请求像水一样流入一个容量固定的“桶”，桶底有一个孔，以恒定速率“漏出”请求进行处理。<\/li> 特性<\/strong>：无论请求流入速率多快，处理速率都是固定的。<\/li> 桶满时，新流入的请求会被丢弃。<\/li> <\/ul> <\/li> 与令牌桶区别<\/strong>：漏桶平滑<\/strong>输出流量，令牌桶允许一定程度的突发<\/strong>流量。<\/li> <\/ul> 三、基础限流配置实战<\/h2> 3.1 基于IP的请求频率限制<\/h3> 这是最基础的限流方式，在 http<\/code> 块中定义限流区域（zone），在 server<\/code> 或 location<\/code> 块中应用。<\/p> http<\/span> { <\/span><\/span> # 定义限流区域：基于客户端IP($binary_remote_addr) <\/span><\/span><\/span><\/span> # 区域名：ip_limit，分配10MB内存，速率限制：10 requests\/second <\/span><\/span><\/span><\/span> limit_req_zone<\/span> $binary_remote_addr zone=ip_limit:10m<\/span> rate=10r\/s<\/span>; <\/span><\/span> <\/span><\/span> # 定义连接数限制区域：限制单个IP的最大并发连接数 <\/span><\/span><\/span><\/span> limit_conn_zone<\/span> $binary_remote_addr zone=conn_limit:10m<\/span>; <\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> listen<\/span> 80<\/span>; <\/span><\/span> server_name<\/span> example.com<\/span>; <\/span><\/span> <\/span><\/span> location<\/span> \/<\/span> { <\/span><\/span> # 应用IP限流规则 <\/span><\/span><\/span><\/span> # burst=5: 允许超过速率限制的5个请求排队等待（突发流量缓冲） <\/span><\/span><\/span><\/span> # nodelay: 对于超出 burst 的请求，立即返回错误，不延迟处理 <\/span><\/span><\/span><\/span> limit_req<\/span> zone=ip_limit<\/span> burst=5<\/span> nodelay<\/span>; <\/span><\/span> <\/span><\/span> # 应用连接数限制：单IP最大并发10个连接 <\/span><\/span><\/span><\/span> limit_conn<\/span> conn_limit<\/span> 10<\/span>; <\/span><\/span> <\/span><\/span> # 自定义限流后的HTTP状态码（默认429为Too Many Requests） <\/span><\/span><\/span><\/span> limit_req_status<\/span> 429<\/span>; <\/span><\/span> limit_conn_status<\/span> 429<\/span>; <\/span><\/span> <\/span><\/span> proxy_pass<\/span> http:\/\/backend<\/span>; <\/span><\/span> } <\/span><\/span> <\/span><\/span> # 自定义限流错误页面 <\/span><\/span><\/span><\/span> error_page<\/span> 429<\/span> \/429.html<\/span>; <\/span><\/span> location<\/span> = \/429.html<\/span> { <\/span><\/span> root<\/span> \/var\/www\/html<\/span>; <\/span><\/span> internal<\/span>; # 标记为内部请求，不允许外部直接访问 <\/span><\/span><\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>3.2 基于URI的差异化限流<\/h3> 针对不同特性的接口或资源，实施不同的限流策略，优化资源利用。<\/p> http<\/span> { <\/span><\/span> # 针对API接口：限制较严格 <\/span><\/span><\/span><\/span> limit_req_zone<\/span> $binary_remote_addr zone=api_limit:10m<\/span> rate=5r\/s<\/span>; <\/span><\/span> # 针对静态资源：限制可放宽 <\/span><\/span><\/span><\/span> limit_req_zone<\/span> $binary_remote_addr zone=static_limit:10m<\/span> rate=50r\/s<\/span>; <\/span><\/span> # 针对登录等敏感接口：限制非常严格，防止爆破 <\/span><\/span><\/span><\/span> limit_req_zone<\/span> $binary_remote_addr zone=login_limit:10m<\/span> rate=1r\/s<\/span>; <\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> listen<\/span> 80<\/span>; <\/span><\/span> server_name<\/span> api.example.com<\/span>; <\/span><\/span> <\/span><\/span> location<\/span> \/api\/<\/span> { <\/span><\/span> limit_req<\/span> zone=api_limit<\/span> burst=2<\/span> nodelay<\/span>; <\/span><\/span> proxy_pass<\/span> http:\/\/api_backend<\/span>; <\/span><\/span> } <\/span><\/span> <\/span><\/span> location<\/span> ~*<\/span> \.(jpg|jpeg|png|gif|css|js)<\/span>$ { <\/span><\/span> limit_req<\/span> zone=static_limit<\/span> burst=20<\/span>; <\/span><\/span> expires<\/span> 1d<\/span>; # 设置浏览器缓存 <\/span><\/span><\/span><\/span> add_header<\/span> Cache-Control<\/span> "public,<\/span> immutable"<\/span>; <\/span><\/span> } <\/span><\/span> <\/span><\/span> location<\/span> \/api\/login<\/span> { <\/span><\/span> limit_req<\/span> zone=login_limit<\/span> burst=1<\/span>; <\/span><\/span> # 记录登录限流日志，用于监控和分析 <\/span><\/span><\/span><\/span> access_log<\/span> \/var\/log\/nginx\/login_limit.log<\/span> combined<\/span>; <\/span><\/span> proxy_pass<\/span> http:\/\/auth_backend<\/span>; <\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>3.3 基于地理位置的限流<\/h3> 结合 ngx_http_geoip2_module<\/code> 模块，根据不同国家\/地区实施不同的限流策略。<\/p> 安装GeoIP2模块和数据库<\/strong>。<\/li> Nginx配置<\/strong>：<\/li> <\/ol> http<\/span> { <\/span><\/span> # 加载GeoIP2国家数据库 <\/span><\/span><\/span><\/span> geoip2<\/span> \/usr\/share\/GeoIP\/GeoLite2-Country.mmdb<\/span> { <\/span><\/span> auto_reload<\/span> 5m<\/span>; # 每隔5分钟自动重载数据库 <\/span><\/span><\/span><\/span> $geoip2_data_country_code<\/span> country<\/span> iso_code<\/span>; # 获取国家代码（如CN, US） <\/span><\/span><\/span><\/span> $geoip2_data_country_name<\/span> country<\/span> names<\/span> en<\/span>; # 获取国家英文名 <\/span><\/span><\/span><\/span> } <\/span><\/span> <\/span><\/span> # 根据国家代码映射不同的限流速率 <\/span><\/span><\/span><\/span> map<\/span> $geoip2_data_country_code $country_limit_rate { <\/span><\/span> default<\/span> 10r\/s<\/span>; # 默认速率 <\/span><\/span><\/span><\/span> CN<\/span> 20r\/s<\/span>; # 中国用户放宽限制 <\/span><\/span><\/span><\/span> US<\/span> 15r\/s<\/span>; # 美国用户 <\/span><\/span><\/span><\/span> ~^(RU|UA)$<\/span> 5r\/s<\/span>; # 俄罗斯、乌克兰等地区严格限制（使用正则匹配） <\/span><\/span><\/span><\/span> } <\/span><\/span> <\/span><\/span> # 使用映射后的变量定义限流区域 <\/span><\/span><\/span><\/span> limit_req_zone<\/span> $binary_remote_addr zone=country_limit:10m<\/span> rate=<\/span>$country_limit_rate; <\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> listen<\/span> 80<\/span>; <\/span><\/span> server_name<\/span> global.example.com<\/span>; <\/span><\/span> <\/span><\/span> location<\/span> \/<\/span> { <\/span><\/span> limit_req<\/span> zone=country_limit<\/span> burst=5<\/span>; <\/span><\/span> # 将国家信息添加到响应头，便于调试（生产环境可移除） <\/span><\/span><\/span><\/span> add_header<\/span> X-Country-Code<\/span> $geoip2_data_country_code; <\/span><\/span> add_header<\/span> X-Country-Name<\/span> $geoip2_data_country_name; <\/span><\/span> proxy_pass<\/span> http:\/\/backend<\/span>; <\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>四、高级防爬虫策略<\/h2> 4.1 User-Agent检测与过滤<\/h3> 通过识别HTTP请求头中的 User-Agent<\/code> 字段来过滤常见爬虫工具和恶意扫描器。<\/p> http<\/span> { <\/span><\/span> # 映射规则：判断是否为爬虫 <\/span><\/span><\/span><\/span> map<\/span> $http_user_agent $is_crawler { <\/span><\/span> default<\/span> 0<\/span>; # 默认不是爬虫 <\/span><\/span><\/span><\/span> # 匹配常见爬虫关键词 <\/span><\/span><\/span><\/span> ~*bot<\/span> 1<\/span>; <\/span><\/span> ~*spider<\/span> 1<\/span>; <\/span><\/span> ~*crawler<\/span> 1<\/span>; <\/span><\/span> ~*scraper<\/span> 1<\/span>; <\/span><\/span> # 匹配常见爬虫工具 <\/span><\/span><\/span><\/span> ~*python-requests<\/span> 1<\/span>; <\/span><\/span> ~*curl<\/span> 1<\/span>; <\/span><\/span> ~*wget<\/span> 1<\/span>; <\/span><\/span> ~*scrapy<\/span> 1<\/span>; <\/span><\/span> ~*beautifulsoup<\/span> 1<\/span>; <\/span><\/span> # 匹配可疑的空UA或极短UA <\/span><\/span><\/span><\/span> ""<\/span> 1<\/span>; <\/span><\/span> ~^.{0,10}$<\/span> 1<\/span>; <\/span><\/span> } <\/span><\/span> <\/span><\/span> # 映射规则：判断是否为友好的搜索引擎爬虫（白名单） <\/span><\/span><\/span><\/span> map<\/span> $http_user_agent $allowed_crawler { <\/span><\/span> default<\/span> 0<\/span>; <\/span><\/span> ~*googlebot<\/span> 1<\/span>; <\/span><\/span> ~*bingbot<\/span> 1<\/span>; <\/span><\/span> ~*baiduspider<\/span> 1<\/span>; <\/span><\/span> ~*slurp<\/span> 1<\/span>; # Yahoo <\/span><\/span><\/span><\/span> } <\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> listen<\/span> 80<\/span>; <\/span><\/span> server_name<\/span> example.com<\/span>; <\/span><\/span> <\/span><\/span> location<\/span> \/<\/span> { <\/span><\/span> # 组合判断：是爬虫且不在白名单内，则阻止 <\/span><\/span><\/span><\/span> if<\/span> (<\/span>$is_crawler)<\/span> { <\/span><\/span> set<\/span> $block_crawler 1<\/span>; <\/span><\/span> } <\/span><\/span> if<\/span> (<\/span>$allowed_crawler)<\/span> { <\/span><\/span> set<\/span> $block_crawler 0<\/span>; <\/span><\/span> } <\/span><\/span> if<\/span> (<\/span>$block_crawler)<\/span> { <\/span><\/span> return<\/span> 403<\/span>; # Forbidden <\/span><\/span><\/span><\/span> } <\/span><\/span> <\/span><\/span> proxy_pass<\/span> http:\/\/backend<\/span>; <\/span><\/span> } <\/span><\/span> <\/span><\/span> # 为友好爬虫提供robots.txt <\/span><\/span><\/span><\/span> location<\/span> \/robots.txt<\/span> { <\/span><\/span> root<\/span> \/var\/www\/html<\/span>; <\/span><\/span> add_header<\/span> Cache-Control<\/span> "public,<\/span> max-age=3600"<\/span>; <\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>4.2 基于请求特征的智能识别<\/h3> 分析请求中的其他特征，如Referer、Accept头等，识别异常行为。<\/p> http<\/span> { <\/span><\/span> # 频率检查区域 <\/span><\/span><\/span><\/span> limit_req_zone<\/span> $binary_remote_addr zone=freq_check:10m<\/span> rate=30r\/s<\/span>; <\/span><\/span> <\/span><\/span> # 检测可疑的Referer（无或特定值） <\/span><\/span><\/span><\/span> map<\/span> $http_referer $suspicious_referer { <\/span><\/span> default<\/span> 0<\/span>; <\/span><\/span> ""<\/span> 1<\/span>; # 无Referer头 <\/span><\/span><\/span><\/span> "-"<\/span> 1<\/span>; # Referer明确设置为短横线 <\/span><\/span><\/span><\/span> } <\/span><\/span> <\/span><\/span> # 检测异常的头组合（例如都为空） <\/span><\/span><\/span><\/span> map<\/span> "<\/span>$http_accept:$http_accept_language:$http_accept_encoding" $suspicious_headers { <\/span><\/span> default<\/span> 0<\/span>; <\/span><\/span> ":::"<\/span> 1<\/span>; # 三者均为空 <\/span><\/span><\/span><\/span> ~^[^:]*:[^:]*:$<\/span> 1<\/span>; # Accept-Encoding为空 <\/span><\/span><\/span><\/span> } <\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> listen<\/span> 80<\/span>; <\/span><\/span> server_name<\/span> example.com<\/span>; <\/span><\/span> <\/span><\/span> location<\/span> \/<\/span> { <\/span><\/span> # 风险评估 <\/span><\/span><\/span><\/span> set<\/span> $risk_score 0<\/span>; <\/span><\/span> if<\/span> (<\/span>$suspicious_referer)<\/span> { <\/span><\/span> set<\/span> $risk_score "<\/span>${risk_score}1"; <\/span><\/span> } <\/span><\/span> if<\/span> (<\/span>$suspicious_headers)<\/span> { <\/span><\/span> set<\/span> $risk_score "<\/span>${risk_score}1"; <\/span><\/span> } <\/span><\/span> <\/span><\/span> # 如果同时满足多个可疑条件，则应用更严格的限流并记录日志 <\/span><\/span><\/span><\/span> if<\/span> (<\/span>$risk_score ~ "11")<\/span> { <\/span><\/span> access_log<\/span> \/var\/log\/nginx\/suspicious.log<\/span> combined<\/span>; <\/span><\/span> limit_req<\/span> zone=freq_check<\/span> burst=1<\/span> nodelay<\/span>; # 极严格的限流 <\/span><\/span><\/span><\/span> } <\/span><\/span> <\/span><\/span> proxy_pass<\/span> http:\/\/backend<\/span>; <\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>4.3 JavaScript挑战验证<\/h3> 对于高度可疑的流量，返回一个简单的JavaScript计算挑战，真实浏览器会自动执行，而很多简单爬虫无法处理。<\/p> 前提<\/strong>：需要安装OpenResty或带Lua模块的Nginx (ngx_http_lua_module<\/code>)。<\/li> <\/ul> http<\/span> { <\/span><\/span> lua_package_path<\/span> "\/usr\/local\/openresty\/lualib\/?.lua<\/span>;;"<\/span>; <\/span><\/span> # 共享内存字典，用于存储验证通过的状态 <\/span><\/span><\/span><\/span> lua_shared_dict<\/span> challenge_cache<\/span> 10m<\/span>; <\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> listen<\/span> 80<\/span>; <\/span><\/span> server_name<\/span> secure.example.com<\/span>; <\/span><\/span> <\/span><\/span> # 挑战页面 <\/span><\/span><\/span><\/span> location<\/span> \/challenge<\/span> { <\/span><\/span> content_by_lua_block<\/span> { <\/span><\/span> local<\/span> template<\/span> = require<\/span> "resty.template"<\/span> <\/span><\/span> --<\/span> 生成一个基于时间和IP的挑战码并哈希<\/span> <\/span><\/span> local<\/span> challenge<\/span> = ngx.var.request_time<\/span> ..<\/span> ngx.var.remote_addr<\/span> <\/span><\/span> local<\/span> hash<\/span> = ngx.encode_base64(ngx.hmac_sha1("secret_key",<\/span> challenge))<\/span> <\/span><\/span> --<\/span> 渲染一个包含JS计算的HTML页面<\/span> <\/span><\/span> local<\/span> html<\/span> = [[<\/span> <\/span><\/span> <!DOCTYPE<\/span> html><html><head><title>Verification<\/span> Required<\/title><meta<\/span> name="robots"<\/span> content="noindex,<\/span> nofollow"><\/head><\/span> <\/span><\/span> <body><h1>Verifying<\/span> your<\/span> browser...<\/h1><\/span> <\/span><\/span> <script><\/span> <\/span><\/span> var<\/span> result<\/span> = Math.pow(2,<\/span> 3<\/span>)<\/span> +<\/span> 5<\/span>; \/\/<\/span> 一个简单的计算<\/span> <\/span><\/span> var<\/span> challenge<\/span> = "<\/span>{{challenge}}"<\/span>; <\/span><\/span> setTimeout(function()<\/span> { <\/span><\/span> var<\/span> form<\/span> = document.createElement('form')<\/span>; <\/span><\/span> form.method<\/span> = 'POST'<\/span>; <\/span><\/span> form.action<\/span> = '\/verify'<\/span>; <\/span><\/span> var<\/span> inputC<\/span> = document.createElement('input')<\/span>; inputC.type<\/span> = 'hidden'<\/span>; inputC.name<\/span> = 'challenge'<\/span>; inputC.value<\/span> = challenge<\/span>; <\/span><\/span> var<\/span> inputA<\/span> = document.createElement('input')<\/span>; inputA.type<\/span> = 'hidden'<\/span>; inputA.name<\/span> = 'answer'<\/span>; inputA.value<\/span> = result<\/span>; <\/span><\/span> form.appendChild(inputC)<\/span>; form.appendChild(inputA)<\/span>; <\/span><\/span> document.body.appendChild(form)<\/span>; form.submit()<\/span>; <\/span><\/span> },<\/span> 2000<\/span>)<\/span>; <\/span><\/span> <\/script><\/body><\/html><\/span> <\/span><\/span> ]]<\/span> <\/span><\/span> ngx.say(template.compile(html)(<\/span>{challenge<\/span> = hash<\/span>}<\/span>))<\/span> <\/span><\/span> }<\/span> <\/span><\/span> }<\/span> <\/span><\/span> <\/span><\/span> # 验证答案 <\/span><\/span><\/span><\/span> location<\/span> \/verify<\/span> { <\/span><\/span> content_by_lua_block<\/span> { <\/span><\/span> ngx.req.read_body()<\/span> <\/span><\/span> local<\/span> args<\/span> = ngx.req.get_post_args()<\/span> <\/span><\/span> --<\/span> 检查答案是否正确<\/span> (2^3<\/span> +<\/span> 5<\/span> = 13<\/span>)<\/span> <\/span><\/span> if<\/span> args.answer<\/span> == "13"<\/span> then<\/span> <\/span><\/span> local<\/span> cache<\/span> = ngx.shared.challenge_cache<\/span> <\/span><\/span> --<\/span> 验证通过，将IP存入缓存，有效期1小时<\/span> <\/span><\/span> cache:set(ngx.var.remote_addr,<\/span> "verified",<\/span> 3600<\/span>)<\/span> <\/span><\/span> ngx.redirect("\/")<\/span> --<\/span> 重定向到原始请求<\/span> <\/span><\/span> else<\/span> <\/span><\/span> ngx.status<\/span> = 403<\/span> <\/span><\/span> ngx.say("Verification<\/span> failed")<\/span> <\/span><\/span> end<\/span> <\/span><\/span> }<\/span> <\/span><\/span> }<\/span> <\/span><\/span> <\/span><\/span> location<\/span> \/<\/span> { <\/span><\/span> access_by_lua_block<\/span> { <\/span><\/span> local<\/span> cache<\/span> = ngx.shared.challenge_cache<\/span> <\/span><\/span> --<\/span> 检查IP是否已验证<\/span> <\/span><\/span> local<\/span> verified<\/span> = cache:get(ngx.var.remote_addr)<\/span> <\/span><\/span> if<\/span> not<\/span> verified<\/span> then<\/span> <\/span><\/span> --<\/span> 未验证，重定向到挑战页面<\/span> <\/span><\/span> ngx.redirect("\/challenge")<\/span> <\/span><\/span> end<\/span> <\/span><\/span> }<\/span> <\/span><\/span> proxy_pass<\/span> http:\/\/backend<\/span>; <\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>五、动态防护与监控<\/h2> 5.1 实时监控与告警<\/h3> 配置日志格式，记录关键信息，并利用 nginx-module-vts<\/code> 等模块进行状态监控。<\/p> http<\/span> { <\/span><\/span> # 自定义安全日志格式 <\/span><\/span><\/span><\/span> log_format<\/span> security_log<\/span> '<\/span>$remote_addr -<\/span> $remote_user [<\/span>$time_local] '<\/span> <\/span><\/span> '"<\/span>$request" $status $body_bytes_sent '<\/span> <\/span><\/span> '"<\/span>$http_referer" "<\/span>$http_user_agent" '<\/span> <\/span><\/span> '<\/span>$request_time $upstream_response_time '<\/span> <\/span><\/span> '<\/span>$geoip2_data_country_code'; <\/span><\/span> <\/span><\/span> vhost_traffic_status_zone<\/span>; # 启用状态监控 <\/span><\/span><\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> listen<\/span> 80<\/span>; <\/span><\/span> server_name<\/span> example.com<\/span>; <\/span><\/span> <\/span><\/span> location<\/span> \/<\/span> { <\/span><\/span> access_log<\/span> \/var\/log\/nginx\/security.log<\/span> security_log<\/span>; <\/span><\/span> # 单独记录被限流的请求 <\/span><\/span><\/span><\/span> if<\/span> (<\/span>$limit_req_status = "503")<\/span> { # 注意：limit_req默认状态码是503 <\/span><\/span><\/span><\/span> access_log<\/span> \/var\/log\/nginx\/rate_limit.log<\/span> security_log<\/span>; <\/span><\/span> } <\/span><\/span> proxy_pass<\/span> http:\/\/backend<\/span>; <\/span><\/span> } <\/span><\/span> <\/span><\/span> # Nginx状态监控面板 <\/span><\/span><\/span><\/span> location<\/span> \/nginx_status<\/span> { <\/span><\/span> vhost_traffic_status_display<\/span>; <\/span><\/span> vhost_traffic_status_display_format<\/span> html<\/span>; <\/span><\/span> # 限制内部网络访问 <\/span><\/span><\/span><\/span> allow<\/span> 10<\/span>.0.0.0\/8<\/span>; <\/span><\/span> allow<\/span> 172<\/span>.16.0.0\/12<\/span>; <\/span><\/span> allow<\/span> 192<\/span>.168.0.0\/16<\/span>; <\/span><\/span> deny<\/span> all<\/span>; <\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>5.2 自动化黑名单管理<\/h3> 使用Shell脚本定期分析Nginx日志，自动将异常IP加入黑名单。<\/p> #!\/bin\/bash <\/span><\/span><\/span><\/span># auto_blacklist.sh<\/span> <\/span><\/span> <\/span><\/span>LOG_FILE=<\/span>"\/var\/log\/nginx\/security.log"<\/span> <\/span><\/span>BLACKLIST_FILE=<\/span>"\/etc\/nginx\/conf.d\/blacklist.conf"<\/span> <\/span><\/span>TEMP_FILE=<\/span>"\/tmp\/nginx_blacklist.tmp"<\/span> <\/span><\/span> <\/span><\/span># 分析当前小时日志，提取异常IP<\/span> <\/span><\/span>awk -v date=<\/span>"<\/span>$(<\/span>date '+%d\/%b\/%Y:%H'<\/span>)<\/span>"<\/span> '$0 ~ date { <\/span><\/span><\/span> ip = $1 <\/span><\/span><\/span> if ($9 == "429" || $9 == "403") { suspicious[ip]++ } # 被限流或拒绝的 <\/span><\/span><\/span> if ($10 > 10000) { large_response[ip]++ } # 响应体过大 <\/span><\/span><\/span> if ($11 < 0.001) { fast_request[ip]++ } # 请求处理时间极短 <\/span><\/span><\/span> total[ip]++ <\/span><\/span><\/span>} <\/span><\/span><\/span>END { <\/span><\/span><\/span> for (ip in suspicious) { <\/span><\/span><\/span> # 如果限流次数超100或大响应次数超50，则加入黑名单 <\/span><\/span><\/span> if (suspicious[ip] > 100 || large_response[ip] > 50) { <\/span><\/span><\/span> print "deny " ip ";" <\/span><\/span><\/span> } <\/span><\/span><\/span> } <\/span><\/span><\/span>}'<\/span> $LOG_FILE > $TEMP_FILE <\/span><\/span> <\/span><\/span># 如果发现新IP，更新黑名单文件并重载Nginx<\/span> <\/span><\/span>if<\/span> [<\/span> -s $TEMP_FILE ]<\/span>; then<\/span> <\/span><\/span> echo "# Auto-generated blacklist - <\/span>$(<\/span>date)<\/span>"<\/span> > $BLACKLIST_FILE <\/span><\/span> cat $TEMP_FILE >> $BLACKLIST_FILE <\/span><\/span> nginx -t &&<\/span> nginx -s reload <\/span><\/span> echo "Blacklist updated with <\/span>$(<\/span>wc -l < $TEMP_FILE)<\/span> entries"<\/span> <\/span><\/span>fi<\/span> <\/span><\/span> <\/span><\/span>rm -f $TEMP_FILE <\/span><\/span><\/code><\/pre>（计划任务）<\/strong> 将此脚本加入crontab，每小时执行一次： 0 * * * * \/path\/to\/auto_blacklist.sh<\/code><\/p> 六、性能优化与最佳实践<\/h2> 6.1 内存使用优化<\/h3> 使用 $binary_remote_addr<\/code><\/strong>：二进制格式的IP比字符串格式节省更多内存。<\/li> 规范化URI<\/strong>：对相似URI（如带ID的API）进行归一化，减少zone中键的数量。<\/li> <\/ul> http<\/span> { <\/span><\/span> limit_req_zone<\/span> $binary_remote_addr zone=main_limit:50m<\/span> rate=10r\/s<\/span>; <\/span><\/span> <\/span><\/span> # 映射请求URI，进行规范化（归组） <\/span><\/span><\/span><\/span> map<\/span> $request_uri $normalized_uri { <\/span><\/span> ~^\/api\/v1\/users\/([0-9]+)<\/span> \/api\/v1\/users\/:id<\/span>; <\/span><\/span> ~^\/api\/v1\/products\/([0-9]+)<\/span> \/api\/v1\/products\/:id<\/span>; <\/span><\/span> ~^\/static\/<\/span> \/static<\/span>; <\/span><\/span> default<\/span> $request_uri; <\/span><\/span> } <\/span><\/span> <\/span><\/span> # 使用规范化后的URI作为限流键的一部分 <\/span><\/span><\/span><\/span> limit_req_zone<\/span> "<\/span>$binary_remote_addr:$normalized_uri" zone=uri_limit:30m<\/span> rate=20r\/s<\/span>; <\/span><\/span> <\/span><\/span> server<\/span> { <\/span><\/span> location<\/span> \/<\/span> { <\/span><\/span> limit_req<\/span> zone=main_limit<\/span> burst=10<\/span>; <\/span><\/span> limit_req<\/span> zone=uri_limit<\/span> burst=5<\/span>; <\/span><\/span> proxy_pass<\/span> http:\/\/backend<\/span>; <\/span><\/span> # 启用代理缓存，减轻后端压力 <\/span><\/span><\/span><\/span> proxy_cache<\/span> my_cache<\/span>; <\/span><\/span> proxy_cache_valid<\/span> 200<\/span> 1m<\/span>; <\/span><\/span> proxy_cache_key<\/span> "<\/span>$scheme$proxy_host$normalized_uri"; <\/span><\/span> } <\/span><\/span> } <\/span><\/span>} <\/span><\/span><\/code><\/pre>6.2 配置文件模块化<\/h3> 将配置拆分为多个文件，便于管理和维护。<\/p> \/etc\/nginx\/conf.d\/rate_limits.conf<\/code> (基础限流zone定义)<\/li> \/etc\/nginx\/conf.d\/security_maps.conf<\/code> (各种map映射)<\/li> \/etc\/nginx\/conf.d\/blacklist.conf<\/code> (动态黑名单)<\/li> \/etc\/nginx\/maps\/malicious_bots.map<\/code> (专门的恶意UA列表)<\/li> \/etc\/nginx\/maps\/blocked_countries.map<\/code> (国家代码映射)<\/li> <\/ul> 在主 nginx.conf<\/code> 中使用 include<\/code> 指令引入这些文件。<\/p> 总结：<\/strong> 本文档涵盖了从Nginx限流防爬虫的原理、基础配置到高级策略的完整方案。核心在于：<\/p> 理解算法<\/strong>：令牌桶与漏桶。<\/li> 分层配置<\/strong>：从IP、URI到地理位置的多维度限流。<\/li> 综合防护<\/strong>：结合UA过滤、请求特征分析、JS挑战等多手段防爬虫。<\/li> 持续运营<\/strong>：通过监控、日志分析和自动化脚本不断完善防护体系。<\/li> 注重性能<\/strong>：优化内存使用和配置结构。<\/li> <\/ol> 请根据您的实际业务需求和流量特点，灵活调整参数和策略，并进行充分测试后上线。<\/p>