如何正确加载并保存网站的验证码图片

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

如何正确加载并保存网站的验证码图片

本文详解使用 python requests 库加载动态生成的 php 验证码图片的关键要点：必须先访问表单页面获取会话 cookie，再携带该 cookie 请求验证码 url，否则将因会话缺失而返回空白或错误响应。

在使用Python的requests库自动化采集验证码图像时，无论是为了后续的OCR识别还是深度学习模型训练，一个看似简单却极易踩坑的环节，就是如何正确地获取那张动态生成的图片。很多开发者会直接去请求验证码的URL（比如simple-php-captcha.php），结果却得到一个空白响应或者错误提示。问题出在哪里？根源往往在于忽略了背后的会话依赖机制。

以目标站点https://dpdc.org.bd为例，其使用的PHP验证码脚本并非一个独立的、无状态的资源。恰恰相反，它严重依赖服务器端的PHP Session来生成验证码文本，并将文本与随后生成的图像关联起来。如果没有建立有效的会话，服务器就无从知晓该为哪个请求生成验证码，其结果就是拒绝提供有效图片——你可能收到一个0字节的文件、一张占位图，甚至是一个HTTP 500错误。

✅ 核心流程：两步请求法

要解决这个问题，关键在于遵循一个两步走的请求流程：

首次GET请求：访问表单页面。这一步的目标是“敲门”，访问例如https://dpdc.org.bd/site/service/ebill_gov/这样的表单页。服务器会为此创建一个新的Session，并通过响应头Set-Cookie下发PHPSESSID等会话标识。
二次GET请求：获取验证码图片。在第一步的基础上，复用已获得的会话Cookie，再去请求验证码的URL。这样，服务器就能识别出这是同一个会话内的请求，从而返回正确的验证码图像。

完整实现示例与最佳实践

下面是一个健壮的实现示例，包含了异常处理和动态URL提取的建议，让你能一步到位：

import requests
from urllib.parse import urljoin, urlparse

# Step 1: 获取表单页并建立会话
session = requests.Session()
form_url = "https://dpdc.org.bd/site/service/ebill_gov/"
try:
    form_resp = session.get(form_url, timeout=10)
    form_resp.raise_for_status()
except requests.exceptions.RequestException as e:
    raise RuntimeError(f"无法访问表单页: {e}")

# ✅ 关键点：使用 requests.Session() 对象会自动管理cookies，无需手动处理
# Step 2: 构造或提取验证码URL（动态解析优于硬编码）
# 如果验证码URL嵌入在HTML中（如 ），推荐使用BeautifulSoup解析：
# from bs4 import BeautifulSoup
# soup = BeautifulSoup(form_resp.text, 'html.parser')
# captcha_img = soup.find('img', {'id': 'captcha-image'}) or soup.find('img', alt='Captcha')
# captcha_url = urljoin(form_url, captcha_img['src']) if captcha_img else None

# 如果URL已知，需注意：t参数常为时间戳，硬编码可能导致过期。动态提取更稳妥。
captcha_url = "https://dpdc.org.bd/site/application/libs/captcha/simple-php-captcha.php?_CAPTCHA&t=0.22003900+1651258878"

try:
    captcha_resp = session.get(captcha_url, timeout=10)
    captcha_resp.raise_for_status()

    # 可选：验证响应内容是否为有效的图像文件
    if captcha_resp.headers.get('content-type', '').lower().startswith('image/'):
        with open("captcha.png", "wb") as f:
            f.write(captcha_resp.content)
        print("✅ 验证码图片已成功保存为 captcha.png")
    else:
        print("⚠️  警告：响应不是图像类型，Content-Type =", captcha_resp.headers.get('content-type'))
        print("响应内容前100字节:", captcha_resp.content[:100])
except requests.exceptions.RequestException as e:
    raise RuntimeError(f"获取验证码图片失败: {e}")

? 至关重要的注意事项

❌ 切勿跳过第一步：直接请求验证码URL是导致“图片为空”问题的首要原因。
⚠️ 避免硬编码时间戳参数：URL中类似t=0.84582400+1651208314的参数很可能被服务器用于校验时效。最稳妥的做法是从页面HTML源码中动态提取标签的src属性。
? 善用 requests.Session()：这是最佳实践。它能自动维护Cookie、连接池和请求上下文，比手动传递cookies=参数更可靠、更简洁。
? 调试技巧：如果遇到问题，可以打印form_resp.cookies和captcha_resp.status_code、captcha_resp.headers来检查会话传递是否成功以及服务器的响应状态。
? 合规性提醒：务必关注目标网站的robots.txt和服务条款。验证码采集应严格用于合法、合规的学习或已获授权的用途。

完成以上步骤后，你就能稳定地获取到真实可用的PNG验证码图像了。接下来，无论是接入Keras、TensorFlow进行模型训练，还是使用其他OCR工具进行识别，都将畅通无阻。

本文转载于：https://www.php.cn/faq/2320778.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：c++如何读取Linux内核生成的Device Tree二进制流【深度】

下一篇：如何在不使用格式化函数的情况下实现数字右对齐的6行7列输出

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

php-fpm在Ubuntu中如何优化连接数

在Ubuntu中优化PHP-FPM连接数的实用指南想让你的PHP应用在高并发下依然流畅响应吗？优化PHP-FPM的连接数配置是关键一步。通过调整几个核心参数，就能显著提升性能和资源利用率。下面这份操作指南，将带你一步步完成配置。 1. 定位并编辑PHP-FPM配置文件一切调整都始于配置文件。通常

7分钟前 0
正版软件

php-fpm在Ubuntu中如何配置日志级别

在Ubuntu中配置PHP-FPM日志级别给PHP-FPM配置合适的日志级别，是排查线上问题、掌握应用运行状态的关键一步。下面这个流程，能帮你快速完成设置。 1. 打开PHP-FPM配置文件配置文件通常位于 /etc/php/{version}/fpm/pool.d/www.conf，这里的 {

8分钟前 0
正版软件

php-fpm在Ubuntu中如何调整内存限制

在Ubuntu中调整PHP-FPM内存限制的完整指南处理PHP应用时，内存限制是个绕不开的话题。尤其在Ubuntu服务器上运行PHP-FPM时，合理配置内存上限，既能保障应用稳定运行，又能避免资源浪费。下面这份操作指南，将带你一步步完成配置调整。第一步：打开终端一切操作都从终端开始。这是你与服

8分钟前 0
正版软件

php-fpm在Ubuntu中如何设置监听端口

在Ubuntu中设置PHP-FPM监听端口想让PHP-FPM换个姿势工作，从监听Unix套接字切换到监听TCP端口？这个调整在需要跨容器通信或特定网络配置的场景下很常见。过程其实很直接，核心就是修改一个配置文件。下面咱们一步步来。第一步：打开终端一切操作的基础，从打开你的终端开始。第二步：定

8分钟前 0
正版软件

nginx 如何解析php文件php-fpm的解释

nginx 如何解析php文件php-fpm的解释要理清这个过程，不妨先从nginx的配置入手。通常，我们会在nginx的配置文件（比如 /usr/local/nginx/conf/nginx.conf）里看到类似下面这样的段落： location ~ \.php { root /nginx; f

9分钟前 0