商城首页欢迎来到中国正版软件门户

您的位置:首页 >如何正确加载并保存网站的验证码图片

如何正确加载并保存网站的验证码图片

  发布于2026-05-03 阅读(0)

扫一扫,手机访问

如何正确加载并保存网站的验证码图片

如何正确加载并保存网站的验证码图片

本文详解使用 python requests 库加载动态生成的 php 验证码图片的关键要点:必须先访问表单页面获取会话 cookie,再携带该 cookie 请求验证码 url,否则将因会话缺失而返回空白或错误响应。

在使用Python的requests库自动化采集验证码图像时,无论是为了后续的OCR识别还是深度学习模型训练,一个看似简单却极易踩坑的环节,就是如何正确地获取那张动态生成的图片。很多开发者会直接去请求验证码的URL(比如simple-php-captcha.php),结果却得到一个空白响应或者错误提示。问题出在哪里?根源往往在于忽略了背后的会话依赖机制

以目标站点https://dpdc.org.bd为例,其使用的PHP验证码脚本并非一个独立的、无状态的资源。恰恰相反,它严重依赖服务器端的PHP Session来生成验证码文本,并将文本与随后生成的图像关联起来。如果没有建立有效的会话,服务器就无从知晓该为哪个请求生成验证码,其结果就是拒绝提供有效图片——你可能收到一个0字节的文件、一张占位图,甚至是一个HTTP 500错误。

✅ 核心流程:两步请求法

要解决这个问题,关键在于遵循一个两步走的请求流程

  1. 首次GET请求:访问表单页面。这一步的目标是“敲门”,访问例如https://dpdc.org.bd/site/service/ebill_gov/这样的表单页。服务器会为此创建一个新的Session,并通过响应头Set-Cookie下发PHPSESSID等会话标识。
  2. 二次GET请求:获取验证码图片。在第一步的基础上,复用已获得的会话Cookie,再去请求验证码的URL。这样,服务器就能识别出这是同一个会话内的请求,从而返回正确的验证码图像。

完整实现示例与最佳实践

下面是一个健壮的实现示例,包含了异常处理和动态URL提取的建议,让你能一步到位:

import requests
from urllib.parse import urljoin, urlparse

# Step 1: 获取表单页并建立会话
session = requests.Session()
form_url = "https://dpdc.org.bd/site/service/ebill_gov/"
try:
    form_resp = session.get(form_url, timeout=10)
    form_resp.raise_for_status()
except requests.exceptions.RequestException as e:
    raise RuntimeError(f"无法访问表单页: {e}")

# ✅ 关键点:使用 requests.Session() 对象会自动管理cookies,无需手动处理
# Step 2: 构造或提取验证码URL(动态解析优于硬编码)
# 如果验证码URL嵌入在HTML中(如 ),推荐使用BeautifulSoup解析:
# from bs4 import BeautifulSoup
# soup = BeautifulSoup(form_resp.text, 'html.parser')
# captcha_img = soup.find('img', {'id': 'captcha-image'}) or soup.find('img', alt='Captcha')
# captcha_url = urljoin(form_url, captcha_img['src']) if captcha_img else None

# 如果URL已知,需注意:t参数常为时间戳,硬编码可能导致过期。动态提取更稳妥。
captcha_url = "https://dpdc.org.bd/site/application/libs/captcha/simple-php-captcha.php?_CAPTCHA&t=0.22003900+1651258878"

try:
    captcha_resp = session.get(captcha_url, timeout=10)
    captcha_resp.raise_for_status()

    # 可选:验证响应内容是否为有效的图像文件
    if captcha_resp.headers.get('content-type', '').lower().startswith('image/'):
        with open("captcha.png", "wb") as f:
            f.write(captcha_resp.content)
        print("✅ 验证码图片已成功保存为 captcha.png")
    else:
        print("⚠️  警告:响应不是图像类型,Content-Type =", captcha_resp.headers.get('content-type'))
        print("响应内容前100字节:", captcha_resp.content[:100])
except requests.exceptions.RequestException as e:
    raise RuntimeError(f"获取验证码图片失败: {e}")

? 至关重要的注意事项

  • ❌ 切勿跳过第一步:直接请求验证码URL是导致“图片为空”问题的首要原因。
  • ⚠️ 避免硬编码时间戳参数:URL中类似t=0.84582400+1651208314的参数很可能被服务器用于校验时效。最稳妥的做法是从页面HTML源码中动态提取标签的src属性。
  • ? 善用 requests.Session():这是最佳实践。它能自动维护Cookie、连接池和请求上下文,比手动传递cookies=参数更可靠、更简洁。
  • ? 调试技巧:如果遇到问题,可以打印form_resp.cookiescaptcha_resp.status_codecaptcha_resp.headers来检查会话传递是否成功以及服务器的响应状态。
  • ? 合规性提醒:务必关注目标网站的robots.txt和服务条款。验证码采集应严格用于合法、合规的学习或已获授权的用途。

完成以上步骤后,你就能稳定地获取到真实可用的PNG验证码图像了。接下来,无论是接入Keras、TensorFlow进行模型训练,还是使用其他OCR工具进行识别,都将畅通无阻。

本文转载于:https://www.php.cn/faq/2320778.html 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注