您的位置:首页 >如何正确加载并保存网站的验证码图片
发布于2026-05-03 阅读(0)
扫一扫,手机访问

本文详解使用 python requests 库加载动态生成的 php 验证码图片的关键要点:必须先访问表单页面获取会话 cookie,再携带该 cookie 请求验证码 url,否则将因会话缺失而返回空白或错误响应。
在使用Python的requests库自动化采集验证码图像时,无论是为了后续的OCR识别还是深度学习模型训练,一个看似简单却极易踩坑的环节,就是如何正确地获取那张动态生成的图片。很多开发者会直接去请求验证码的URL(比如simple-php-captcha.php),结果却得到一个空白响应或者错误提示。问题出在哪里?根源往往在于忽略了背后的会话依赖机制。
以目标站点https://dpdc.org.bd为例,其使用的PHP验证码脚本并非一个独立的、无状态的资源。恰恰相反,它严重依赖服务器端的PHP Session来生成验证码文本,并将文本与随后生成的图像关联起来。如果没有建立有效的会话,服务器就无从知晓该为哪个请求生成验证码,其结果就是拒绝提供有效图片——你可能收到一个0字节的文件、一张占位图,甚至是一个HTTP 500错误。
要解决这个问题,关键在于遵循一个两步走的请求流程:
https://dpdc.org.bd/site/service/ebill_gov/这样的表单页。服务器会为此创建一个新的Session,并通过响应头Set-Cookie下发PHPSESSID等会话标识。下面是一个健壮的实现示例,包含了异常处理和动态URL提取的建议,让你能一步到位:
import requests
from urllib.parse import urljoin, urlparse
# Step 1: 获取表单页并建立会话
session = requests.Session()
form_url = "https://dpdc.org.bd/site/service/ebill_gov/"
try:
form_resp = session.get(form_url, timeout=10)
form_resp.raise_for_status()
except requests.exceptions.RequestException as e:
raise RuntimeError(f"无法访问表单页: {e}")
# ✅ 关键点:使用 requests.Session() 对象会自动管理cookies,无需手动处理
# Step 2: 构造或提取验证码URL(动态解析优于硬编码)
# 如果验证码URL嵌入在HTML中(如
),推荐使用BeautifulSoup解析:
# from bs4 import BeautifulSoup
# soup = BeautifulSoup(form_resp.text, 'html.parser')
# captcha_img = soup.find('img', {'id': 'captcha-image'}) or soup.find('img', alt='Captcha')
# captcha_url = urljoin(form_url, captcha_img['src']) if captcha_img else None
# 如果URL已知,需注意:t参数常为时间戳,硬编码可能导致过期。动态提取更稳妥。
captcha_url = "https://dpdc.org.bd/site/application/libs/captcha/simple-php-captcha.php?_CAPTCHA&t=0.22003900+1651258878"
try:
captcha_resp = session.get(captcha_url, timeout=10)
captcha_resp.raise_for_status()
# 可选:验证响应内容是否为有效的图像文件
if captcha_resp.headers.get('content-type', '').lower().startswith('image/'):
with open("captcha.png", "wb") as f:
f.write(captcha_resp.content)
print("✅ 验证码图片已成功保存为 captcha.png")
else:
print("⚠️ 警告:响应不是图像类型,Content-Type =", captcha_resp.headers.get('content-type'))
print("响应内容前100字节:", captcha_resp.content[:100])
except requests.exceptions.RequestException as e:
raise RuntimeError(f"获取验证码图片失败: {e}")
t=0.84582400+1651208314的参数很可能被服务器用于校验时效。最稳妥的做法是从页面HTML源码中动态提取![]()
标签的src属性。cookies=参数更可靠、更简洁。form_resp.cookies和captcha_resp.status_code、captcha_resp.headers来检查会话传递是否成功以及服务器的响应状态。robots.txt和服务条款。验证码采集应严格用于合法、合规的学习或已获授权的用途。完成以上步骤后,你就能稳定地获取到真实可用的PNG验证码图像了。接下来,无论是接入Keras、TensorFlow进行模型训练,还是使用其他OCR工具进行识别,都将畅通无阻。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9