您的位置:首页 >如何正确抓取依赖会话的验证码图片
发布于2026-05-03 阅读(0)
扫一扫,手机访问
本文详解如何使用 python 的 requests 库成功获取动态生成的 php 验证码图片,重点解决因缺失会话 cookie 导致的请求失败问题,并提供可直接运行的完整代码与关键注意事项。
在自动化处理政务或服务类网站时,比如查询电费账单,我们常常需要先搞定验证码。一个典型的场景就是类似 https://www.php.cn/link/88e3fa7a7462c4ce017655ee2ea2ad46 这样的页面。后续无论是用OCR工具还是上Keras模型做识别,第一步总得先把验证码图片拿到手。
但问题来了:当你直接去请求那个验证码的URL(比如 simple-php-captcha.php)时,往往会碰一鼻子灰——返回的可能是张空白图片,或者干脆是403、500错误。这背后的根本原因其实很明确:这类PHP验证码脚本,其运行严重依赖服务器端的Session。你必须先访问那个包含验证码表单的主页面,建立起有效的会话并拿到Cookie,然后带着这个“通行证”去请求图片资源,才能成功。
那么,如何稳健地实现这个过程呢?下面是一套完整的方案。

import requests from urllib.parse import urljoin, urlparse import re # Step 1: 访问主表单页,获取初始会话 Cookie 和(可选)动态 captcha URL form_url = 'https://www.php.cn/link/88e3fa7a7462c4ce017655ee2ea2ad46' session = requests.Session() form_response = session.get(form_url, timeout=10) form_response.raise_for_status() # 确保页面加载成功 # Step 2: 从 HTML 中提取真实的 captcha URL(推荐,避免硬编码过期链接) # 示例:查找类似的标签 captcha_img_tag = re.search(r'
]+src=[\'"]([^\'"]+simple-php-captcha\.php[^\'"]*)[\'"]', form_response.text) if captcha_img_tag: captcha_path = captcha_img_tag.group(1) captcha_url = urljoin(form_url, captcha_path) # 自动处理相对路径 else: # 回退方案:构造带时间戳的 URL(注意:部分系统要求 t 参数为当前毫秒时间戳) import time t = f"{time.time():.8f}" captcha_url = f"https://dpdc.org.bd/site/application/libs/captcha/simple-php-captcha.php?_CAPTCHA&t={t}" # Step 3: 使用同一 Session 请求验证码图片(自动携带 Cookie) captcha_response = session.get(captcha_url, timeout=10) captcha_response.raise_for_status() # 验证响应内容是否为有效 PNG 图像(可选但强烈推荐) if captcha_response.headers.get('content-type', '').lower().startswith('image/'): with open('captcha.png', 'wb') as f: f.write(captcha_response.content) print("✅ 验证码图片已成功保存为 captcha.png") else: print("❌ 响应非图像类型,Headers:", captcha_response.headers.get('content-type')) print("响应内容预览:", captcha_response.content[:100])
代码写好了,但有几个关键点必须注意,否则很可能前功尽弃:
t=1651208314,那是个Unix时间戳,分分钟就会过期。直接从页面HTML里用正则提取,才是最可靠的办法。Content-Type,确认它是 image/png 之类的图像格式。如果返回的是 text/html,那说明服务器拒绝了你的请求——原因可能是Cookie失效、缺少Referer头,或者User-Agent被识别为爬虫了。这时候,尝试添加一个常见的浏览器UA头(如 {'User-Agent': 'Mozilla/5.0...'})往往能解决问题。PHPSESSID 这个Cookie的念头?趁早打住。PHP的 session_start() 机制生成的会话ID通常带有时效性和服务器签名验证,伪造的成功率微乎其微,纯属浪费时间。掌握了上面这个“先会话,后图片”的标准模式之后,你就能稳定地获取到验证码图像了。接下来,无论是接入Keras做图像预处理,还是进行字符识别,流程都会顺畅很多。最后记住一个原则:验证码的本质是一种会话保护机制。尊重并遵循它的设计逻辑,往往比绞尽脑汁去想如何“绕过”它,要高效和可靠得多。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9