商城首页欢迎来到中国正版软件门户

您的位置:首页 >如何正确抓取依赖会话的验证码图片

如何正确抓取依赖会话的验证码图片

  发布于2026-05-03 阅读(0)

扫一扫,手机访问

如何正确抓取依赖会话的验证码图片

本文详解如何使用 python 的 requests 库成功获取动态生成的 php 验证码图片,重点解决因缺失会话 cookie 导致的请求失败问题,并提供可直接运行的完整代码与关键注意事项。

在自动化处理政务或服务类网站时,比如查询电费账单,我们常常需要先搞定验证码。一个典型的场景就是类似 https://www.php.cn/link/88e3fa7a7462c4ce017655ee2ea2ad46 这样的页面。后续无论是用OCR工具还是上Keras模型做识别,第一步总得先把验证码图片拿到手。

但问题来了:当你直接去请求那个验证码的URL(比如 simple-php-captcha.php)时,往往会碰一鼻子灰——返回的可能是张空白图片,或者干脆是403、500错误。这背后的根本原因其实很明确:这类PHP验证码脚本,其运行严重依赖服务器端的Session。你必须先访问那个包含验证码表单的主页面,建立起有效的会话并拿到Cookie,然后带着这个“通行证”去请求图片资源,才能成功。

那么,如何稳健地实现这个过程呢?下面是一套完整的方案。

如何正确抓取依赖会话的验证码图片

import requests
from urllib.parse import urljoin, urlparse
import re

# Step 1: 访问主表单页,获取初始会话 Cookie 和(可选)动态 captcha URL
form_url = 'https://www.php.cn/link/88e3fa7a7462c4ce017655ee2ea2ad46'
session = requests.Session()
form_response = session.get(form_url, timeout=10)
form_response.raise_for_status()  # 确保页面加载成功

# Step 2: 从 HTML 中提取真实的 captcha URL(推荐,避免硬编码过期链接)
# 示例:查找类似  的标签
captcha_img_tag = re.search(r']+src=[\'"]([^\'"]+simple-php-captcha\.php[^\'"]*)[\'"]', form_response.text)
if captcha_img_tag:
    captcha_path = captcha_img_tag.group(1)
    captcha_url = urljoin(form_url, captcha_path)  # 自动处理相对路径
else:
    # 回退方案:构造带时间戳的 URL(注意:部分系统要求 t 参数为当前毫秒时间戳)
    import time
    t = f"{time.time():.8f}"
    captcha_url = f"https://dpdc.org.bd/site/application/libs/captcha/simple-php-captcha.php?_CAPTCHA&t={t}"

# Step 3: 使用同一 Session 请求验证码图片(自动携带 Cookie)
captcha_response = session.get(captcha_url, timeout=10)
captcha_response.raise_for_status()

# 验证响应内容是否为有效 PNG 图像(可选但强烈推荐)
if captcha_response.headers.get('content-type', '').lower().startswith('image/'):
    with open('captcha.png', 'wb') as f:
        f.write(captcha_response.content)
    print("✅ 验证码图片已成功保存为 captcha.png")
else:
    print("❌ 响应非图像类型,Headers:", captcha_response.headers.get('content-type'))
    print("响应内容预览:", captcha_response.content[:100])

代码写好了,但有几个关键点必须注意,否则很可能前功尽弃:

  • ✅ 必须复用同一个 requests.Session() 实例:这是整个流程的核心。Session对象会自动管理Cookie,确保第二步请求验证码时,能稳稳地带上第一步建立起来的会话标识。
  • ✅ 优先从HTML解析captcha URL:别偷懒去硬编码那个URL。你看示例里URL中带的 t=1651208314,那是个Unix时间戳,分分钟就会过期。直接从页面HTML里用正则提取,才是最可靠的办法。
  • ⚠️ 检查响应头 Content-Type:拿到响应后,先别急着存盘。看一眼 Content-Type,确认它是 image/png 之类的图像格式。如果返回的是 text/html,那说明服务器拒绝了你的请求——原因可能是Cookie失效、缺少Referer头,或者User-Agent被识别为爬虫了。这时候,尝试添加一个常见的浏览器UA头(如 {'User-Agent': 'Mozilla/5.0...'})往往能解决问题。
  • ⚠️ 避免并发请求干扰会话:如果你需要批量获取验证码,记住,不要用同一个Session同时发起多个请求。要么为每个任务创建独立的Session实例,要么对请求顺序加锁,防止会话状态被意外覆盖。
  • ? 不推荐绕过Session直接伪造Cookie:动过直接伪造 PHPSESSID 这个Cookie的念头?趁早打住。PHP的 session_start() 机制生成的会话ID通常带有时效性和服务器签名验证,伪造的成功率微乎其微,纯属浪费时间。

掌握了上面这个“先会话,后图片”的标准模式之后,你就能稳定地获取到验证码图像了。接下来,无论是接入Keras做图像预处理,还是进行字符识别,流程都会顺畅很多。最后记住一个原则:验证码的本质是一种会话保护机制。尊重并遵循它的设计逻辑,往往比绞尽脑汁去想如何“绕过”它,要高效和可靠得多。

本文转载于:https://www.php.cn/faq/2320280.html 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注