如何正确抓取依赖会话的验证码图片

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

如何正确抓取依赖会话的验证码图片

本文详解如何使用 python 的 requests 库成功获取动态生成的 php 验证码图片，重点解决因缺失会话 cookie 导致的请求失败问题，并提供可直接运行的完整代码与关键注意事项。

在自动化处理政务或服务类网站时，比如查询电费账单，我们常常需要先搞定验证码。一个典型的场景就是类似 https://www.php.cn/link/88e3fa7a7462c4ce017655ee2ea2ad46 这样的页面。后续无论是用OCR工具还是上Keras模型做识别，第一步总得先把验证码图片拿到手。

但问题来了：当你直接去请求那个验证码的URL（比如 simple-php-captcha.php）时，往往会碰一鼻子灰——返回的可能是张空白图片，或者干脆是403、500错误。这背后的根本原因其实很明确：这类PHP验证码脚本，其运行严重依赖服务器端的Session。你必须先访问那个包含验证码表单的主页面，建立起有效的会话并拿到Cookie，然后带着这个“通行证”去请求图片资源，才能成功。

那么，如何稳健地实现这个过程呢？下面是一套完整的方案。

如何正确抓取依赖会话的验证码图片

import requests
from urllib.parse import urljoin, urlparse
import re

# Step 1: 访问主表单页，获取初始会话 Cookie 和（可选）动态 captcha URL
form_url = 'https://www.php.cn/link/88e3fa7a7462c4ce017655ee2ea2ad46'
session = requests.Session()
form_response = session.get(form_url, timeout=10)
form_response.raise_for_status()  # 确保页面加载成功

# Step 2: 从 HTML 中提取真实的 captcha URL（推荐，避免硬编码过期链接）
# 示例：查找类似  的标签
captcha_img_tag = re.search(r']+src=[\'"]([^\'"]+simple-php-captcha\.php[^\'"]*)[\'"]', form_response.text)
if captcha_img_tag:
    captcha_path = captcha_img_tag.group(1)
    captcha_url = urljoin(form_url, captcha_path)  # 自动处理相对路径
else:
    # 回退方案：构造带时间戳的 URL（注意：部分系统要求 t 参数为当前毫秒时间戳）
    import time
    t = f"{time.time():.8f}"
    captcha_url = f"https://dpdc.org.bd/site/application/libs/captcha/simple-php-captcha.php?_CAPTCHA&t={t}"

# Step 3: 使用同一 Session 请求验证码图片（自动携带 Cookie）
captcha_response = session.get(captcha_url, timeout=10)
captcha_response.raise_for_status()

# 验证响应内容是否为有效 PNG 图像（可选但强烈推荐）
if captcha_response.headers.get('content-type', '').lower().startswith('image/'):
    with open('captcha.png', 'wb') as f:
        f.write(captcha_response.content)
    print("✅ 验证码图片已成功保存为 captcha.png")
else:
    print("❌ 响应非图像类型，Headers:", captcha_response.headers.get('content-type'))
    print("响应内容预览:", captcha_response.content[:100])

代码写好了，但有几个关键点必须注意，否则很可能前功尽弃：

✅ 必须复用同一个 requests.Session() 实例：这是整个流程的核心。Session对象会自动管理Cookie，确保第二步请求验证码时，能稳稳地带上第一步建立起来的会话标识。
✅ 优先从HTML解析captcha URL：别偷懒去硬编码那个URL。你看示例里URL中带的 t=1651208314，那是个Unix时间戳，分分钟就会过期。直接从页面HTML里用正则提取，才是最可靠的办法。
⚠️ 检查响应头 Content-Type：拿到响应后，先别急着存盘。看一眼 Content-Type，确认它是 image/png 之类的图像格式。如果返回的是 text/html，那说明服务器拒绝了你的请求——原因可能是Cookie失效、缺少Referer头，或者User-Agent被识别为爬虫了。这时候，尝试添加一个常见的浏览器UA头（如 {'User-Agent': 'Mozilla/5.0...'}）往往能解决问题。
⚠️ 避免并发请求干扰会话：如果你需要批量获取验证码，记住，不要用同一个Session同时发起多个请求。要么为每个任务创建独立的Session实例，要么对请求顺序加锁，防止会话状态被意外覆盖。
? 不推荐绕过Session直接伪造Cookie：动过直接伪造 PHPSESSID 这个Cookie的念头？趁早打住。PHP的 session_start() 机制生成的会话ID通常带有时效性和服务器签名验证，伪造的成功率微乎其微，纯属浪费时间。

掌握了上面这个“先会话，后图片”的标准模式之后，你就能稳定地获取到验证码图像了。接下来，无论是接入Keras做图像预处理，还是进行字符识别，流程都会顺畅很多。最后记住一个原则：验证码的本质是一种会话保护机制。尊重并遵循它的设计逻辑，往往比绞尽脑汁去想如何“绕过”它，要高效和可靠得多。

本文转载于：https://www.php.cn/faq/2320280.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Python如何监听全局键盘按键实现自动化快捷键触发

下一篇：C++如何捕获所有异常 _ catch(...)与exception基类用法【干货】

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Nginx日志中的超时问题怎么解决

解决Nginx日志中的超时问题：一位运维老兵的实战指南不知道你有没有遇到过这种情况：监控告警突然响了，提示服务响应超时，一头扎进Nginx日志里却像看天书？别担心，这事儿我处理过太多次了。Nginx日志里的超时提示，表面上看都差不多，但背后的原因可能五花八门。今天，我就把自己这些年排查这类问题的思

51分钟前 0
正版软件

PHP与Linux如何高效集成

实现PHP与Linux高效集成的完整指南要让PHP在Linux环境中发挥最大效能，这套经过验证的部署方案值得你仔细参考。下面这八个关键步骤，涵盖了从环境搭建到性能调优的全流程。环境选型：LAMP还是LEMP？首先得做个基础选择：是采用经典的LAMP套件（Linux、Apache、MySQL、P

51分钟前 0
正版软件

Linux环境下PHP如何部署

在Linux上部署PHP应用：一份实战指南准备在Linux服务器上部署PHP应用？这事儿说简单也简单，说复杂也复杂。核心流程其实很清晰，但魔鬼往往藏在配置的细节里。接下来，咱们就按着从零到一的完整路径，把关键步骤和注意事项理一遍。第一步：安装Web服务器 Linux环境下，主流的Web服务器选择

52分钟前 0
正版软件

PHP脚本在Linux中如何调试

在Linux中调试PHP脚本的实用指南遇到PHP脚本需要调试时，Linux环境提供了多种行之有效的解决方案。下面这份指南将帮你快速掌握核心调试技巧。 1. 使用Xdebug扩展进行专业调试 Xdebug堪称PHP调试的利器。安装过程很简单，一条命令就能搞定： sudo apt-get instal

52分钟前 0
正版软件

SELinux如何与其他安全机制协同工作

SELinux：构建全方位安全防护体系的核心模块在当今复杂多变的安全环境下，单靠某一种防护手段往往难以应对所有威胁。SELinux（Security-Enhanced Linux）作为内核级的安全模块，通过强制访问控制（MAC）策略为Linux系统筑起了一道坚固的防线。但真正发挥其最大价值的关键，

53分钟前 0

如何正确抓取依赖会话的验证码图片

如何正确抓取依赖会话的验证码图片

产品推荐

最新发布

相关推荐

热门关注