Python爬虫怎么处理复杂的POST请求_利用Python模拟Form表单提交

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

正确构造带文件上传的 multipart/form-data 请求需用 requests.Session() 管理 Cookie，data 传文本字段、files 传文件元组，由 requests 自动设 boundary 和 Content-Type；CSRF Token 需先 GET 提取再即时使用。

怎么构造带文件上传的 multipart/form-data POST 请求

直接调用 requests.post(url, data=...) 大概率会失败。原因很简单：这个方法默认发送的是 application/x-www-form-urlencoded 格式，而包含文件上传的表单，其内容类型必须是 multipart/form-data，并且需要一个由库自动管理的边界（boundary）。

正确的做法，是将普通字段和文件字段分开处理：data 参数用于存放纯文本字段，files 参数则专门用于文件字段。这样一来，requests 库就会自动拼接 boundary、并设置正确的 Content-Type 请求头。

普通字段：比如 username、csrf_token，直接写入 data 字典，值为字符串即可。
文件字段：比如 a vatar，必须写入 files 字典，并且值需要是一个三元组：('filename.jpg', open('path.jpg', 'rb'), 'image/jpeg')。
关键提醒：千万不要手动设置 Content-Type 请求头。一旦手动指定，requests 就会跳过自动生成 boundary 的步骤，直接导致服务端解析失败。
资源管理：文件句柄记得用 with 语句打开，或者确保后续调用 close() 方法。requests 库不会帮你关闭文件。

如何处理带 CSRF Token 的表单提交

很多网站的表单里都藏着“暗桩”——一个名为 csrf_token 的隐藏字段。这个值可不是固定的，必须先用 GET 请求获取页面，然后用正则表达式或者 BeautifulSoup 把它“挖”出来，再塞进后续的 POST 数据里。

漏掉这个 token，或者复用了过期的旧 token，是导致 403 或 422 错误的常见原因，尤其是在登录、发表评论这类敏感操作中。

立即学习“Python免费学习笔记（深入）”；

第一步，使用 requests.get(url) 获取页面的 HTML 源码。
第二步，用 re.search(r'name="csrf_token"\s+value="([^"]+)"', html_text) 或者 soup.find('input', {'name': 'csrf_token'})['value'] 提取出 token 值。
第三步，提取后立刻用于下一次 POST 请求，不要缓存超过 1 分钟，因为这类 token 通常都有时效性。
额外情况：有些站点会用 X-CSRFToken 这样的请求头来传递 token。这时就需要从 Set-Cookie 响应头或者响应体中提取值，然后手动加到 headers 字典里。

POST 请求里该用 data 还是 json 参数

这取决于目标接口的设计。最可靠的方法是查看接口文档，或者打开浏览器的开发者工具，在「Headers」标签页下查看「Request Payload」部分。格式一旦不对，服务端可能根本收不到你发送的字段。

传统表单提交（Content-Type: application/x-www-form-urlencoded）→ 使用 data=dict(...)，requests 会自动将其编码成 a=1&b=2 的格式。
现代 API 接口（Content-Type: application/json）→ 使用 json=dict(...)，requests 会自动序列化字典并设置正确的请求头。
避免冲突：同时混用 data 和 json 参数会导致冲突，requests 可能会报错，或者静默忽略其中一个。
特殊情况：如果必须发送 JSON 数据，但服务端（比如一些老旧系统）不识别 application/json 请求头，可以手动组合：data=json.dumps(...) 并加上 headers={'Content-Type': 'application/json'}。

为什么用 Session 而不是反复 new requests

核心原因在于 Cookie 的维持。像 sessionid、login_token 这类关键 Cookie 需要自动携带。如果每次 POST 都新建一个请求对象，就等于每次都在开一个新的“隐身窗口”，之前的登录状态全部丢失。

标准做法：统一使用 s = requests.Session() 创建一个会话对象，后续所有的 s.get() 和 s.post() 调用都会自动共享 Cookie。
便捷性：登录成功后，后续的请求就无需再手动处理 Cookie，Session 对象会自动附带。
注意边界：有些网站的 Cookie 是通过 Ja vaScript 动态写入的，单纯的 requests 请求无法获取。遇到这种情况，可能需要切换到 Selenium，或者深入分析 JS 逻辑来模拟生成。
重定向处理：Session 对象本身不会自动处理重定向后的 Cookie 更新，但好在默认的 allow_redirects=True 参数已经能覆盖绝大多数场景。

说到底，一个 POST 请求能否成功跑通，关键往往不在于 POST 本身，而在于前序动作：你是否拿到了最新的 token？Cookie 是否持续有效？multipart 的边界有没有被手动破坏？这些细节一旦出错，服务端可能连错误日志都不会记录——因为它根本就没能成功解析到你发送的字段。

本文转载于：https://www.php.cn/faq/2314299.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：C#怎么实现数据库备份还原 C#如何用代码自动备份和恢复SQL Server数据库【数据库】

下一篇：如何用Python脚本批量上传本地视频到流媒体平台

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Ubuntu C++如何进行跨平台编译

在Ubuntu上进行C++跨平台编译想让C++程序在另一个硬件平台，比如ARM设备上跑起来？关键一步就是在Ubuntu上设置好交叉编译工具链。这事儿听起来有点专业，但按步骤来，其实并不复杂。本质上，就是让Ubuntu这个“东道主”能理解和编译出适应目标平台“口味”的可执行文件。下面这份流程，基本

6分钟前 0
正版软件

C++代码在Ubuntu如何进行内存泄漏检测

在Ubuntu上使用Valgrind检测C++内存泄漏处理C++项目时，内存泄漏是个绕不开的经典难题。好在Ubuntu平台下，我们有一柄利器——Valgrind。它不只检查内存泄漏，还能揪出越界访问等一众内存顽疾，堪称开发者的“内存侦探”。具体操作步骤分解接下来，我们按顺序走一遍完整的检测流程

7分钟前 0
正版软件

函数式编程、响应式编程、链式编程

函数式编程由回掉函数指针衍生说起函数式编程，它的源头其实可以追溯到回调函数指针这个概念。简单来说，就是把函数当作一个可以传递和操作的参数来用。这种思路一旦打开，代码的灵活性和表达力就上了一个台阶。响应式编程基础是关联操作的封装那么响应式编程呢？它的基石在于对关联操作的封装。你可以把它想象成一套

7分钟前 0
正版软件

编程是什么

编程是什么？在软件行业沉浸多年，回头一想，似乎很少严肃地追问过这个最根本的问题：到底什么是编程？今天，就让我们来好好探讨一下。如果翻开教科书，你会找到这样的标准答案：编程，就是为解决特定问题，使用某种程序设计语言编写代码，并最终让计算机输出结果的过程。其核心在于，人类必须将解决问题的思路、方法和

7分钟前 0
正版软件

Debian中Rust工具链如何搭建

Debian 上搭建 Rust 工具链想在 Debian 系统上愉快地敲 Rust 代码？第一步自然是把工具链给配好。这里提供两种主流路径，各有侧重，选对方法能让后续开发事半功倍。一安装方式与选择方式一：使用 rustup（推荐）如果你需要灵活切换 Rust 版本、尝鲜最新的夜间版（Nig

8分钟前 0