Beautiful Soup文本提取进阶教程

　　发布于2025-11-17　阅读（0）

扫一扫，手机访问

使用Beautiful Soup正确提取网页文本：进阶教程

本文旨在帮助开发者解决在使用Beautiful Soup库提取网页文本时遇到的常见问题，特别是当目标文本位于<script>标签内或动态加载时。我们将通过实际案例，深入探讨如何利用正则表达式和JSON解析，结合Beautiful Soup，高效、准确地提取所需信息。

在使用Beautiful Soup进行网页抓取时，有时会遇到无法直接提取所需文本的情况，这通常是因为：

文本位于<script>标签内： 一些网站会将数据嵌入到JavaScript代码中，例如存储在全局变量或JSON对象中。
文本是动态加载的： 部分网站使用JavaScript在客户端动态生成内容，这些内容可能在初始HTML中不存在。

针对以上情况，我们需要采取一些额外的步骤来提取目标文本。

1. 分析网页结构

首先，我们需要仔细分析网页的HTML源代码，确定目标文本的存储方式。常见的存储方式包括：

直接嵌入在HTML标签中 (例如 <p>, <div>)
存储在<script>标签内的JavaScript变量中
通过AJAX请求动态加载

2. 提取<script>标签中的数据

如果目标文本存储在<script>标签内，我们可以使用正则表达式来提取相关数据。以下是一个示例，演示如何提取存储在window.__INITIAL_STATE__变量中的JSON数据：

import re
import json

import requests
from bs4 import BeautifulSoup

URL = "https://habr.com/ru/hubs/gamedev/articles/"  # 目标网站URL

page = requests.get(URL).text
# 使用正则表达式匹配 window.__INITIAL_STATE__ 变量
data = re.search(r"window\.__INITIAL_STATE__=(.*}});", page).group(1)

# 将提取的字符串转换为JSON对象
data = json.loads(data)

# 遍历文章列表，提取标题和描述
for a in sorted(
    data["articlesList"]["articlesList"].values(),
    key=lambda k: k["timePublished"],
    reverse=True,
):
    print(a["titleHtml"])
    print(BeautifulSoup(a["leadData"]["textHtml"], "html.parser").text)

    # 只提取第一篇文章
    break

代码解释：

re.search(r"window\.__INITIAL_STATE__=(.*}});", page).group(1)：使用正则表达式查找以window.__INITIAL_STATE__=开头，以}}结尾的字符串，并提取括号内的内容。
json.loads(data)：将提取的JSON字符串转换为Python字典。
BeautifulSoup(a["leadData"]["textHtml"], "html.parser").text：使用Beautiful Soup解析HTML字符串，并提取文本内容。

3. 处理动态加载的内容

对于通过AJAX请求动态加载的内容，我们需要模拟AJAX请求，获取返回的数据。可以使用requests库发送GET或POST请求，然后解析返回的JSON或HTML数据。

4. 注意事项

网页结构变化： 网站的HTML结构可能会发生变化，导致代码失效。因此，需要定期检查和更新代码。
反爬虫机制： 一些网站会采取反爬虫措施，例如限制访问频率或使用验证码。我们需要遵守网站的robots.txt协议，并采取适当的措施来避免被屏蔽。例如，可以设置User-Agent，添加请求头，或者使用代理IP。
数据清洗： 提取的数据可能包含HTML标签、特殊字符或其他不需要的信息。我们需要对数据进行清洗，以获得干净、可用的数据。

总结

使用Beautiful Soup提取网页文本，需要根据网页的实际结构和数据存储方式，选择合适的方法。对于存储在<script>标签内或动态加载的数据，可以使用正则表达式、JSON解析和AJAX请求等技术来提取目标文本。同时，需要注意网页结构变化、反爬虫机制和数据清洗等问题。通过掌握这些技巧，可以更加高效、准确地从网页中提取所需信息。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：管理员怎么登录视频号回私信？管理员更换了自己的怎么办？

下一篇：coreldraw如何制作透视效果

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

C#零拷贝文件传输方法解析

C#在Windows下无法实现真正零拷贝DMA传输；TransmitFile是其最接近零拷贝的方案，需P/Invoke调用且仅适用于未加密TCPsocket。

5小时前 23:45 0
正版软件

如何提取JSON中的RequestID值

本文详解如何在Java中通过org.json库安全、准确地从多层嵌套JSON结构中提取深层字段（如CaseResult内的RequestID），避免因路径字符串误用导致的JSONException。

5小时前 23:30 0
正版软件

pandas 不规则时间序列重采样与插值方法

本文详解pandas.DataFrame.resample().interpolate()的常见误用陷阱，指出直接在resample().interpolate()中调用method='time'无法实现预期的时序插值，并提供「先聚合再插值」的标准流程，确保温度、湿度等传感器数据在重采样到固定频率（如2分钟）时保持物理合理性与数值准确性。

6小时前 23:15 0
正版软件

如何用正则匹配前缀加日期数字字符串

本文介绍如何用单条正则表达式高效筛选同时满足“以pty开头”和“包含指定日期格式数字（如20022023）”两个条件的字符串，替代多步遍历+分段判断的冗余逻辑。

6小时前 23:00 0
正版软件

Python大数据处理：高效计算技巧分享

Python在大数据处理中虽非最快，但通过合理方法仍可高效应用。1.使用Pandas时指定列类型、仅加载所需列、分块读取并及时释放内存，提升数据清洗效率；2.利用Dask进行分布式计算，支持超大文件的多核并行处理；3.结合NumPy实现向量化运算，避免循环，提高数值计算速度；4.合理使用数据库与外部存储，按需提取数据，并利用Parquet等格式优化读写性能。通过上述方法，Python可在大数据场景中发挥重要作用。

6小时前 22:45 大数据处理高效计算 0

Beautiful Soup文本提取进阶教程

产品推荐

最新发布

相关推荐

热门关注