FBref隐藏表格提取方法详解

　　发布于2025-08-05　阅读（0）

扫一扫，手机访问

从 FBref 网站提取隐藏表格的正确方法

本文旨在解决从 FBref 网站提取隐藏表格数据的问题。通过分析网页结构，我们发现目标表格被包含在 HTML 注释中。本文将提供一种简单有效的解决方案，利用 requests 和 pandas 库，先去除 HTML 注释，然后通过 pandas.read_html() 函数的 attrs 参数，根据表格 ID 精确提取所需数据，最终将其转换为 DataFrame 格式，方便后续的数据分析与处理。

FBref 网站上的数据通常以表格形式呈现，但在某些情况下，目标表格可能被隐藏在 HTML 注释中。直接使用 BeautifulSoup 或 pandas.read_html() 函数可能无法正确提取数据。本教程将介绍如何解决这个问题，并提供可直接使用的代码示例。

解决方案：去除 HTML 注释并使用 pandas.read_html() 函数

解决问题的关键在于先移除 HTML 注释，然后再利用 pandas.read_html() 函数读取表格。以下是详细步骤和代码示例：

导入必要的库：

import requests
import pandas as pd

获取网页内容并移除注释：

url = 'https://fbref.com/it/comp/11/gca/Statistiche-di-Serie-A#all_stats_gca'
html_content = requests.get(url).text.replace('<!--','').replace('-->','')

requests.get(url).text 获取网页的 HTML 内容。
.replace('','') 移除 HTML 注释标签 。

使用 pandas.read_html() 函数提取表格：

df = pd.read_html(
    html_content,
    attrs={'id':'stats_gca'}
)[0]

pandas.read_html() 函数用于从 HTML 内容中提取表格。
attrs={'id':'stats_gca'} 指定 attrs 参数，通过表格的 id 属性精确匹配目标表格。这比仅仅依赖表格在页面中的位置更可靠。
[0] 提取 read_html() 返回的列表中的第一个元素，因为通常只有一个表格符合条件。

查看结果：

print(df)

完整代码示例：

import requests
import pandas as pd

url= 'https://fbref.com/it/comp/11/gca/Statistiche-di-Serie-A#all_stats_gca'
df = pd.read_html(
    requests.get(url).text.replace('<!--','').replace('-->','')
    ,attrs={'id':'stats_gca'}
)[0]

print(df)

注意事项：

网页结构变化： FBref 网站的结构可能会发生变化。如果代码无法正常工作，请检查网页源代码，确认表格的 id 和 HTML 注释的格式是否仍然相同。
attrs 参数的重要性： 使用 attrs 参数可以提高代码的鲁棒性。即使页面结构发生变化，只要表格的 id 保持不变，代码仍然可以正确提取数据。
编码问题： 如果遇到编码问题，可以尝试在 requests.get() 函数中指定编码方式，例如 requests.get(url, encoding='utf-8')。

总结：

通过去除 HTML 注释并结合 pandas.read_html() 函数的 attrs 参数，可以有效地从 FBref 网站提取隐藏的表格数据。这种方法具有较高的鲁棒性和可靠性，能够应对网页结构的变化。记住，在实际应用中，始终要检查网页源代码，确保代码能够正确匹配目标表格。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Win10密码设置教程及步骤详解

下一篇：抖音小店的账单怎么算？抖音小店利润怎么算

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

易次元怎么免费获得次元券?易次元app免费获得次元券教程

易次元怎么免费获得次元券？在易次元app里，次元币和次元券可以用来购买虚拟商品、兑换实物奖品等，而app也为用户提供了多种多样的方式来免费获得次元券，那么次元券有哪些免费获取方式呢，下面小编来为大家介绍一下吧。

7小时前 13:21 0
正版软件

建行app怎么激活医保电子凭证?中国建设银行app激活医保电子凭证方法

相信医保对于大家多多少少都是需要用到的，但由于医保卡总是不知道被自己放哪里了？那么如果你有中国建设银行卡，其实还能直接用建行app来领取自己的医保电子凭证进行使用。但是不知道建行app怎么激活医保电子凭证？那么可参考下文进行操作。

9小时前 11:05 0
正版软件

饿了么app怎么绑定银行卡?饿了么app绑定银行卡方法教程

饿了么app如何绑定银行卡？亲爱的美食家们，有没有在点外卖时因为忘记钱包余额不足而懊恼？有没有因为支付不便而放弃心爱的美食？为了解决您的这些烦恼，小编特别为您准备了这个教程——饿了么app如何绑定银行卡。

昨天 03-27 13:57 0
正版软件

微博怎么查看自己经常访问的人?微博查看频繁访问的人方法教程

微博怎么查看自己经常访问的人？微博是很多小伙伴都在使用的一款社交软件，这个软件功能强大，导致很多功能需要自己去挖掘，很多小伙伴反映想知道要怎么查看频繁访问的人，那么今天小编就来教一教大家查看方法，感兴趣的小伙伴一起来了解一下吧。

昨天 03-27 13:14 0
正版软件

抖音怎么关闭在线状态?抖音关闭在线状态方法教程

抖音怎么关闭在线状态？我们在刷抖音短视频的时候，一些好友之间为了分享有趣的视频通常会互相关注，但互相关注了之后你的在线状态就会在好友那边显示出来，想必很多朋友都会被这个问题所困扰吧，那么怎么关闭抖音在线状态呢，接下来让小编来给大家详细介绍一下吧。

前天 03-26 12:40 0

FBref隐藏表格提取方法详解

产品推荐

最新发布

相关推荐

热门关注