商城首页欢迎来到中国正版软件门户

您的位置:首页 >Pandas读取外部数据的几种实现方法

Pandas读取外部数据的几种实现方法

  发布于2026-05-02 阅读(0)

扫一扫,手机访问

Pandas 支持读取几乎所有常见的外部数据格式,核心是 pd.read_* 系列函数,以下是最常用的格式及用法:

Pandas读取外部数据的几种实现方法

处理数据的第一步,往往是把外部数据“搬”进来。Pandas 在这方面堪称全能选手,其核心的 pd.read_* 系列函数几乎覆盖了所有常见的数据源。接下来,我们就逐一拆解这些最常用的读取方法。

1. 读取文本文件(CSV/TXT)

说到数据读取,CSV 和 TXT 文本文件绝对是出场率最高的选手。核心函数 pd.read_csv() 功能强大,从分隔符、编码到列名,几乎都能按需定制。

import pandas as pd
# 读取CSV文件(默认逗号分隔)
df = pd.read_csv(
    "data.csv",          # 文件路径(本地/URL)
    encoding="utf-8",    # 编码(中文常用utf-8/gbk)
    header=0,            # 第0行作为列名(默认)
    index_col=None,      # 不将某列作为索引
    sep=",",             # 分隔符(TXT常用"\t")
    na_values=["NA", "缺失", "-"],  # 哪些值视为NaN
    skiprows=1,          # 跳过前1行(如跳过注释行)
    usecols=["姓名", "分数", "班级"]  # 只读取指定列
)
print("读取的CSV数据:")
print(df.head())  # 查看前5行

用好 read_csv,关键在于几个核心参数。下面这个表格帮你快速掌握:

参数作用常用值
encoding文件编码utf-8/gbk(解决中文乱码)
header列名行号None(无列名)/0(第一行)
na_values缺失值映射["", "NA", "无"]
usecols筛选列["列1", "列2"](减少内存占用)
dtype指定列类型{"分数": int, "班级": str}

2. 读取 Excel 文件(XLS/XLSX)

对于业务场景中常见的 Excel 文件,Pandas 同样提供了得力的工具——pd.read_excel()。不过,使用前需要先安装对应的依赖库。

pip install openpyxl  # 读取xlsx
pip install xlrd      # 读取xls

依赖搞定后,基础用法其实和读 CSV 很相似:

import pandas as pd
# 读取Excel文件(指定sheet)
df = pd.read_excel(
    "data.xlsx",
    sheet_name="学生成绩",  # 指定sheet名称/索引(0为第一个)
    header=0,
    usecols="A:C",         # 只读取A-C列
    dtype={"分数": float},
    na_values=["未填写"]
)
print("读取的Excel数据:")
print(df.info())  # 查看数据基本信息

3. 读取 JSON 文件

随着 Web API 和前后端交互越来越普遍,JSON 格式的数据也日益常见。用 pd.read_json() 来处理这类结构化的数据,非常方便。

import pandas as pd
# 读取JSON文件
df = pd.read_json(
    "data.json",
    orient="records",  # JSON格式(records:[{"列1":值}, ...])
    encoding="utf-8"
)
print(df.head())

4. 读取数据库数据(MySQL/PostgreSQL)

当数据存储在关系型数据库里时,Pandas 也能直接连接并读取。这里以 MySQL 为例,首先需要安装对应的 Python 驱动。

pip install pymysql 

驱动安装好后,流程就清晰了:建立连接、执行 SQL 查询、将结果读入 DataFrame。

import pandas as pd
import pymysql
# 建立数据库连接
conn = pymysql.connect(
    host="localhost",
    user="root",
    password="123456",
    database="test_db"
)
# 读取数据库表
df = pd.read_sql(
    "SELECT * FROM student_scores",  # SQL语句
    con=conn  # 数据库连接
)
conn.close()  # 关闭连接
print(df.head())

可以看到,无论数据来自哪里,Pandas 都提供了一套相对统一、简洁的接口来读取,这正是其强大和易用之处。掌握这几类核心的读取方法,基本上就能应对日常绝大多数数据导入的需求了。

本文转载于:https://www.jb51.net/python/362356quc.htm 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注