Python数据处理工具之Pandas的使用详细指南

　　发布于2026-05-20　阅读（0）

扫一扫，手机访问

说到Python里的数据处理，Pandas绝对是绕不开的名字。这个由Wes McKinney在2008年创建的库，如今早已成为数据科学领域的标配工具。无论是金融分析、统计研究，还是日常的业务报表，Pandas以其高效、灵活的数据结构，让复杂的数据清洗和分析工作变得直观起来。它的名字很有意思，是“Panel Data”（面板数据）和“Python Data Analysis”的组合，这也点明了它的核心使命。

下面，我们就来系统地梳理一下Pandas的核心功能和使用技巧。很多接口的参数非常丰富，这里会聚焦于最常用和关键的部分，如果想深入了解每一个细节，官方文档永远是最好的去处。

一、从安装到上手

开始之前，安装是第一步。如果你用的是标准的Python环境，一条命令就能搞定：

pip install pandas

如果使用的是Anaconda发行版，也可以用conda安装：

conda install pandas

二、Pandas 的核心：数据结构与操作

2.1 两大核心数据结构

Pandas的强大，首先建立在两个精妙的数据结构上：Series和DataFrame。

Series，你可以把它理解为一维的、带标签的数组。它能容纳整数、字符串、浮点数等各种类型的数据。

import pandas as pd

# 创建一个简单的Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)

运行后你会看到：

0 1
1 3
2 5
3 7
4 9
dtype: int64

左边的0,1,2,3,4就是自动生成的索引标签。

而DataFrame则是二维表格，也是我们最常打交道的对象。它就像是由多个共用同一个索引的Series组成的字典，或者一个功能强大的Excel表格。

# 创建一个DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Da vid'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Paris', 'London', 'Tokyo']
}

df = pd.DataFrame(data)
print(df)

输出结果一目了然：

Name Age City
0 Alice 25 New York
1 Bob 30 Paris
2 Charlie 35 London
3 Da vid 40 Tokyo

2.2 数据的读取与写入

Pandas支持读写多种格式的数据，这是数据工作的起点。

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 读取JSON文件
df = pd.read_json('data.json')

# 将处理好的数据写回文件
df.to_csv('output.csv', index=False) # index=False表示不保存行索引
df.to_excel('output.xlsx', index=False)

2.3 数据探索与清洗

拿到数据后，第一步是了解它。这几个方法堪称“体检套餐”：

df.head()和df.tail()让你快速瞥见数据首尾，默认显示5行。

df.head(n=5)  # 看前5行
df.tail(n=5)  # 看后5行

df.info()则提供一份数据“体检报告”，包括列名、非空值数量、数据类型等。

df.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)

其中，verbose控制信息详略，show_counts决定是否显示非空值计数，对于初步判断数据完整性非常有用。

df.describe()专注于数值型列，快速给出计数、均值、标准差、最小值、四分位数等统计摘要。

df.describe(percentiles=None, include=None, exclude=None)

通过include和exclude参数，你可以灵活控制要统计的列类型。

数据清洗的重头戏是处理缺失值：

# 检查缺失值
df.isnull().sum()

# 删除包含缺失值的行（谨慎使用，可能丢失大量数据）
df.dropna()

# 填充缺失值，比如用均值填充
df.fillna(df.mean())

数据筛选则是提取所需信息的钥匙：

# 选择单列
df['column_name']

# 选择多列
df[['col1', 'col2']]

# 条件筛选：找出年龄大于30的记录
df[df['Age'] > 30]

# 更精确的标签定位(df.loc)和位置定位(df.iloc)
df.loc[row_indexer, column_indexer] # 按标签
df.iloc[row_position, column_position] # 按位置

2.4 核心数据操作

数据整理好了，接下来就是施展拳脚的时候。

1. 排序

df.sort_values是排序的主力。

Python数据处理工具之Pandas的使用详细指南

df.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)

关键参数一目了然：by指定按哪列排，ascending控制升降序，inplace决定是否直接修改原数据。举个例子，按年龄升序排列：

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Da vid', 'Eve'],
    'Age': [25, 30, 35, 40, 28],
    'Salary': [50000, 60000, 55000, 80000, 75000]
}
df = pd.DataFrame(data)

df_sorted = df.sort_values(by='Age', ascending=True)
print(df_sorted)

Name Age Salary
0 Alice 25 50000
4 Eve 28 75000
1 Bob 30 60000
2 Charlie 35 55000
3 Da vid 40 80000

2. 分组

df.groupby是进行分组聚合的利器，思路类似SQL中的GROUP BY。

Python数据处理工具之Pandas的使用详细指南

df.groupby(by, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, dropna=True)

比如，按部门计算平均薪水：

import pandas as pd

data = {
    'Department': ['HR', 'Engineering', 'Engineering', 'HR', 'Sales'],
    'Salary': [50000, 70000, 75000, 52000, 60000]
}
df = pd.DataFrame(data)

grouped = df.groupby('Department')['Salary'].mean()
print(grouped)

Department
Engineering 72500.0
HR 51000.0
Sales 60000.0
Name: Salary, dtype: float64

3. 合并数据

合并多个数据集是常态，Pandas提供了pd.concat和pd.merge两种主要方式。

pd.concat常用于简单的堆叠。

Python数据处理工具之Pandas的使用详细指南

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

例如，垂直合并两个结构相同的DataFrame：

import pandas as pd

data1 = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
data2 = {'Name': ['Charlie', 'Da vid'], 'Age': [35, 40]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

result = pd.concat([df1, df2], ignore_index=True)
print(result)

Name Age
0 Alice 25
1 Bob 30
2 Charlie 35
3 Da vid 40

pd.merge则用于基于键的SQL风格合并，功能更强大。

Python数据处理工具之Pandas的使用详细指南

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

通过how参数，你可以轻松实现内连接（inner）、左连接（left）、右连接（right）和外连接（outer）。

import pandas as pd

data1 = {'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']}
data2 = {'ID': [2, 3, 4], 'Salary': [50000, 60000, 70000]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 按'ID'进行内连接
result = pd.merge(df1, df2, on='ID', how='inner')
print(result)

ID Name Salary
0 2 Bob 50000
1 3 Charlie 60000

4. 应用函数

当内置函数不够用时，apply方法允许你施加自定义魔法。

对Series使用apply：

Python数据处理工具之Pandas的使用详细指南

Series.apply(func, convert_dtype=True, args=(), **kwds)

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Weight': [55, 65, 75]}
df = pd.DataFrame(data)

# 将Age列的值翻倍
df['Age_doubled'] = df['Age'].apply(lambda x: x * 2)
print(df)

Name Age Weight Age_doubled
0 Alice 25 55 50
1 Bob 30 65 60
2 Charlie 35 75 70

对DataFrame按行或列使用apply：

Python数据处理工具之Pandas的使用详细指南

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Weight': [55, 65, 75]}
df = pd.DataFrame(data)

# 按行计算Age和Weight的乘积
df['Age_Weight'] = df.apply(lambda row: row['Age'] * row['Weight'], axis=1)
print(df)

Name Age Weight Age_Weight
0 Alice 25 55 1375
1 Bob 30 65 1950
2 Charlie 35 75 2625

2.5 时间序列处理

Pandas对时间序列的支持是其一大亮点，处理日期数据得心应手。

# 创建规则的时间序列
date_rng = pd.date_range(start='1/1/2020', end='1/08/2020', freq='D')

# 将日期列设为索引，便于时间相关的操作
df.set_index('date_column', inplace=True)

# 重采样，例如将日数据聚合为月平均值
df.resample('M').mean()

2.6 数据可视化

Pandas集成了Matplotlib，让绘图变得异常简单，几行代码就能生成各种图表。

# 线图
df.plot()

# 柱状图
df.plot.bar()

# 直方图，查看年龄分布
df['Age'].plot.hist()

# 箱线图，查看数据分布和异常值
df.plot.box()

2.7 性能优化技巧

处理大数据集时，效率至关重要。记住这几个原则：

选择合适的数据类型：比如对于分类变量，使用`category`类型可以大幅节省内存。
拥抱向量化操作：尽量避免Python层面的循环，利用Pandas内置的向量化函数。
善用高效查询：`query()`方法在某些场景下比传统的布尔索引更快、更易读。
考虑扩展方案：当数据量巨大，超出单机内存时，可以探索Dask或Modin这类库，它们提供了类似Pandas的接口，但能进行并行或分布式计算。

三、实战代码示例

示例1：销售数据分析

假设你有一份销售记录，想分析月度趋势：

# 读取销售数据
sales = pd.read_csv('sales_data.csv')

# 将日期字符串转换为datetime类型，并计算每月销售额总和
sales['date'] = pd.to_datetime(sales['date'])
monthly_sales = sales.resample('M', on='date')['amount'].sum()

# 可视化展示
monthly_sales.plot(title='Monthly Sales')

示例2：客户细分（RFM模型）

RFM（最近一次消费、消费频率、消费金额）是经典的客户价值分析模型。用Pandas可以轻松实现：

# 假设df包含'CustomerID', 'InvoiceDate', 'InvoiceNo', 'TotalPrice'等列
# 定义分析快照日期（通常为最近日期+1天）
snapshot_date = max(df['InvoiceDate']) + pd.Timedelta(days=1)

# 按客户ID分组，计算R、F、M值
rfm = df.groupby('CustomerID').agg({
    'InvoiceDate': lambda x: (snapshot_date - x.max()).days, # 计算最近一次消费距今天数(Recency)
    'InvoiceNo': 'count', # 计算消费次数(Frequency)
    'TotalPrice': 'sum'    # 计算消费总金额(Monetary Value)
})

# 重命名列，使其意义更清晰
rfm.rename(columns={
    'InvoiceDate': 'Recency',
    'InvoiceNo': 'Frequency',
    'TotalPrice': 'MonetaryValue'
}, inplace=True)

至此，我们已经覆盖了Pandas从基础数据结构到高级数据操作的核心内容。掌握这些，你就能应对绝大多数数据处理场景了。当然，Pandas的生态非常丰富，还有更多高级功能等待探索，但万变不离其宗，理解好Series和DataFrame，你就握住了打开数据世界的钥匙。

本文转载于：https://www.jb51.net/python/364109qxy.htm 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：c++指针传递导致的重复释放问题解决

下一篇：将Python开发的Window应用打包成exe的流程步骤

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

如何配置nohup日志文件大小限制

nohup命令后台运行任务时，日志文件可能无限增长。可通过logrotate工具进行管理，配置其限制文件大小、压缩旧日志并自动轮转。具体步骤包括创建配置文件、设定参数如大小上限与保留数量，并测试验证。最终实现日志自动维护，避免磁盘空间占用并便于问题排查。

8分钟前 0
正版软件

nohup命令与screen命令如何选择

nohup和screen是Linux管理后台任务的经典工具。nohup简单直接，可让进程在终端关闭后持续运行，输出默认保存至文件，但无法交互。screen则创建可分离的虚拟终端会话，允许用户随时断开和重连，便于实时查看与交互，适合管理复杂长期任务。选择取决于任务是否需要中途干预。

8分钟前 0
正版软件

nohup命令如何正确管理后台进程

nohup命令确保Linux/Unix进程在终端关闭后持续运行。基础用法为"nohupcommand&"，输出默认保存至nohup.out文件，也可重定向至指定文件。通过ps命令查找进程ID，使用kill或kill-9终止进程。对于需交互的任务，可借助screen或tmux实现会话保持与重连，从而构建完整的后台进程管理方案。

8分钟前 0
正版软件

使用nohup时如何避免输出到终端

nohup命令可使进程在用户退出后继续运行，但默认输出会显示在终端。通过输出重定向，可将标准输出和标准错误一并保存到日志文件。例如，使用`nohupyour_command>output.log2>&1&`即可让任务在后台静默执行，所有输出记录于指定文件，便于后续查看与管理。

9分钟前 0
正版软件

nohup日志分析：如何快速定位问题

nohup命令使进程在后台持续运行，输出通常重定向至日志文件。分析时先定位日志，通过搜索“error”等关键词快速定位异常，结合上下文和系统状态推断原因（如代码错误、配置问题或资源不足），随后修复并验证结果。熟悉正常日志模式可提升异常识别效率。

10分钟前 0