您的位置:首页 >Python数据处理工具之Pandas的使用详细指南
发布于2026-05-20 阅读(0)
扫一扫,手机访问
说到Python里的数据处理,Pandas绝对是绕不开的名字。这个由Wes McKinney在2008年创建的库,如今早已成为数据科学领域的标配工具。无论是金融分析、统计研究,还是日常的业务报表,Pandas以其高效、灵活的数据结构,让复杂的数据清洗和分析工作变得直观起来。它的名字很有意思,是“Panel Data”(面板数据)和“Python Data Analysis”的组合,这也点明了它的核心使命。
下面,我们就来系统地梳理一下Pandas的核心功能和使用技巧。很多接口的参数非常丰富,这里会聚焦于最常用和关键的部分,如果想深入了解每一个细节,官方文档永远是最好的去处。
开始之前,安装是第一步。如果你用的是标准的Python环境,一条命令就能搞定:
pip install pandas
如果使用的是Anaconda发行版,也可以用conda安装:
conda install pandas
Pandas的强大,首先建立在两个精妙的数据结构上:Series和DataFrame。
Series,你可以把它理解为一维的、带标签的数组。它能容纳整数、字符串、浮点数等各种类型的数据。
import pandas as pd # 创建一个简单的Series s = pd.Series([1, 3, 5, 7, 9]) print(s)
运行后你会看到:
0 1
1 3
2 5
3 7
4 9
dtype: int64
左边的0,1,2,3,4就是自动生成的索引标签。
而DataFrame则是二维表格,也是我们最常打交道的对象。它就像是由多个共用同一个索引的Series组成的字典,或者一个功能强大的Excel表格。
# 创建一个DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Da vid'],
'Age': [25, 30, 35, 40],
'City': ['New York', 'Paris', 'London', 'Tokyo']
}
df = pd.DataFrame(data)
print(df)
输出结果一目了然:
Name Age City
0 Alice 25 New York
1 Bob 30 Paris
2 Charlie 35 London
3 Da vid 40 Tokyo
Pandas支持读写多种格式的数据,这是数据工作的起点。
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 读取JSON文件
df = pd.read_json('data.json')
# 将处理好的数据写回文件
df.to_csv('output.csv', index=False) # index=False表示不保存行索引
df.to_excel('output.xlsx', index=False)
拿到数据后,第一步是了解它。这几个方法堪称“体检套餐”:
df.head()和df.tail()让你快速瞥见数据首尾,默认显示5行。
df.head(n=5) # 看前5行 df.tail(n=5) # 看后5行
df.info()则提供一份数据“体检报告”,包括列名、非空值数量、数据类型等。
df.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)
其中,verbose控制信息详略,show_counts决定是否显示非空值计数,对于初步判断数据完整性非常有用。
df.describe()专注于数值型列,快速给出计数、均值、标准差、最小值、四分位数等统计摘要。
df.describe(percentiles=None, include=None, exclude=None)
通过include和exclude参数,你可以灵活控制要统计的列类型。
数据清洗的重头戏是处理缺失值:
# 检查缺失值 df.isnull().sum() # 删除包含缺失值的行(谨慎使用,可能丢失大量数据) df.dropna() # 填充缺失值,比如用均值填充 df.fillna(df.mean())
数据筛选则是提取所需信息的钥匙:
# 选择单列 df['column_name'] # 选择多列 df[['col1', 'col2']] # 条件筛选:找出年龄大于30的记录 df[df['Age'] > 30] # 更精确的标签定位(df.loc)和位置定位(df.iloc) df.loc[row_indexer, column_indexer] # 按标签 df.iloc[row_position, column_position] # 按位置
数据整理好了,接下来就是施展拳脚的时候。
1. 排序
df.sort_values是排序的主力。

df.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
关键参数一目了然:by指定按哪列排,ascending控制升降序,inplace决定是否直接修改原数据。举个例子,按年龄升序排列:
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Da vid', 'Eve'],
'Age': [25, 30, 35, 40, 28],
'Salary': [50000, 60000, 55000, 80000, 75000]
}
df = pd.DataFrame(data)
df_sorted = df.sort_values(by='Age', ascending=True)
print(df_sorted)
Name Age Salary
0 Alice 25 50000
4 Eve 28 75000
1 Bob 30 60000
2 Charlie 35 55000
3 Da vid 40 80000
2. 分组
df.groupby是进行分组聚合的利器,思路类似SQL中的GROUP BY。

df.groupby(by, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, dropna=True)
比如,按部门计算平均薪水:
import pandas as pd
data = {
'Department': ['HR', 'Engineering', 'Engineering', 'HR', 'Sales'],
'Salary': [50000, 70000, 75000, 52000, 60000]
}
df = pd.DataFrame(data)
grouped = df.groupby('Department')['Salary'].mean()
print(grouped)
Department
Engineering 72500.0
HR 51000.0
Sales 60000.0
Name: Salary, dtype: float64
3. 合并数据
合并多个数据集是常态,Pandas提供了pd.concat和pd.merge两种主要方式。
pd.concat常用于简单的堆叠。

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)
例如,垂直合并两个结构相同的DataFrame:
import pandas as pd
data1 = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
data2 = {'Name': ['Charlie', 'Da vid'], 'Age': [35, 40]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
result = pd.concat([df1, df2], ignore_index=True)
print(result)
Name Age
0 Alice 25
1 Bob 30
2 Charlie 35
3 Da vid 40
pd.merge则用于基于键的SQL风格合并,功能更强大。

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
通过how参数,你可以轻松实现内连接(inner)、左连接(left)、右连接(right)和外连接(outer)。
import pandas as pd
data1 = {'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']}
data2 = {'ID': [2, 3, 4], 'Salary': [50000, 60000, 70000]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
# 按'ID'进行内连接
result = pd.merge(df1, df2, on='ID', how='inner')
print(result)
ID Name Salary
0 2 Bob 50000
1 3 Charlie 60000
4. 应用函数
当内置函数不够用时,apply方法允许你施加自定义魔法。
对Series使用apply:

Series.apply(func, convert_dtype=True, args=(), **kwds)
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Weight': [55, 65, 75]}
df = pd.DataFrame(data)
# 将Age列的值翻倍
df['Age_doubled'] = df['Age'].apply(lambda x: x * 2)
print(df)
Name Age Weight Age_doubled
0 Alice 25 55 50
1 Bob 30 65 60
2 Charlie 35 75 70
对DataFrame按行或列使用apply:

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Weight': [55, 65, 75]}
df = pd.DataFrame(data)
# 按行计算Age和Weight的乘积
df['Age_Weight'] = df.apply(lambda row: row['Age'] * row['Weight'], axis=1)
print(df)
Name Age Weight Age_Weight
0 Alice 25 55 1375
1 Bob 30 65 1950
2 Charlie 35 75 2625
Pandas对时间序列的支持是其一大亮点,处理日期数据得心应手。
# 创建规则的时间序列
date_rng = pd.date_range(start='1/1/2020', end='1/08/2020', freq='D')
# 将日期列设为索引,便于时间相关的操作
df.set_index('date_column', inplace=True)
# 重采样,例如将日数据聚合为月平均值
df.resample('M').mean()
Pandas集成了Matplotlib,让绘图变得异常简单,几行代码就能生成各种图表。
# 线图 df.plot() # 柱状图 df.plot.bar() # 直方图,查看年龄分布 df['Age'].plot.hist() # 箱线图,查看数据分布和异常值 df.plot.box()
处理大数据集时,效率至关重要。记住这几个原则:
假设你有一份销售记录,想分析月度趋势:
# 读取销售数据
sales = pd.read_csv('sales_data.csv')
# 将日期字符串转换为datetime类型,并计算每月销售额总和
sales['date'] = pd.to_datetime(sales['date'])
monthly_sales = sales.resample('M', on='date')['amount'].sum()
# 可视化展示
monthly_sales.plot(title='Monthly Sales')
RFM(最近一次消费、消费频率、消费金额)是经典的客户价值分析模型。用Pandas可以轻松实现:
# 假设df包含'CustomerID', 'InvoiceDate', 'InvoiceNo', 'TotalPrice'等列
# 定义分析快照日期(通常为最近日期+1天)
snapshot_date = max(df['InvoiceDate']) + pd.Timedelta(days=1)
# 按客户ID分组,计算R、F、M值
rfm = df.groupby('CustomerID').agg({
'InvoiceDate': lambda x: (snapshot_date - x.max()).days, # 计算最近一次消费距今天数(Recency)
'InvoiceNo': 'count', # 计算消费次数(Frequency)
'TotalPrice': 'sum' # 计算消费总金额(Monetary Value)
})
# 重命名列,使其意义更清晰
rfm.rename(columns={
'InvoiceDate': 'Recency',
'InvoiceNo': 'Frequency',
'TotalPrice': 'MonetaryValue'
}, inplace=True)
至此,我们已经覆盖了Pandas从基础数据结构到高级数据操作的核心内容。掌握这些,你就能应对绝大多数数据处理场景了。当然,Pandas的生态非常丰富,还有更多高级功能等待探索,但万变不离其宗,理解好Series和DataFrame,你就握住了打开数据世界的钥匙。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
8