商城首页欢迎来到中国正版软件门户

您的位置:首页 >Python数据处理工具之Pandas的使用详细指南

Python数据处理工具之Pandas的使用详细指南

  发布于2026-05-20 阅读(0)

扫一扫,手机访问

说到Python里的数据处理,Pandas绝对是绕不开的名字。这个由Wes McKinney在2008年创建的库,如今早已成为数据科学领域的标配工具。无论是金融分析、统计研究,还是日常的业务报表,Pandas以其高效、灵活的数据结构,让复杂的数据清洗和分析工作变得直观起来。它的名字很有意思,是“Panel Data”(面板数据)和“Python Data Analysis”的组合,这也点明了它的核心使命。

下面,我们就来系统地梳理一下Pandas的核心功能和使用技巧。很多接口的参数非常丰富,这里会聚焦于最常用和关键的部分,如果想深入了解每一个细节,官方文档永远是最好的去处。

一、从安装到上手

开始之前,安装是第一步。如果你用的是标准的Python环境,一条命令就能搞定:

pip install pandas

如果使用的是Anaconda发行版,也可以用conda安装:

conda install pandas

二、Pandas 的核心:数据结构与操作

2.1 两大核心数据结构

Pandas的强大,首先建立在两个精妙的数据结构上:SeriesDataFrame

Series,你可以把它理解为一维的、带标签的数组。它能容纳整数、字符串、浮点数等各种类型的数据。

import pandas as pd

# 创建一个简单的Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)

运行后你会看到:

0 1

1 3

2 5

3 7

4 9

dtype: int64

左边的0,1,2,3,4就是自动生成的索引标签。

DataFrame则是二维表格,也是我们最常打交道的对象。它就像是由多个共用同一个索引的Series组成的字典,或者一个功能强大的Excel表格。

# 创建一个DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Da vid'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Paris', 'London', 'Tokyo']
}

df = pd.DataFrame(data)
print(df)

输出结果一目了然:

Name Age City

0 Alice 25 New York

1 Bob 30 Paris

2 Charlie 35 London

3 Da vid 40 Tokyo

2.2 数据的读取与写入

Pandas支持读写多种格式的数据,这是数据工作的起点。

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 读取JSON文件
df = pd.read_json('data.json')

# 将处理好的数据写回文件
df.to_csv('output.csv', index=False) # index=False表示不保存行索引
df.to_excel('output.xlsx', index=False)

2.3 数据探索与清洗

拿到数据后,第一步是了解它。这几个方法堪称“体检套餐”:

df.head()df.tail()让你快速瞥见数据首尾,默认显示5行。

df.head(n=5)  # 看前5行
df.tail(n=5)  # 看后5行

df.info()则提供一份数据“体检报告”,包括列名、非空值数量、数据类型等。

df.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)

其中,verbose控制信息详略,show_counts决定是否显示非空值计数,对于初步判断数据完整性非常有用。

df.describe()专注于数值型列,快速给出计数、均值、标准差、最小值、四分位数等统计摘要。

df.describe(percentiles=None, include=None, exclude=None)

通过includeexclude参数,你可以灵活控制要统计的列类型。

数据清洗的重头戏是处理缺失值:

# 检查缺失值
df.isnull().sum()

# 删除包含缺失值的行(谨慎使用,可能丢失大量数据)
df.dropna()

# 填充缺失值,比如用均值填充
df.fillna(df.mean())

数据筛选则是提取所需信息的钥匙:

# 选择单列
df['column_name']

# 选择多列
df[['col1', 'col2']]

# 条件筛选:找出年龄大于30的记录
df[df['Age'] > 30]

# 更精确的标签定位(df.loc)和位置定位(df.iloc)
df.loc[row_indexer, column_indexer] # 按标签
df.iloc[row_position, column_position] # 按位置

2.4 核心数据操作

数据整理好了,接下来就是施展拳脚的时候。

1. 排序

df.sort_values是排序的主力。

Python数据处理工具之Pandas的使用详细指南

df.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)

关键参数一目了然:by指定按哪列排,ascending控制升降序,inplace决定是否直接修改原数据。举个例子,按年龄升序排列:

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Da vid', 'Eve'],
    'Age': [25, 30, 35, 40, 28],
    'Salary': [50000, 60000, 55000, 80000, 75000]
}
df = pd.DataFrame(data)

df_sorted = df.sort_values(by='Age', ascending=True)
print(df_sorted)

Name Age Salary

0 Alice 25 50000

4 Eve 28 75000

1 Bob 30 60000

2 Charlie 35 55000

3 Da vid 40 80000

2. 分组

df.groupby是进行分组聚合的利器,思路类似SQL中的GROUP BY。

Python数据处理工具之Pandas的使用详细指南

df.groupby(by, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, dropna=True)

比如,按部门计算平均薪水:

import pandas as pd

data = {
    'Department': ['HR', 'Engineering', 'Engineering', 'HR', 'Sales'],
    'Salary': [50000, 70000, 75000, 52000, 60000]
}
df = pd.DataFrame(data)

grouped = df.groupby('Department')['Salary'].mean()
print(grouped)

Department

Engineering 72500.0

HR 51000.0

Sales 60000.0

Name: Salary, dtype: float64

3. 合并数据

合并多个数据集是常态,Pandas提供了pd.concatpd.merge两种主要方式。

pd.concat常用于简单的堆叠。

Python数据处理工具之Pandas的使用详细指南

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

例如,垂直合并两个结构相同的DataFrame:

import pandas as pd

data1 = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
data2 = {'Name': ['Charlie', 'Da vid'], 'Age': [35, 40]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

result = pd.concat([df1, df2], ignore_index=True)
print(result)

Name Age

0 Alice 25

1 Bob 30

2 Charlie 35

3 Da vid 40

pd.merge则用于基于键的SQL风格合并,功能更强大。

Python数据处理工具之Pandas的使用详细指南

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

通过how参数,你可以轻松实现内连接(inner)、左连接(left)、右连接(right)和外连接(outer)。

import pandas as pd

data1 = {'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']}
data2 = {'ID': [2, 3, 4], 'Salary': [50000, 60000, 70000]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 按'ID'进行内连接
result = pd.merge(df1, df2, on='ID', how='inner')
print(result)

ID Name Salary

0 2 Bob 50000

1 3 Charlie 60000

4. 应用函数

当内置函数不够用时,apply方法允许你施加自定义魔法。

对Series使用apply

Python数据处理工具之Pandas的使用详细指南

Series.apply(func, convert_dtype=True, args=(), **kwds)
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Weight': [55, 65, 75]}
df = pd.DataFrame(data)

# 将Age列的值翻倍
df['Age_doubled'] = df['Age'].apply(lambda x: x * 2)
print(df)

Name Age Weight Age_doubled

0 Alice 25 55 50

1 Bob 30 65 60

2 Charlie 35 75 70

对DataFrame按行或列使用apply

Python数据处理工具之Pandas的使用详细指南

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Weight': [55, 65, 75]}
df = pd.DataFrame(data)

# 按行计算Age和Weight的乘积
df['Age_Weight'] = df.apply(lambda row: row['Age'] * row['Weight'], axis=1)
print(df)

Name Age Weight Age_Weight

0 Alice 25 55 1375

1 Bob 30 65 1950

2 Charlie 35 75 2625

2.5 时间序列处理

Pandas对时间序列的支持是其一大亮点,处理日期数据得心应手。

# 创建规则的时间序列
date_rng = pd.date_range(start='1/1/2020', end='1/08/2020', freq='D')

# 将日期列设为索引,便于时间相关的操作
df.set_index('date_column', inplace=True)

# 重采样,例如将日数据聚合为月平均值
df.resample('M').mean()

2.6 数据可视化

Pandas集成了Matplotlib,让绘图变得异常简单,几行代码就能生成各种图表。

# 线图
df.plot()

# 柱状图
df.plot.bar()

# 直方图,查看年龄分布
df['Age'].plot.hist()

# 箱线图,查看数据分布和异常值
df.plot.box()

2.7 性能优化技巧

处理大数据集时,效率至关重要。记住这几个原则:

  1. 选择合适的数据类型:比如对于分类变量,使用`category`类型可以大幅节省内存。
  2. 拥抱向量化操作:尽量避免Python层面的循环,利用Pandas内置的向量化函数。
  3. 善用高效查询:`query()`方法在某些场景下比传统的布尔索引更快、更易读。
  4. 考虑扩展方案:当数据量巨大,超出单机内存时,可以探索Dask或Modin这类库,它们提供了类似Pandas的接口,但能进行并行或分布式计算。

三、实战代码示例

示例1:销售数据分析

假设你有一份销售记录,想分析月度趋势:

# 读取销售数据
sales = pd.read_csv('sales_data.csv')

# 将日期字符串转换为datetime类型,并计算每月销售额总和
sales['date'] = pd.to_datetime(sales['date'])
monthly_sales = sales.resample('M', on='date')['amount'].sum()

# 可视化展示
monthly_sales.plot(title='Monthly Sales')

示例2:客户细分(RFM模型)

RFM(最近一次消费、消费频率、消费金额)是经典的客户价值分析模型。用Pandas可以轻松实现:

# 假设df包含'CustomerID', 'InvoiceDate', 'InvoiceNo', 'TotalPrice'等列
# 定义分析快照日期(通常为最近日期+1天)
snapshot_date = max(df['InvoiceDate']) + pd.Timedelta(days=1)

# 按客户ID分组,计算R、F、M值
rfm = df.groupby('CustomerID').agg({
    'InvoiceDate': lambda x: (snapshot_date - x.max()).days, # 计算最近一次消费距今天数(Recency)
    'InvoiceNo': 'count', # 计算消费次数(Frequency)
    'TotalPrice': 'sum'    # 计算消费总金额(Monetary Value)
})

# 重命名列,使其意义更清晰
rfm.rename(columns={
    'InvoiceDate': 'Recency',
    'InvoiceNo': 'Frequency',
    'TotalPrice': 'MonetaryValue'
}, inplace=True)

至此,我们已经覆盖了Pandas从基础数据结构到高级数据操作的核心内容。掌握这些,你就能应对绝大多数数据处理场景了。当然,Pandas的生态非常丰富,还有更多高级功能等待探索,但万变不离其宗,理解好Series和DataFrame,你就握住了打开数据世界的钥匙。

本文转载于:https://www.jb51.net/python/364109qxy.htm 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注