Pandas日期时间转换与格式化技巧

　　发布于2026-02-13　阅读（0）

扫一扫，手机访问

Pandas中日期时间字符串的正确转换与格式化

本文详细介绍了如何在Pandas DataFrame中高效、准确地将日期时间字符串转换为datetime对象。重点讲解了使用`pd.to_datetime()`函数处理复杂日期时间格式（如包含毫秒）的方法，并强调了正确格式化字符串（特别是`%f`用于毫秒）的重要性，以避免常见的类型转换错误。文章还提供了示例代码和最佳实践，确保数据转换的准确性和健壮性。

在数据分析和处理中，将字符串形式的日期时间数据转换为可操作的datetime对象是常见的任务。尤其在使用Pandas DataFrame时，这种转换需要特别注意格式匹配和方法选择，以避免诸如“'str' object cannot be interpreted as an integer”之类的类型错误。本教程将深入探讨如何利用Pandas的强大功能，特别是pd.to_datetime()，来有效处理日期时间字符串转换。

挑战：日期时间字符串转换中的常见陷阱

当我们从CSV或其他数据源中读取日期时间数据时，它们通常以字符串形式存在。例如，一个常见的日期时间格式可能是 YY:MM:DD HH:MM:SS:MS，如 23:09:28 16:03:40:7。如果尝试使用Python标准库中的datetime.datetime函数直接处理DataFrame中的一列，并使用不完整的格式字符串（例如 %y:%m:%d %H:%M:%S 缺少毫秒部分），则很容易遇到以下问题：

格式字符串不匹配：如果字符串中包含毫秒（如 :7），而格式字符串中没有对应的 %f（微秒），则转换会失败。
类型错误：当尝试将一个包含非数字字符的字符串部分解释为整数时，Python会抛出 TypeError: 'str' object cannot be interpreted as an integer。这通常发生在格式字符串与实际数据不符，或者尝试将整个字符串传递给期望整数参数的位置时。
效率问题：对DataFrame中的每一行使用循环和datetime.datetime进行转换效率低下，不符合Pandas的向量化操作原则。

解决方案：使用 pd.to_datetime() 进行高效转换

Pandas提供了专门用于日期时间转换的函数 pd.to_datetime()，它能够高效地处理整个DataFrame列，并提供了灵活的格式化选项。

1. 核心函数：pd.to_datetime()

pd.to_datetime() 是将字符串、数字或datetime对象转换为Pandas datetime对象的首选方法。它具有以下优点：

向量化操作：直接应用于整个Series或DataFrame列，性能远超逐行循环。
智能推断：在不指定format参数时，可以尝试自动推断多种日期时间格式。
错误处理：提供 errors 参数来控制如何处理无法解析的值。
时区支持：可以方便地进行时区转换。

2. 正确指定格式字符串

解决日期时间转换问题的关键在于精确匹配日期时间字符串的格式。对于 YY:MM:DD HH:MM:SS:MS 这样的格式，其中 MS 代表毫秒，我们需要使用 %f 来匹配微秒（Python的 datetime 和 Pandas 的 to_datetime 都使用 %f 来表示微秒，即使输入是毫秒，也会被解析为微秒，例如 7 会被解析为 7000 微秒）。

下表列出了一些常用的格式代码：

代码	含义	示例
%y	两位数年份	23
%Y	四位数年份	2023
%m	月份（01-12）	09
%d	日期（01-31）	28
%H	小时（24小时制，00-23）	16
%M	分钟（00-59）	03
%S	秒（00-59）	40
%f	微秒（000000-999999）	7000 (对于输入7)

因此，对于 23:09:28 16:03:40:7 这样的字符串，正确的格式字符串应该是 "%y:%m:%d %H:%M:%S:%f"。

3. 示例代码

假设我们有一个Pandas DataFrame df，其中包含一个名为 RunStartTime 的列，其数据格式如前所述。

首先，我们创建一个示例DataFrame：

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {'RunStartTime': ['23:09:28 16:03:40:7', '23:10:01 09:15:22:123', '24:01:15 23:59:59:999']}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)
print("\nRunStartTime 列的数据类型:", df['RunStartTime'].dtype)

输出：

原始DataFrame:
           RunStartTime
0   23:09:28 16:03:40:7
1  23:10:01 09:15:22:123
2  24:01:15 23:59:59:999

RunStartTime 列的数据类型: object

现在，使用 pd.to_datetime() 进行转换，并指定正确的格式字符串：

# 使用 pd.to_datetime() 转换日期时间字符串
# 注意：格式字符串中 %y 代表两位数年份，%f 代表微秒
df['RunStartTime_dt'] = pd.to_datetime(df['RunStartTime'], format="%y:%m:%d %H:%M:%S:%f")

print("\n转换后的DataFrame:")
print(df)
print("\nRunStartTime_dt 列的数据类型:", df['RunStartTime_dt'].dtype)

输出：

转换后的DataFrame:
           RunStartTime       RunStartTime_dt
0   23:09:28 16:03:40:7 2023-09-28 16:03:40.000007
1  23:10:01 09:15:22:123 2023-10-01 09:15:22.000123
2  24:01:15 23:59:59:999 2020-01-15 23:59:59.000999

RunStartTime_dt 列的数据类型: datetime64[ns]

可以看到，RunStartTime_dt 列已成功转换为 datetime64[ns] 类型，并且毫秒部分也得到了正确解析。

4. 仅获取日期部分

如果只需要日期部分，而不需要时间信息，可以使用 .dt.normalize() 方法。这个方法会将时间部分设置为午夜（00:00:00）。

# 仅获取日期部分
df['date_only'] = df['RunStartTime_dt'].dt.normalize()

print("\n仅包含日期部分的DataFrame:")
print(df)
print("\ndate_only 列的数据类型:", df['date_only'].dtype)

输出：

仅包含日期部分的DataFrame:
           RunStartTime       RunStartTime_dt  date_only
0   23:09:28 16:03:40:7 2023-09-28 16:03:40.000007 2023-09-28
1  23:10:01 09:15:22:123 2023-10-01 09:15:22.000123 2023-10-01
2  24:01:15 23:59:59:999 2020-01-15 23:59:59.000999 2020-01-15

date_only 列的数据类型: datetime64[ns]

虽然 date_only 列的数据类型仍然是 datetime64[ns]，但其时间部分已被归一化为 00:00:00。

注意事项与最佳实践

处理无法解析的值：如果数据中可能存在无法解析的日期时间字符串，可以使用 errors 参数：

errors='raise' (默认)：遇到错误时抛出异常。
errors='coerce'：将无法解析的值转换为 NaT (Not a Time)。这在处理脏数据时非常有用。
errors='ignore'：保留原始无法解析的值。

df_err = pd.DataFrame({'time_str': ['23:09:28 16:03:40:7', 'invalid_date', '24:01:15 23:59:59:999']})
df_err['parsed_time'] = pd.to_datetime(df_err['time_str'], format="%y:%m:%d %H:%M:%S:%f", errors='coerce')
print("\n处理错误值的DataFrame:")
print(df_err)

输出：

处理错误值的DataFrame:
          time_str               parsed_time
0  23:09:28 16:03:40:7 2023-09-28 16:03:40.000007
1         invalid_date                      NaT
2  24:01:15 23:59:59:999 2020-01-15 23:59:59.000999

性能优化：
- 如果日期时间格式是固定的，始终指定 format 参数。这会显著提高解析速度，因为Pandas不需要尝试多种格式进行推断。
- 如果日期时间格式不固定但数量有限且有规律，可以尝试设置 infer_datetime_format=True。这会告诉Pandas尝试推断格式，并且在成功推断后，对于后续的相同格式字符串会加速解析。但在极端情况下，如果格式非常混乱，它可能会比指定 format 慢。

提取日期时间组件：一旦列被转换为 datetime64[ns] 类型，就可以使用 .dt 访问器来方便地提取年、月、日、小时等组件：

print("\n提取日期时间组件:")
print("年份:", df['RunStartTime_dt'].dt.year)
print("月份:", df['RunStartTime_dt'].dt.month)
print("日期:", df['RunStartTime_dt'].dt.day)
print("小时:", df['RunStartTime_dt'].dt.hour)
print("毫秒 (原始微秒除以1000):", df['RunStartTime_dt'].dt.microsecond / 1000)

输出：

提取日期时间组件:
年份: 0    2023
1    2023
2    2020
Name: RunStartTime_dt, dtype: int64
月份: 0    9
1    10
2     1
Name: RunStartTime_dt, dtype: int64
日期: 0    28
1     1
2    15
Name: RunStartTime_dt, dtype: int64
小时: 0    16
1     9
2    23
Name: RunStartTime_dt, dtype: int64
毫秒 (原始微秒除以1000): 0      7.0
1    123.0
2    999.0
Name: RunStartTime_dt, dtype: float64

总结

在Pandas中处理日期时间字符串时，pd.to_datetime() 是一个不可或缺的工具。通过正确理解和使用 format 参数，特别是针对包含毫秒的字符串使用 %f，可以高效且准确地将字符串数据转换为可操作的datetime对象。同时，利用 errors='coerce' 进行健壮性处理，以及 .dt 访问器提取日期时间组件，将极大地提升数据清洗和分析的效率。遵循这些最佳实践，可以避免常见的转换错误，并确保日期时间数据的完整性和可用性。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：iPhone NFC卡片怎么添加？苹果NFC录入教程

下一篇：Excel筛选后序号连续技巧

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

UC浏览器隐藏功能在哪里?uc浏览器隐藏用法教程

还在纠结UC浏览器隐藏功能有哪些？莫慌，小编为你送上最详尽的UC浏览器隐藏用法教程，带你轻松玩转UC浏览器！uc浏览器隐藏用法教程1、打开UC智能组件！有超多方便大家快乐冲浪滴组件可以添加和开启！2、模式组件里有很多实用功能最推荐阅读模式啦！

20小时前 13:22 0
正版软件

王者营地怎么qq和微信一起玩?王者荣耀王者营地跨区组队操作教程

王者营地怎么qq和微信一起玩？众所周知，《王者荣耀》作为腾讯旗下的一款大型竞技类游戏网，支持微信和QQ登录，但是两者并不互通，在游戏登陆界面就可以看见，QQ登陆和微信登陆是完全两个不同的入口。因此很多玩家为了跟不同的好友一起玩,不得不开两个号。

20小时前 13:10 0
正版软件

支付宝怎么加好友?支付宝加好友的流程教程

支付宝怎么加好友?支付宝相信大家都用吧，支付宝的好友转账大家应该也会平时用到，那如果没有好友要怎么进行转账呢，那当然是先加好友了，接下来小编将给大家带来支付宝添加好友的方法教程，一起往下看看吧！支付宝加好友的流程教程1、首先进入支付宝首页后，点击下方导航栏中的消息选项2、在消息页面中，点击右上角的加号标志3、在加号标志选项中找到添加好友并点击4、进入添加好友页面

21小时前 12:27 0
正版软件

支付宝怎么转账到别人银行卡?支付宝转账到别人银行卡方法教程

支付宝怎么转账到别人银行卡？支付宝是我们最常用的支付工具，用户在使用的时候经常会用到转账功能，相信很多小伙伴把钱转到自己银行卡的方法都会，那么怎么转账到别人的银行卡呢？还不清除的小伙伴快跟随小编一起来看看吧。

21小时前 12:17 0
正版软件

支付宝如何关闭免密支付?支付宝关闭免密支付方法教程

支付宝如何关闭免密支付？虽然支付宝免密支付让我们的生活变得更加便捷，但是在某些时候也会带来不必要的麻烦，如果你不小心将手机遗失或者被盗，那么可能会导致支付宝被人恶意盗刷，所以有时候关闭支付宝免密支付也显得尤为重要，下面小编就给大家带来了支付宝关闭免密支付的方法教程，希望能帮到大家。

21小时前 12:06 0