Polars 中基于列值动态控制小数位数的高效四舍五入方法

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

本文详解如何在 Polars 中避免 map_rows 或 Python 循环，利用原生表达式 API 实现「按每行指定的小数位数」对数值列进行高性能四舍五入。

在数据处理时，你是否遇到过这样的需求：需要根据另一列动态变化的值（比如“有效数字位数”），来对目标数值列进行逐行、不同精度的四舍五入？如果直接使用 `map_rows` 或 `apply` 方法，会立刻将计算拖入 Python 循环的泥潭，让 Polars 引以为傲的向量化性能优势荡然无存，尤其是在处理大规模数据集时，这几乎是不可接受的。

好消息是，Polars 的原生表达式 API 提供了两种纯表达式、零 Python 开销的优雅解决方案：数学缩放法与条件分支聚合法。下面就来详细拆解。

✅ 方案一：数学缩放法（推荐｜通用性强）

这个方案的核心思路非常巧妙，可以概括为“放大、取整、再缩小”。具体来说，就是先将浮点数乘以 \(10^{\text{sig_figs_len}}\)，把需要保留的小数位移到整数部分；接着调用 `.round()` 方法（默认四舍五入到整数）；最后再乘以 \(10^{-\text{sig_figs_len}}\)，将数值缩回到原来的量级。整个过程完全基于 Polars 内置的算术表达式，没有条件分支，也没有重复计算，性能表现堪称最优。

import polars as pl

df = df.with_columns(
    (
        pl.col("reverse_rate_from_euro")
         * pl.lit(10).pow(pl.col("sig_figs_len"))
    ).round()
    * pl.lit(0.1).pow(pl.col("sig_figs_len"))
    .alias("reverse_rate_to_euro_rounded_sig_figs")
)

这里有个细节值得注意：`pl.lit(0.1)` 是 \(10^{-1}\) 的一种简洁写法。当然，你也可以写成 `pl.lit(1).truediv(pl.lit(10).pow(pl.col("sig_figs_len")))`，但前者的写法显然更高效。这个方案支持任意 `u32` 或 `i64` 类型的位数列，并且对于 NaN 和无穷值的处理行为，与标准的 `round()` 方法保持一致。

✅ 方案二：条件分支 + coalesce()（适合位数种类少）

如果你的 `sig_figs_len` 列取值是离散的，并且种类非常有限（比如只有 3、4、5 这三种可能），那么可以考虑这个方案。它的逻辑很直观：枚举所有可能的唯一值，为每个精度值生成一个独立的 `.round(x)` 表达式，然后利用 `pl.coalesce()` 函数，为每一行选取第一个匹配到的非空结果。

sig_figs_unique = df["sig_figs_len"].unique().to_list()

df = df.with_columns(
    pl.coalesce(
        [
            pl.when(pl.col("sig_figs_len") == x)
             .then(pl.col("reverse_rate_from_euro").round(x))
            for x in sig_figs_unique
        ]
    ).alias("reverse_rate_to_euro_rounded_sig_figs")
)

这种方法的优势在于逻辑清晰，易于调试，而且 `coalesce` 确保了每一行只会应用一条匹配的舍入规则。但是，如果 `sig_figs_len` 的唯一值过多（比如超过100个），生成的表达式树就会变得非常庞大，导致编译开销显著增加。在这种情况下，应当优先选择方案一。

? 总结与选型建议

首选方案一（数学缩放）：这几乎是适用于所有场景的“万金油”方案，尤其当处理大数据集，或者位数列的分布是连续、稀疏的时候。它实现了完全向量化，没有任何条件判断，性能表现最为稳定。
备选方案二（coalesce + when）：当精度位数种类极少（比如不超过10种），并且你需要对每种精度逻辑进行更明确、甚至更复杂的控制（例如，想根据不同货币类型添加额外条件）时，这个方案的可读性更高，也更灵活。
务必避免的“性能陷阱”：无论如何，都要远离 `map_rows`、`apply`、`iter_rows()` 这些会触发 Python 迭代的操作。它们会彻底绕过 Polars 的查询优化器和 SIMD 指令加速，让性能断崖式下跌。

采用以上任一方案，最终输出的 `reverse_rate_to_euro_rounded_sig_figs` 列都会严格符合预期：例如，数值 0.154128 在 `sig_figs_len=5` 时会变为 0.15413，而 0.156006 在 `sig_figs_len=3` 时会变为 0.156。整个过程，都能完美保持 Polars 高效的内存利用率和卓越的执行速度。

本文转载于：https://www.php.cn/faq/2321054.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：C#怎么操作Windows防火墙 C#如何用代码添加删除和管理Windows防火墙规则【系统】

下一篇：C++ std::any_of/all_of/none_of _ 逻辑条件判定算法【详解】

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Nginx日志中的超时问题怎么解决

解决Nginx日志中的超时问题：一位运维老兵的实战指南不知道你有没有遇到过这种情况：监控告警突然响了，提示服务响应超时，一头扎进Nginx日志里却像看天书？别担心，这事儿我处理过太多次了。Nginx日志里的超时提示，表面上看都差不多，但背后的原因可能五花八门。今天，我就把自己这些年排查这类问题的思

11小时前 18:03 0
正版软件

PHP与Linux如何高效集成

实现PHP与Linux高效集成的完整指南要让PHP在Linux环境中发挥最大效能，这套经过验证的部署方案值得你仔细参考。下面这八个关键步骤，涵盖了从环境搭建到性能调优的全流程。环境选型：LAMP还是LEMP？首先得做个基础选择：是采用经典的LAMP套件（Linux、Apache、MySQL、P

11小时前 18:03 0
正版软件

Linux环境下PHP如何部署

在Linux上部署PHP应用：一份实战指南准备在Linux服务器上部署PHP应用？这事儿说简单也简单，说复杂也复杂。核心流程其实很清晰，但魔鬼往往藏在配置的细节里。接下来，咱们就按着从零到一的完整路径，把关键步骤和注意事项理一遍。第一步：安装Web服务器 Linux环境下，主流的Web服务器选择

11小时前 18:02 0
正版软件

PHP脚本在Linux中如何调试

在Linux中调试PHP脚本的实用指南遇到PHP脚本需要调试时，Linux环境提供了多种行之有效的解决方案。下面这份指南将帮你快速掌握核心调试技巧。 1. 使用Xdebug扩展进行专业调试 Xdebug堪称PHP调试的利器。安装过程很简单，一条命令就能搞定： sudo apt-get instal

11小时前 18:02 0
正版软件

SELinux如何与其他安全机制协同工作

SELinux：构建全方位安全防护体系的核心模块在当今复杂多变的安全环境下，单靠某一种防护手段往往难以应对所有威胁。SELinux（Security-Enhanced Linux）作为内核级的安全模块，通过强制访问控制（MAC）策略为Linux系统筑起了一道坚固的防线。但真正发挥其最大价值的关键，

11小时前 18:01 0