标准化数据训练模型后，如何还原PDP横坐标原始尺度

　　发布于2026-04-16　阅读（0）

扫一扫，手机访问

如何在使用标准化数据训练模型后，为部分依赖图（PDP）正确还原原始尺度的横坐标

当随机森林等模型基于StandardScaler标准化的数据训练时，PartialDependenceDisplay默认显示缩放后的特征值；本文介绍如何通过逆变换将PDP横坐标标签重映射为原始数据尺度，提升可解释性，无需重新训练模型。

当随机森林等模型基于StandardScaler标准化的数据训练时，PartialDependenceDisplay默认显示缩放后的特征值；本文介绍如何通过逆变换将PDP横坐标标签重映射为原始数据尺度，提升可解释性，无需重新训练模型。

在使用StandardScaler对特征进行标准化（即零均值、单位方差）后训练模型，调用PartialDependenceDisplay.from_estimator()生成的部分依赖图（PDP）中，横轴刻度反映的是标准化后的数值（如 −2.5 ~ 2.0），这严重削弱了业务可解释性——我们更关心“年龄每增加5岁”或“收入每提高1万元”对预测概率的影响，而非“标准差变化0.3个单位”。

关键在于：无需对原始测试集X_test_final反向缩放后再传入PDP函数（这会导致内部网格采样逻辑失效），而应保留标准化输入以确保计算正确性，仅对最终绘图的横轴刻度标签（tick labels）做逆变换。

StandardScaler的标准化公式为：
[ X' = \frac{X - \mu}{\sigma} ]
因此逆变换为：
[ X = X' \cdot \sigma + \mu ]

以下是完整实现步骤（以单特征PDP为例）：

from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import PartialDependenceDisplay
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np

# 假设已训练好模型 best_clf，X_test_final 是标准化后的测试集，
# scaler 是拟合在训练集上的 StandardScaler 实例
# best_features = ['age']  # 示例目标特征

# 1. 生成 PDP 并获取 Axes 对象
fig, ax = plt.subplots(figsize=(6, 4))
display = PartialDependenceDisplay.from_estimator(
    best_clf, 
    X_test_final, 
    features=best_features,
    ax=ax,
    line_kw={'color': 'steelblue', 'linewidth': 2}
)

# 2. 获取该特征对应的原始训练数据（用于计算均值/标准差）
# ⚠️ 注意：必须使用 scaler.fit() 时的原始训练特征列，而非测试集
# 假设 X_train_orig 是原始未缩放的训练特征矩阵，且 age 列索引为 0
x_orig = X_train_orig[:, 0]  # 替换为实际列索引或列名切片
mu, sigma = x_orig.mean(), x_orig.std()

# 3. 反向变换横轴刻度标签
x_ticks = ax.get_xticks()
xt_unscaled = (x_ticks * sigma) + mu
# 格式化为易读字符串（根据数据类型调整小数位数）
xt_labels = [f'{val:.1f}' if sigma > 0.1 else f'{val:.0f}' for val in xt_unscaled]

ax.set_xticks(x_ticks)  # 保持原刻度位置
ax.set_xticklabels(xt_labels)
ax.set_xlabel(f'{best_features[0]} (original scale)')

plt.tight_layout()
plt.show()

? 重要注意事项：

均值与标准差必须来自原始训练数据（即scaler.fit(X_train)所用数据），而非测试集或缩放后数据，否则逆变换失准；
若使用ColumnTransformer或管道（Pipeline），需从scaler对象中显式提取scaler.mean_[i]和scaler.scale_[i]（scale_即标准差）；
多特征PDP需对每个子图分别处理ax，并匹配对应特征的统计量；
此方法仅修改视觉标签，不改变PDP内在计算逻辑——模型始终在标准化空间中评估，保障结果数学一致性。

通过该技巧，你可在不牺牲模型性能与计算严谨性的前提下，让PDP真正“说人话”，显著增强模型诊断与业务沟通效率。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：12306抢票新功能有哪些变化？2026版使用技巧

下一篇：RTX 5070显卡价格曝光

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Golang构建即时通讯后端：Websocket百万连接架构解析

Go的net/http默认无法支撑10万WebSocket连接，因其每连接一goroutine模型导致内存与文件描述符耗尽，且缺乏限流、心跳、异常驱逐机制。

13分钟前 0
正版软件

Golang实现数据库软删除方法

应使用deleted_at（time.Time类型），因GORM官方软删除机制依赖DeletedAt字段名和time.Time类型，is_deleted会绕过自动过滤、更新及Unscoped()等核心行为。

28分钟前 0
正版软件

PHP foreach 循环动态渲染标题与内容

本文讲解如何正确使用PHP的foreach循环遍历多维数组，将每个元素的title、description和link动态插入HTML模板中，避免重复输出静态字符串的问题。

43分钟前 0
正版软件

C++ SanitizerCoverage引导式模糊测试教程

SanitizerCoverage是LLVM提供的覆盖插桩技术，通过-fsanitize-coverage选项在编译时插入钩子，记录执行路径，结合libFuzzer实现引导式模糊测试，利用trace-pc、edge、trace-cmp等模式提升覆盖率，配合语料库、字典和llvm-cov分析，有效发现深层漏洞。

58分钟前 0
正版软件

Golang数据库错误处理技巧

Go数据库错误需分层处理：先判sql.ErrNoRows，再用errors.As识别驱动错误（如pq.Error码“23505”），网络错误需重试，事务须显式Rollback并防panic，超时需应用层与数据库级协同配置。

1小时前 20:30 0

标准化数据训练模型后，如何还原PDP横坐标原始尺度

产品推荐

最新发布

相关推荐

热门关注