TensorFlow模型训练卡住怎么办_Python监控显存与CPU利用率

　　发布于2026-05-02　阅读（0）

扫一扫，手机访问

先看nvidia-smi和htop比改代码更管用：若GPU-Util长期为0%但Memory-Usage占满，说明GPU在等数据；若GPU-Util持续95%+却无日志输出，可能是Python主线程在map中卡住；同步用htop观察CPU，单核100%锁死且GPU空闲则大概率是map内阻塞逻辑导致。

训练脚本一卡住，很多人的第一反应是怀疑模型结构或超参数。其实，90%的情况问题根本不在那里，而是资源被堵在了数据加载或显存分配这些“管道”环节。这时候，先看一眼 nvidia-smi 和 htop，往往比埋头改代码要管用得多。

怎么快速判断是GPU空转还是真卡死？

方法很简单。打开终端，一边运行你的训练脚本，另一边执行这条命令：

watch -n 1 nvidia-smi

重点盯住三列数据：GPU-Util、Memory-Usage 和 Processes。如果发现 GPU-Util 长期维持在 0% 或个位数，但显存（Memory-Usage）却几乎占满了，这通常意味着 GPU 正在“等米下锅”——数据供给没跟上，大概率是 tf.data 管道配置出了问题。反过来，如果 GPU-Util 持续高达 95% 以上，但训练日志却迟迟没有更新，那反而要警惕了：Python 主线程是不是在某个 map 函数里卡住了？比如里面混入了未向量化的 PIL 图像操作。

这时候，同步打开另一个终端：

htop -u $(whoami)

观察 Python 进程的 CPU 占用情况。如果看到某个核心被锁死在 100%，同时 nvidia-smi 显示 GPU 在空闲，那基本可以断定，是 tf.data.Dataset.map 里面混入了阻塞式的逻辑，比如直接调用 cv2.imread 或者不小心引入了类似 time.sleep 的操作。

为什么加了 `prefetch` 还卡？常见配置陷阱

这里有个常见的误解：prefetch 不是万能开关。它只管“数据供给”的流水线，可解决不了预处理函数本身执行慢的问题。实践中，下面这几个坑踩得最多：

dataset.prefetch(buffer_size=1)：缓冲区设得太小，几乎没效果。建议设为 tf.data.AUTOTUNE，或者至少是 2。
把 map 操作放在 batch 之后：像图像解码、归一化这类逐样本的操作，必须在 batch 之前完成。否则，同一个预处理函数会被反复调用 N 次，效率极低。
忘了加 num_parallel_calls=tf.data.AUTOTUNE：这会导致预处理只能串行执行，白白闲置了多核 CPU 的优势。
cache() 的误用：对超大数据集（比如百万级图像）直接调用 cache() 很容易撑爆内存。正确的做法是，只在数据能完全装入内存时使用内存缓存，否则应该用 cache("/path/to/cache") 指定路径进行磁盘缓存。

训练中途突然卡住，`CUDNN_STATUS_INTERNAL_ERROR` 怎么办？

遇到这个错误先别慌，更别急着重装 CUDA。它的本质通常是 cuDNN 初始化失败，95% 的原因出在显存碎片或残留的 GPU 状态上，跟模型结构本身关系不大。可以按这个顺序排查：

首先，检查是否有多个 Python 进程在共用同一块 GPU。用 nvidia-smi 查看 Processes 列，把那些残留的 python 进程清理掉。
其次，确认你没有在 notebook 环境里反复执行 import tensorflow 并新建 GPU 上下文。每次 import 都可能触发新的上下文，积累起来会导致显存句柄耗尽。
最后，一个立竿见影的技巧：把下面这两行代码加到训练脚本的最开头（注意，是在模型定义之前）：

import os
os.environ['TF_FORCE_GPU_ALLOW_GROWTH'] = 'true'

再配合 tf.config.experimental.set_memory_growth 的设置，可以有效避免显存被一次性占满后无法动态回收的问题。

Python 层怎么监控 CPU/GPU 耗时？别靠 print

用 time.time() 打点，只能定位到非常粗粒度的瓶颈。要想精确定位，得用更专业的工具：

在 tf.data.Dataset.map 的预处理函数里，可以用 tf.py_function 包裹起来，内部使用 time.perf_counter() 测量单次执行的精确耗时，并打印到 stderr（这样可以避免被 TensorFlow 自己的日志冲刷掉）。
更系统的方法是使用 tf.profiler（v2.9+ 版本推荐）：

tf.profiler.experimental.start('logdir')
# 这里执行一步训练
tf.profiler.experimental.stop()

之后，通过 tensorboard --logdir=logdir 打开「Input Pipeline Analyzer」面板。它会清晰地告诉你，时间到底被哪一步吃掉了——八成是 IteratorGetNext 或者某个 DecodeJpeg 操作。

说到底，训练过程中真正难调的，往往不是模型本身的收敛速度，而是数据流里那些“看不见的等待”。可能是一个没关闭的文件句柄，一次多余的 numpy.array() 类型转换，甚至是硬盘的 I/O 调度策略。监控的意义就在于此：把那种模糊的“感觉卡住了”，变成可以精准定位的「第 372 步，map 函数里的 PIL.Image.open 调用耗时 420ms」。这才是解决问题的开始。

本文转载于：https://www.php.cn/faq/2342603.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Python如何实现异步的数据清洗 pipeline_基于协程的任务流设计

下一篇：Python如何定义一个只能被继承不能实例化的基类_结合ABC与__new__

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

PHP配置文件中upload_max_filesize怎么设置

在PHP中调整文件上传大小限制：一步步详解处理大文件上传时，PHP默认的配置往往不够用。别担心，核心的调整开关就在upload_max_filesize这个参数上。下面就来拆解一下，如何精准地找到并修改它。第一步：定位你的php.ini文件这事儿的关键在于找到正确的配置文件。php.ini的位

1小时前 22:59 0
正版软件

如何调整PHP执行时间限制

调整PHP执行时间限制的几种方法在处理耗时较长的任务时，PHP脚本可能会因为默认的执行时间限制而意外终止。别担心，这个问题有几种成熟的解决方案。下面就来详细说说如何根据不同的场景和权限，灵活地调整这个限制。 1. 修改php.ini文件（全局生效）最根本的方法是从源头入手，直接修改PHP的配置文

1小时前 22:59 0
正版软件

Linux下PHP内存限制怎么设置

在Linux系统中调整PHP内存限制当PHP应用需要处理更复杂的任务时，默认的内存配额可能就显得捉襟见肘了。别担心，通过修改一个核心配置文件，就能轻松解决这个问题。整个过程清晰直接，我们一步步来看。第一步：定位配置文件关键文件是 php.ini。它的位置取决于PHP的运行方式：如果PHP是通

1小时前 22:59 0
正版软件

如何在Linux上配置Python数据库连接

在Linux上配置Python数据库连接在Linux环境下为Python配置数据库连接，是许多开发项目绕不开的基础环节。这个过程其实并不复杂，关键在于理清步骤，按部就班。通常，它会涉及以下几个核心环节。 1. 安装数据库第一步，自然是在你的Linux系统上安装目标数据库。不同的数据库，安装命令也

1小时前 22:58 0
正版软件

Linux Python如何进行安全配置

Linux Python 安全配置清单在Linux环境下部署Python应用，安全是地基，不容忽视。这份清单旨在提供一套从环境到代码、从网络到进程的纵深防御思路，帮你把安全配置做得更扎实。一运行环境与权限最小化使用虚拟环境隔离依赖：首推Python内置的venv模块。它能有效隔离项目依赖，避

1小时前 22:58 0