如何在 Vertex AI 中使用新数据重新训练模型？Python 实现指南

　　发布于2026-04-07　阅读（0）

扫一扫，手机访问

Vertex AI 当前不支持对已部署的 AutoML 模型进行增量训练或数据追加；必须基于更新后的数据集创建全新模型，本文详解完整流程与 Python 实践方法。

Vertex AI 当前不支持对已部署的 AutoML 模型进行增量训练或数据追加；必须基于更新后的数据集创建全新模型，本文详解完整流程与 Python 实践方法。

在 Google Vertex AI 中，无论是使用 AutoML 图像、文本还是表格模型，模型一旦训练完成并部署，即为不可变对象（immutable）。这意味着你无法通过 API 或 SDK “更新”或“追加训练”已有模型——即使只是新增几十条标注样本。这是由 Vertex AI 的底层设计决定的：每个模型版本对应唯一的数据集快照、训练配置与超参组合，不提供权重微调（fine-tuning）或持续学习（continual learning）机制（尤其对 AutoML 模型而言）。

因此，正确的再训练（retraining）流程是：

扩展现有数据集：将新数据上传至 Cloud Storage，并通过 aiplatform SDK 将其导入到原始数据集（或新建数据集）；
创建新模型：基于更新后的数据集，调用 AutoMLTrainingJob 启动新一轮训练；
部署新模型：将训练完成的新模型部署至现有 Endpoint（可替换旧版本）或新建 Endpoint；
（可选）版本管理：利用 Endpoint 的流量分配功能实现灰度发布与 A/B 测试。

以下是关键 Python 示例（基于 google-cloud-aiplatform==1.50.0+）：

from google.cloud import aiplatform

# 初始化
aiplatform.init(project="your-project-id", location="us-central1")

# 步骤1：获取现有数据集（假设已知 dataset_id）
dataset = aiplatform.ImageDataset(dataset_name="projects/123456789/locations/us-central1/datasets/1234567890123456789")

# 步骤2：向数据集添加新数据（需提前整理为 CSV + GCS 文件路径）
# 注意：AutoML 数据集支持「追加」操作（仅限未锁定状态），但仅影响数据集内容，不触发自动重训
dataset.import_data(
    gcs_source=["gs://my-bucket/new-data.csv"],
    import_schema_uri=aiplatform.schema.dataset.io_format.image.single_label_classification
)

# 步骤3：启动新训练任务（使用相同/优化后的训练参数）
job = aiplatform.AutoMLImageTrainingJob(
    display_name="my-model-retrain-v2",
    prediction_type="classification",
    multi_label=False,
)

# 使用同一数据集（含新增样本）训练新模型
model = job.run(
    dataset=dataset,
    model_display_name="my-model-v2",
    training_filter_split=None,  # 可复用原划分逻辑
    budget_milli_node_hours=8000,
)

# 步骤4：部署至现有 Endpoint（替换流量）
endpoint = aiplatform.Endpoint(endpoint_name="projects/123456789/locations/us-central1/endpoints/9876543210987654321")
endpoint.deploy(
    model=model,
    deployed_model_display_name="my-model-v2-prod",
    traffic_percentage=100,  # 全量切流
    machine_type="n1-standard-4"
)

⚠️ 重要注意事项：

数据集必须处于 ACTIVE 状态才允许 import_data；若已用于训练且被锁定（如训练中或已部署），需先确认状态；
AutoML 训练作业本身不支持“增量训练”，每次 run() 都是端到端全量训练，耗时与成本与首次训练相当；
若需降低运维成本，建议将数据集构建、训练、部署封装为可复用的流水线（Vertex AI Pipelines），配合 Cloud Build 触发自动化再训练；
对于自定义模型（Custom Training），可通过保存/加载 Checkpoint 实现真正意义上的微调，但 AutoML 不开放此能力。

总结来说：Vertex AI AutoML 的再训练本质是「重建而非更新」。虽然缺乏热更新能力，但通过标准化的数据集管理 + SDK 自动化 + Endpoint 版本控制，你仍可高效实现模型迭代闭环。如确需原生增量学习支持，建议通过 Google Cloud Issue Tracker 提交正式 Feature Request。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：咸鱼发货包装技巧与注意事项

下一篇：驱动总裁设置下载路径方法详解

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Pandas DataFrame列值下移与扩展方法

本教程详细介绍了如何使用Pandas在DataFrame中实现列值的下移操作，同时扩展DataFrame的行数。通过结合reindex方法扩展索引和shift方法移动特定列的值，可以有效地将指定列的数据向下移动N个位置，并在新创建的空缺位置填充NaN，同时保持其他列的原始位置不变。这种方法适用于需要动态调整DataFrame结构和数据位置的场景。

10分钟前 0
正版软件

如何使用 HAPI FHIR 生成 HL7 v2 NACK 响应消息

本文介绍在基于HAPIHL7v2库构建的医疗接口中，如何正确生成符合规范的NACK（NegativeAcknowledgment）响应消息，以明确告知发送方消息已接收但内容校验失败。

25分钟前 0
正版软件

如何在 WordPress Ajax 响应中正确输出 HTML 包裹的模板片段

本文详解如何在WordPressAjax回调中安全、高效地渲染模板部件（templatepart），并通过ob_start()+ob_get_clean()捕获其HTML输出，确保返回结构完整、可直接插入DOM的响应内容。

40分钟前 0
正版软件

如何在 Go 中正确判断文件不存在错误

Go标准库不直接返回os.ErrNotExist，而是返回底层系统错误（如"nosuchfileordirectory"），应使用os.IsNotExist()进行跨平台、健壮的错误判断。

1小时前 10:15 0
正版软件

如何在 PHP 命名空间中通过反射获取类方法的参数名

本文介绍如何使用PHP反射机制（ReflectionMethod）准确获取位于命名空间和非静态类方法中的参数名称，适用于依赖注入、路由绑定或自动化文档生成等场景。

1小时前 10:00 0

如何在 Vertex AI 中使用新数据重新训练模型？Python 实现指南

产品推荐

最新发布

相关推荐

热门关注