商城首页欢迎来到中国正版软件门户

您的位置:首页 >Rubber Duck功能缩小Claude Sonnet与Opus性能差距74.7%

Rubber Duck功能缩小Claude Sonnet与Opus性能差距74.7%

  发布于2026-04-25 阅读(0)

扫一扫,手机访问

GitHub Copilot CLI新功能:引入“第二意见”审查,AI编程性能飙升近75%

最近,GitHub Copilot团队放了个大招。4月6日,他们公布了一项名为“Rubber Duck”的实验性功能,直接为其命令行工具Copilot CLI装上了“双大脑”。这项设计的核心,是引入跨越不同模型家族的“第二意见”审查机制。效果如何?官方数据显示,AI的代码处理性能提升幅度,一度接近75%。

这背后直指一个核心痛点:在代码规划和生成的最初阶段,智能体一旦做出错误决策,这个错误很容易像滚雪球一样,在后续步骤中被不断放大。而单一AI模型进行自我审查,又难免困于自身的训练数据和思维定式,有些盲点靠自己真的很难发现。Rubber Duck功能的思路很巧妙——与其让一个模型“闭门思过”,不如请来另一个“出身”不同的模型作为独立审查员,用差异化的视角来挖出那些潜在的问题。

那么,这个“第二大脑”是怎么工作的?它采取的是跨模型家族组合的策略。举个例子,如果你选择Claude系列模型作为主导智能体,那么Rubber Duck就会自动调用GPT-5.4来担任审查者。后者的核心任务,就是对前者的工作计划和输出进行审视,并提交一份高价值的“关注点清单”。这份清单里,通常包含了被遗漏的关键细节、值得推敲的底层假设,以及那些容易出错的边界情况。

光有想法不够,还得看疗效。GitHub团队使用了SWE-Bench Pro这个权威基准进行测试。他们对比了Claude Sonnet 4.6和更强大的Claude Opus 4.6单独运行时的性能差距,结果发现:当为Sonnet 4.6配上Rubber Duck审查后,它竟能追回两者间高达74.7%的性能差距。这个数字,足以说明“第二意见”的价值。

尤其是在那些真正棘手的任务上,比如涉及3个以上文件修改、或者需要超过70步操作的复杂问题时,搭配了Rubber Duck的智能体得分比基线高出3.8%。在实际案例中,这个机制成功揪出了不少深层隐患,包括架构上的逻辑漏洞、循环覆盖错误,以及跨文件间的隐性冲突。

为了适应不同的开发场景,Rubber Duck提供了三种协作模式:主动、被动和用户触发。系统会在几个关键节点自动寻求审查,比如智能体制定完计划后、完成一段复杂实现后,或者编写完测试用例后。当然,如果智能体陷入“思考循环”,系统也会被动触发审查介入。为了确保整个过程透明可信,开发者也可以随时手动请求一次审查,Copilot会清晰地展示审查反馈内容以及相应的修改建议依据。

目前,这项充满潜力的功能已经以实验模式上线。想尝鲜的开发者,只需安装GitHub Copilot CLI,然后运行 /experimental 命令即可启用。启用后,选择Claude作为主模型,并确保拥有GPT-5.4的API访问权限,就能亲身体验“双脑协奏”带来的编程效率飞跃了。

本文转载于:https://www.163.com/dy/article/KPVU559S0511B8LM.html 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注