微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • xAI的Colossus超级计算机集群使用了10万块英伟达Hopper GPU

    英伟达揭示了xAI的“巨像”超级计算机集群是如何处理10万个Hopper gpu的——这一切都取决于该芯片制造商的Spectrum-X以太网网络平台。 该公司透露,Spectrum-X旨在通过其远程目录内存访问(RDMA)网络为多租户、超大规模的人工智能工厂提供大规模性能。 该平台从一开始就部署在世界上最大的人工智能超级计算机“巨像”上。这家由埃隆·马斯克(…

    2024年11月7日
    165
  • 新的无风扇冷却技术通过将冷却功耗降低90%来提高AI工作负载的能源效率

    惠普企业(HPE)最近举办了2024年人工智能日活动,推出了业界首个100%无风扇直接液冷架构。 运行大规模人工智能工作负载的组织现在正在寻找更高效的解决方案来管理其基础设施的能源需求,惠普率先推出了直接液体冷却技术,这已成为冷却高性能人工智能系统的最有效方法之一。这种方法使惠普能够交付绿色500强名单上十大最节能超级计算机中的七台。 100%无风扇直接液冷…

    2024年11月10日
    247
  • macOS Sequoia 15.2新增多项AI功能 集成ChatGPT成亮点

    Apple 向开发者推出 macOS Sequoia 15.2 首个测试版,为 Mac 电脑加入多项备受期待的人工智能新功能,包括 ChatGPT 整合与 Image Playground 等。 新功能抢先体验 在 macOS Sequoia 15.1 正式版本尚未推出之际,Apple 已推出下一个系统更新测试版。开发者可透过系统设定中的软体更新下载安装,预…

    2024年10月24日
    263
  • Gemini将控制Galaxy设备上的三星应用

    Gemini现在处于安卓生态系统的前沿,深度集成了谷歌的应用和服务。然而,它与第三方应用的功能仍然有限——目前是这样。不过,这种情况可能会随着即将发布的Galaxy S25发生变化,泄露的资料显示Gemini将控制三星的原生应用。 知名博主Chun Bhai最近在X平台上分享了截图,展示了Gemini与三星设备上应用互动的新功能。这些应用包括三星笔记、三星日…

    2025年1月19日
    134
  • ChatGPT的新功能让你可以抛弃传统数字助手

    OpenAI的ChatGPT正在从一个对话式 AI 聊天机器人转变为一个多功能个人助手。在整合了网页搜索功能之后,OpenAI推出了ChatGPT Tasks(任务)功能的beta版本,这是一项新功能,允许用户在ChatGPT中直接设置提醒和安排任务。 ChatGPT现在也可以作为提醒工具 本质上,ChatGPT Tasks是一个内置的待办事项工具,使用户能…

    2025年1月18日
    143

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注