【外评】研究发现,52% 的聊天软件编程问题答案是错误的
没那么聪明
近年来,计算机程序员纷纷涌向像 OpenAI 的 ChatGPT 这样的聊天机器人来帮助他们编码,这给 Stack Overflow 这样的地方带来了打击,该公司去年不得不裁员近 30%。
唯一的问题是什么?普渡大学(Purdue University)的一个研究团队本月在 “计算机与人交互”(Computer-Human Interaction)会议上发表的研究报告显示,ChatGPT 生成的编程答案有 52% 是错误的。
对于一个人们依赖于其准确性和精确性的程序来说,这个比例大得惊人,这也凸显了作家和教师等其他终端用户的遭遇:像 ChatGPT 这样的人工智能平台经常凭空幻化出完全错误的答案。
在这项研究中,研究人员查看了 Stack Overflow 中的 517 个问题,并分析了 ChatGPT 试图回答这些问题的过程。
“我们发现,52% 的 ChatGPT 答案包含错误信息,77% 的答案比人类答案更啰嗦,78% 的答案与人类答案存在不同程度的不一致,”他们写道。
机器人与人类
研究小组还对随机抽取的 2000 个 ChatGPT 答案进行了语言学分析,发现它们 “更正式、更具分析性”,同时 “负面情绪较少”–这正是人工智能倾向于产生的那种平淡而欢快的语气。
尤其令人不安的是,许多人类程序员似乎更喜欢 ChatGPT 答案。普渡大学的研究人员对 12 名程序员进行了调查,发现他们喜欢 ChatGPT 的比例为 35%,不喜欢人工智能生成的错误的比例为 39%。
为什么会出现这种情况?可能只是因为 ChatGPT 比网上的人更有礼貌。
“研究人员写道:”后续的半结构化访谈显示,礼貌的语言、铿锵有力和教科书式的回答以及全面性是让 ChatGPT 答案看起来更有说服力的一些主要原因,因此参与者降低了警惕,忽略了 ChatGPT 答案中的一些错误信息。
这项研究表明,ChatGPT 仍然存在重大缺陷–但这对于从 Stack Overflow 下岗的人或不得不纠正人工智能生成的代码错误的程序员来说,只是冰冷的安慰。
本文文字及图片出自 STUDY FINDS THAT 52 PERCENT OF CHATGPT ANSWERS TO PROGRAMMING QUESTIONS ARE WRONG
你也许感兴趣的:
- OpenAI 为什么要收购 Windsurf?
- 为什么人工智能公司的标志看起来像屁眼?
- 最近人工智能模型的进步感觉就像胡说八道
- 没有大象:图像生成方面的突破
- 当你告诉大语言模型(LLM) 旁边有一部智能手机时,会发生什么?
- Sam Altman 致 Python、C 和 JavaScript 开发人员: 我们只需要多一点时间
- 美国上诉法院拒绝人工智能艺术作品的版权申请
- 从 DeepSeek LLM 到 DeepSeek R1 – DeepSeek LLM
- OpenAI 研究人员发现,即使是最好的人工智能也 “无法解决 ”大部分编码问题
- 【程序员搞笑图片】手工编程对比 AI 编程
你对本文的反应是: