【外评】研究发现，52% 的聊天软件编程问题答案是错误的

没那么聪明

近年来，计算机程序员纷纷涌向像 OpenAI 的 ChatGPT 这样的聊天机器人来帮助他们编码，这给 Stack Overflow 这样的地方带来了打击，该公司去年不得不裁员近 30%。

唯一的问题是什么？普渡大学（Purdue University）的一个研究团队本月在 “计算机与人交互”（Computer-Human Interaction）会议上发表的研究报告显示，ChatGPT 生成的编程答案有 52% 是错误的。

对于一个人们依赖于其准确性和精确性的程序来说，这个比例大得惊人，这也凸显了作家和教师等其他终端用户的遭遇：像 ChatGPT 这样的人工智能平台经常凭空幻化出完全错误的答案。

在这项研究中，研究人员查看了 Stack Overflow 中的 517 个问题，并分析了 ChatGPT 试图回答这些问题的过程。

“我们发现，52% 的 ChatGPT 答案包含错误信息，77% 的答案比人类答案更啰嗦，78% 的答案与人类答案存在不同程度的不一致，”他们写道。

研究小组还对随机抽取的 2000 个 ChatGPT 答案进行了语言学分析，发现它们 “更正式、更具分析性”，同时 “负面情绪较少”–这正是人工智能倾向于产生的那种平淡而欢快的语气。

尤其令人不安的是，许多人类程序员似乎更喜欢 ChatGPT 答案。普渡大学的研究人员对 12 名程序员进行了调查，发现他们喜欢 ChatGPT 的比例为 35%，不喜欢人工智能生成的错误的比例为 39%。

为什么会出现这种情况？可能只是因为 ChatGPT 比网上的人更有礼貌。

“研究人员写道：”后续的半结构化访谈显示，礼貌的语言、铿锵有力和教科书式的回答以及全面性是让 ChatGPT 答案看起来更有说服力的一些主要原因，因此参与者降低了警惕，忽略了 ChatGPT 答案中的一些错误信息。

这项研究表明，ChatGPT 仍然存在重大缺陷–但这对于从 Stack Overflow 下岗的人或不得不纠正人工智能生成的代码错误的程序员来说，只是冰冷的安慰。