【外评】研究发现,52% 的聊天软件编程问题答案是错误的

没那么聪明

近年来,计算机程序员纷纷涌向像 OpenAI 的 ChatGPT 这样的聊天机器人来帮助他们编码,这给 Stack Overflow 这样的地方带来了打击,该公司去年不得不裁员近 30%。

唯一的问题是什么?普渡大学(Purdue University)的一个研究团队本月在 “计算机与人交互”(Computer-Human Interaction)会议上发表的研究报告显示,ChatGPT 生成的编程答案有 52% 是错误的。

对于一个人们依赖于其准确性和精确性的程序来说,这个比例大得惊人,这也凸显了作家和教师等其他终端用户的遭遇:像 ChatGPT 这样的人工智能平台经常凭空幻化出完全错误的答案。

在这项研究中,研究人员查看了 Stack Overflow 中的 517 个问题,并分析了 ChatGPT 试图回答这些问题的过程。

“我们发现,52% 的 ChatGPT 答案包含错误信息,77% 的答案比人类答案更啰嗦,78% 的答案与人类答案存在不同程度的不一致,”他们写道。

机器人与人类

研究小组还对随机抽取的 2000 个 ChatGPT 答案进行了语言学分析,发现它们 “更正式、更具分析性”,同时 “负面情绪较少”–这正是人工智能倾向于产生的那种平淡而欢快的语气。

尤其令人不安的是,许多人类程序员似乎更喜欢 ChatGPT 答案。普渡大学的研究人员对 12 名程序员进行了调查,发现他们喜欢 ChatGPT 的比例为 35%,不喜欢人工智能生成的错误的比例为 39%。

为什么会出现这种情况?可能只是因为 ChatGPT 比网上的人更有礼貌。

“研究人员写道:”后续的半结构化访谈显示,礼貌的语言、铿锵有力和教科书式的回答以及全面性是让 ChatGPT 答案看起来更有说服力的一些主要原因,因此参与者降低了警惕,忽略了 ChatGPT 答案中的一些错误信息。

这项研究表明,ChatGPT 仍然存在重大缺陷–但这对于从 Stack Overflow 下岗的人或不得不纠正人工智能生成的代码错误的程序员来说,只是冰冷的安慰。

本文文字及图片出自 STUDY FINDS THAT 52 PERCENT OF CHATGPT ANSWERS TO PROGRAMMING QUESTIONS ARE WRONG

你也许感兴趣的:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注