当你告诉大语言模型(LLM) 旁边有一部智能手机时，会发生什么？

LLM 人工智能| 2025-04-03

我一直有着奇怪的学术背景–从康奈尔大学学习生物学，到卡内基梅隆大学获得软件工程硕士学位。但大多数人不知道的是，我还学过（辅修）心理学。

事实上，我曾管理过一个著名的研究实验室，该实验室由一位现就职于耶鲁大学的教授管理。我负责监督研究助理进行有关内隐偏见的实验，研究这些偏见是如何在无意识的情况下更新的。

这也许就是为什么 TikTok 能引起我的注意：一项研究表明，人们在智商测试中表现较差，只是因为他们的手机在房间里–即使手机已经关机。

我想……如果这也发生在人工智能身上呢？

于是，我做了一个开源实验来一探究竟。

智能手机 “人才流失 ”研究

人才流失研究一定是在我的 TikTok FYP 上出现的。基本上，这项研究让参与者进行智商测试。测试分为三组：

第一组参与者把智能手机面朝下放在他们使用的桌子上
第二组参与者把智能手机放在口袋或包里
第三组参与者被要求把智能手机留在测试室外。

结果非常有趣。

“结果表明，将智能手机放在室外组的表现优于将手机放在桌上或口袋/包里的组。后续实验证实，即使房间里的智能手机关闭了电源，情况也是如此。

从本质上讲，智能手机的存在就会影响人们在智商测试中的表现。

于是，我想到了本周早些时候发布的另一项与语言模型认知有关的研究。

人类模型思维研究

除了 “人才流失 ”研究之外，我还在我的推送上看到了一些关于《人类学》（Anthropic）这项研究的内容。

Anthropic 的这项研究表明，我们能够绘制出 LLM 对所提问题的 “思考 ”方式。例如，Anthropic 团队在回答一个越狱案例时发现，该模型在向用户表达之前就已经意识到它被要求提供危险信息。

将人类心理学与大语言模型(LLM)行为联系起来

“脑力流失 ”研究展示了外部物体（智能手机）如何在不知不觉中影响人类的认知表现。同时，“人类学 ”研究揭示出，在做出最终反应之前，龙8国际官方网站手机版人具有可察觉的思维模式。这两项研究让我想到了一个引人注目的问题：如果人类会在不知不觉中受到环境线索的影响，那么低等生物是否也会表现出类似的行为呢？

换句话说，告诉大语言模型(LLM)一个环境条件（比如附近有电话）会影响它的表现吗，即使大语言模型(LLM)显然没有电话？这个问题将这些看似毫不相关的研究联系起来，并构成了我的实验基础。

我发现确实如此，但却有一个引人入胜的转折。虽然智能手机的存在会影响人类的表现，但向大语言模型(LLM)暗示智能手机实际上会提高它的表现。让我带您了解一下我是如何发现这一点的。

设计实验

利用我一直从事的各种项目中的大量代码片段，我让Claude创建了一个可以执行该实验的脚本。

在粘贴代码片段后，我说了以下内容。

以这段代码为上下文，创建一个绿地类型脚本，它可以执行以下操作：

# 变量：
* 系统提示
* 评估提示
* 模型
* 评估模型

# 要求：
* 使用系统提示。我们将期望它生成一个 SQL 查询
* 提取 SQL
* 执行它并得到结果
* 运行查询并将最终结果输入评估提示
* 期望评估查询输出一个带有 “值 ”的 JSON
* 输出系统提示的最终得分

它必须是一个greenfield 脚本

经过很短的交谈，Claude帮我创建了 EvaluateGPT。

通过 EvaluateGPT，我可以评估大语言模型(LLM)提示的有效性。使用方法