【译文】大型语言模型可以做出令人瞠目的事情，但没有人知道这究竟是为什么

大语言模型| 2024-03-13

两年前，旧金山 OpenAI 公司的研究人员尤里-布尔达（Yuri Burda）和哈里-爱德华兹（Harri Edwards）试图找出让语言模型进行基本运算所需的条件。他们想知道该模型需要看到多少个两个数字相加的例子，才能将他们给出的任何两个数字相加。起初，情况并不顺利。模型记住了它们看到的加法，却无法求解新的加法。

意外的是，布尔达和爱德华兹让一些实验运行的时间远远超过了他们的预期–几天而不是几小时。研究人员一遍又一遍地向模型展示例题，直到研究人员认为可以放弃的时候。但是，当他们终于回来时，却惊讶地发现实验成功了。他们训练了一个语言模型来进行两个数字的加法运算，只是花费的时间比大家想象的要多得多。

出于对这一现象的好奇，布尔达和爱德华兹与同事合作研究了这一现象。他们发现，在某些情况下，模型看似无法学习某项任务，但突然就能完成任务，就像电灯泡打开了一样。这不符合深度学习的工作原理。他们称这种行为为 “摸索”（grokking）。

“蒙特利尔大学和苹果机器学习研究公司的人工智能研究员哈蒂-周（Hattie Zhou）说：”这真的很有趣。”我们能确信模型已经停止学习了吗？因为也许我们只是训练的时间还不够长。”

这种怪异的行为吸引了广大研究人员的想象力。”英国剑桥大学的劳罗-兰格斯科说：”很多人都有自己的看法。”但我不认为人们对究竟发生了什么达成了共识”。

摸不着头脑只是让人工智能研究人员挠头的几种奇怪现象之一。最大的模型，尤其是大型语言模型，似乎都在以教科书上的数学方式行事。这凸显了当今人工智能热潮背后的基础技术–深度学习的一个显著事实：尽管它取得了突飞猛进的成功，但没有人知道它究竟是如何工作的，或者说为什么工作。

“加州大学圣迭戈分校的计算机科学家米哈伊尔-贝尔金（Mikhail Belkin）说：”显然，我们并非完全一无所知。加利福尼亚大学圣迭戈分校的计算机科学家米哈伊尔-贝尔金说，”但我们的理论分析与这些模型的功能相去甚远。比如，它们为什么能学习语言？我认为这非常神秘。

现在，最大的模型是如此复杂，以至于研究人员把它们当作奇怪的自然现象来研究，进行实验并试图解释结果。其中许多观察结果与经典统计学背道而驰，而经典统计学为我们提供了一套预测模型行为的最佳解释。

你可能会说，那又怎样？在过去几周里，谷歌 DeepMind 在其大部分消费者应用中推出了生成模型。OpenAI 的全新文本到视频模型 Sora 让人们惊叹不已。世界各地的企业都在争相采用人工智能来满足自己的需求。技术有用，难道这还不够吗？

但是，弄清深度学习为何如此有效并不仅仅是一个引人入胜的科学难题。它也可能是开启下一代技术的关键–同时也是控制其巨大风险的关键。

“哈佛大学计算机科学家博阿斯-巴拉克（Boaz Barak）说：”这是一个令人兴奋的时代。”该领域的许多人经常将其与 20 世纪初的物理学相提并论。我们有很多实验结果并不完全清楚，而当你做一个实验时，往往会让你大吃一惊。”

老代码，新花样

大多数惊喜都与模型学习如何做未曾展示过的事情有关。这被称为 “泛化”，是机器学习中最基本的理念之一，也是最大的难题。模型通过使用一组特定的示例进行训练，学会完成一项任务–观察人脸、翻译句子、避开行人。然而，它们可以泛化，学会用以前从未见过的例子来完成这项任务。在某种程度上，模型并不只是记住它们所见过的模式，而是总结出一些规则，让它们把这些模式应用到新的情况中。有时，就像摸索一样，泛化会在我们意想不到的时候发生。

尤其是大型语言模型，如 OpenAI 的 GPT-4 和谷歌 DeepMind 的 Gemini，具有惊人的泛化能力。”巴拉克说：”神奇之处不在于模型可以学习英语中的数学问题，然后归纳出英语中的新数学问题，”而是模型可以学习英语中的数学问题，然后看到一些法语文献，并由此归纳出法语中的数学问题。这超出了统计学所能告诉你的东西”。

几年前，当周开始学习人工智能时，她的老师只关注 “怎么做”，却不关注 “为什么做”，这让她感到非常震惊。”她说：”就好像是，你如何训练这些模型，然后得出结果。”但她并不清楚为什么这个过程会导致模型能够完成这些令人惊叹的事情。她想知道更多，但她被告知没有好的答案：”我的假设是，科学家知道他们在做什么。比如，他们会先提出理论，然后再建立模型。但事实并非如此。

过去十多年来，深度学习的快速发展更多来自于尝试和错误，而非理解。研究人员照搬别人的方法，再加上自己的创新。现在，有许多不同的成分可以添加到模型中，而使用这些成分的食谱也越来越多。”贝尔金说：”人们尝试这个、那个，所有这些技巧。”有些很重要，有些可能不重要。有些可能不重要。

“它能起作用，这太神奇了。他说：”这些东西如此强大，让我们大开眼界。尽管取得了如此大的成功，但这些配方更像是炼金术，而不是化学：”他说：”我们在混合了一些成分后，在午夜时分想出了一些咒语。

过度拟合

问题在于，大型语言模型时代的人工智能似乎违背了教科书上的统计学原理。当今最强大的模型规模庞大，拥有多达一万亿个参数（在训练过程中调整模型中的数值）。但统计学认为，随着模型变得越来越大，它们的性能应该先有所提高，但随后会变得越来越差。这就是所谓的 “过拟合”。

当模型在数据集上接受训练时，它会试图将数据拟合成一种模式。想象一下图表上绘制的一堆数据点。符合数据的模式可以在图表上表示为一条穿过这些点的直线。训练模型的过程可以看作是让模型找到一条既适合训练数据（图表上已有的点）又适合新数据（新的点）的线。

直线是一种模式，但可能不太准确，会遗漏一些点。连接每一个点的波浪线在训练数据上可以得到满分，但却无法推广。当出现这种情况时，模型就被称为过拟合数据。

根据经典统计学原理，模型越大，就越容易过度拟合。这是因为有了更多的参数，模型就更容易找到连接每个点的摇摆线。这表明在拟合不足和拟合过度之间存在一个最佳点，模型必须找到这个最佳点才能泛化。然而，我们在大型模型中看到的却并非如此。最著名的例子就是所谓的双重下降现象。

一个模型的性能通常用它所犯的错误数量来表示：随着性能的提高，错误率也会降低（或下降）。几十年来，人们一直认为，随着模型变大，错误率会先降后升：想象一条 U 形曲线，泛化的甜蜜点位于最低点。但在 2018 年，贝尔金和他的同事发现，当某些模型变大时，其错误率会下降，然后上升，然后再下降（双下降，或 W 形曲线）。换句话说，大型模型会以某种方式越过那个甜蜜点，突破过度拟合问题，越大越好。

一年后，巴拉克与他人合作撰写了一篇论文，表明双下降现象比许多人想象的更为普遍。它不仅发生在模型变大的时候，也发生在拥有大量训练数据的模型或训练时间较长的模型中。这种行为被称为良性过拟合，至今仍未被完全理解。它提出了一些基本问题，即应如何训练模型才能最大限度地利用模型。

研究人员已经勾勒出了他们认为发生了什么。贝尔金认为，有一种奥卡姆剃刀效应在起作用：符合数据的最简单模式–点之间最平滑的曲线–往往是概括性最好的模式。更大的模型之所以能在更长的时间内不断改进，可能是因为更大的模型比更小的模型更有可能找到那条 “刚刚好 “的曲线：更多的参数意味着在放弃最不稳定的曲线后，有更多可能的曲线可以尝试。

“贝尔金说：”我们的理论似乎解释了为什么它能起作用的基本原理。”贝尔金说：”然后人们做出了能说 100 种语言的模型，这就好像，好吧，我们什么都不懂。他笑着说：他笑着说：”事实证明，我们甚至还没有触及表面”。

对贝尔金来说，大型语言模型是一个全新的谜团。这些模型基于变压器，这是一种擅长处理数据序列（如句子中的单词）的神经网络。

贝尔金说，变压器内部非常复杂。但他认为，从本质上讲，变压器的作用与一种更容易理解的统计结构–马尔科夫链–大致相同，后者可以根据之前的数据预测序列中的下一个项目。但这还不足以解释大型语言模型所能做的一切。”贝尔金说：”直到最近，我们还认为这是行不通的。贝尔金说：”这意味着我们从根本上缺少了什么。它确定了我们对世界理解的一个缺口。”

贝尔金走得更远。他认为，语言中可能存在一种隐藏的数学模式，大型语言模型可以利用这种模式：”纯属猜测，但为什么不呢？”

“他说：”这些东西能建立语言模型，这可能是历史上最大的发现之一。”你可以通过马尔科夫链预测下一个词来学习语言，这对我来说简直太震撼了。”

从小事做起

研究人员正试图逐一找出答案。由于大型模型过于复杂，无法自行研究，因此贝尔金、巴拉克、周等人转而在较小的（和较早的）统计模型品种上进行实验，这些模型更容易理解。在不同条件下和各种数据上训练这些代用模型，并观察所发生的情况，可以让我们深入了解发生了什么。这有助于新理论的落地，但这些理论是否也适用于更大的模型，并不总是很清楚。毕竟，大型模型的复杂性正是许多怪异行为的根源。

深度学习理论会出现吗？大卫-徐（David Hsu）是哥伦比亚大学的计算机科学家，也是贝尔金双cent论文的共同作者之一。”他说：”我们现在有了更好的直觉。他说：”但要真正解释神经网络为什么会出现这种意想不到的行为？我们还远远没有做到这一点”。

2016 年，麻省理工学院的张志远和谷歌大脑的同事们发表了一篇颇具影响力的论文，题为 “理解深度学习需要反思泛化”。五年后的 2021 年，他们再次发表了这篇论文，并称之为 “理解深度学习（仍然）需要反思泛化”。2024年呢？”有点是，也有点不是。”张说。”最近取得了很多进展，不过可能出现的问题比解决的问题要多得多。”

与此同时，研究人员仍在继续与基本观测结果搏斗。12 月，兰格斯科和他的同事在顶级人工智能会议 NeurIPS 上发表了一篇论文，声称摸索和双降实际上是同一现象的两个方面。”兰格斯科说：”你瞟一眼，它们看起来有点相似。他认为，对发生的事情的解释应该同时考虑到这两种现象。

在同一次会议上，剑桥大学研究统计学的艾丽西亚-库斯（Alicia Curth）和她的同事认为，双重血统实际上是一种错觉。”柯思说：”我不太相信现代机器学习是一种魔法，它违背了我们迄今为止建立的所有法则。她的团队认为，双重下降现象–即模型看起来表现得更好，然后变得更差，然后随着模型变大又变得更好–是由于测量模型复杂性的方式造成的。

贝尔金和他的同事用模型的大小–参数的数量–来衡量复杂性。但库尔特和她的同事发现，参数数量可能并不能很好地代表复杂性，因为增加参数有时会使模型更加复杂，有时则会降低复杂性。这取决于参数值是多少，在训练过程中如何使用，以及如何与其他参数相互作用–其中很多参数都隐藏在模型内部。”Curth 说：”我们得出的结论是，并非所有的模型参数都是一样的。

简而言之，如果用不同的方法来衡量复杂性，大型模型可能完全符合经典统计学。库尔特说，这并不是说我们对模型变大后会发生什么还有很多不明白的地方。但我们已经拥有了解释它所需的所有数学知识。

我们时代的一大谜团

的确，这样的争论可能会陷入困境。人工智能模型是否以经典统计学为基础有什么关系？

一个答案是，更好的理论理解将有助于建立更好的人工智能或使其更有效率。目前，进展虽快，却难以预测。OpenAI 的 GPT-4 所能做的许多事情甚至连它的制造者都感到惊讶。研究人员仍在争论它能实现什么，不能实现什么。”贝尔金说：”如果没有某种基础理论，我们很难知道这些东西能给我们带来什么。

巴拉克对此表示赞同。”他说：”即使我们有了模型，事后也无法准确说出某些能力出现的确切原因。

这不仅关乎进度管理，还关乎风险预测。许多研究深度学习背后理论的研究人员都是出于对未来模型安全性的担忧。”兰格斯科说：”在对 GPT-5 进行训练和测试之前，我们不知道它将具备什么样的能力。”现在这可能只是一个中等规模的问题，但随着模型变得越来越强大，未来它将成为一个真正的大问题。”

巴拉克在OpenAI的超级排列团队工作，该团队由公司首席科学家伊利亚-苏茨基弗（Ilya Sutskever）组建，旨在研究如何阻止假想的超级智能失控。”他说：”我对获得保证非常感兴趣。”如果你能做出令人惊叹的事情，但却无法真正控制它，那么它就不那么令人惊叹了。如果一辆汽车的方向盘摇摇晃晃，那么这辆时速 300 英里的汽车又有什么用呢？

但在这一切的背后，还有一个巨大的科学挑战。”巴拉克说：”智能绝对是我们这个时代最伟大的奥秘之一。

“他说：”我们的科学还很稚嫩。”这个月我最感兴趣的问题可能与下个月我最感兴趣的问题不同。我们仍在探索中。我们非常需要实验和惊喜”。

本文文字及图片出自 Large language models can do jaw-dropping things. But nobody knows exactly why.