最近人工智能模型的进步感觉就像胡说八道

大约九个月前,我和三个朋友认为,人工智能已经发展到足以自主监控大型代码库安全问题的程度。为此,我们创办了一家公司,试图利用最新的人工智能模型来创建一种工具,至少可以取代人类五项检测员的大部分价值。自 2024 年 6 月以来,我们一直致力于这个项目。

在公司成立后的头三个月内,克劳德 3.5 奏鸣曲就发布了。仅仅通过切换我们服务中运行在 gpt-4o 上的部分,我们新生的内部基准测试结果就立即开始饱和。我记得当时我很惊讶,我们的工具似乎不仅减少了基本错误,而且在书面漏洞描述和严重性估计方面也有了质的提升。就好像模型更善于推断我们提示背后的意图和价值,即使是不完整的信息。

事实上,安全研究基本上没有公开的基准。有一些 “网络安全 ”测试会向模型提出有关孤立代码块的问题,或者有一些 “CTF ”测试会向模型提供明确的挑战描述和 <1kLOC web 应用程序的 shell 访问权限。但没有任何一种方法能解决 LLM 应用程序五重测试的难点,即 1. 2. 推断目标应用程序的安全模型,以及 3. 深入了解其实现,以了解该安全模型的漏洞所在。基于这些原因,我认为漏洞识别任务是一个很好的试金石,可以检验 LLM 在狭隘的软件工程领域之外的通用性。

自 3.5-sonnet 以来,我们一直在关注人工智能模型的发布,并尝试了几乎每一个声称有某种改进的重要新版本。出乎我意料的是,除了 3.6 和 3.7 分别有轻微提升和更小的提升外,我们尝试过的所有新模型都没有对我们的内部基准或开发人员发现新 Bug 的能力产生重大影响。这其中包括新的测试时间 OpenAI 模型。

一开始,我很紧张,不敢公开报告,因为我觉得这可能会对我们的团队造成不好的影响。自八月份以来,我们的扫描仪已经有了很大改进,但这是常规工程的结果,而不是模型改进的结果。这可能是我们设计的架构出了问题,导致我们没有随着 SWE-Bench 分数的提高而获得更多的里程数。

但最近几个月,我与其他从事人工智能应用创业的 YC 创始人交流过,他们大多都有相同的经历: 1.O99-pro-ultra发布,2.基准看起来不错,3.评估性能一般。尽管我们在不同的行业、不同的问题集上工作。有时,创始人会对叙述进行应付(“我们只是没有博士水平的问题可问”),但叙述是存在的。

我读过研究报告。我看过相关数据。也许法学硕士变得更有趣了,也许他们在控制考试中表现得更好了。但我还是想说,根据内部基准,以及我自己和同事使用这些模型的感受,无论这些公司向公众报告的收益如何,它们都不能反映经济效益或普遍性。它们不能反映我或我的客户的生活体验。就能够执行全新任务或更大比例的用户智力劳动而言,我不认为它们自八月份以来有什么改进。

根据你的观点,这是个好消息!无论是对我个人来说,作为一个试图利用大语言模型(LLM) 能力赚钱的人,同时他们又太笨了,无法解决整个问题;还是对担心快速过渡到人工智能控制的经济会带来道德风险的人们来说,这都是好消息。

与此同时,还有一种观点认为,模型评分与高度敏感的消费者报告的体验之间的脱节是一个不好的信号。如果现在连模型的智力能力都无法衡量,而它们又大多局限于聊天室,那么当人工智能开始管理公司或制定公共政策时,又该如何制定评估其影响的标准呢?如果我们还没把公共生活中混乱而艰难的部分交给机器,就已经陷入古德哈廷的陷阱,我想知道原因何在。

人工智能实验室只是在作弊吗?

人工智能实验室的创始人认为,他们正在进行一场文明竞争,争夺对整个未来光锥的控制权,如果成功,他们将成为宇宙独裁者。指责这些创始人为了达到这些目的而进行欺诈是非常合理的。即使你一开始就对科技大亨抱有极高的评价,你也不应该指望他们会诚实地提供自己的模型在这场竞争中的表现。夸大能力或有选择性地披露有利的能力结果,如果你能做到的话,会有非常强大的短期动机。投资是其中之一,但吸引人才和赢得声誉竞赛(对心理有影响)可能也是同样大的诱因。而且,基本上没有任何法律责任迫使实验室在基准结果上保持透明或真实,因为从来没有人因为在测试数据集上进行训练,然后向公众报告这一表现而被起诉或被判欺诈罪。如果你试图这样做,任何这样的实验室仍然可以声称自己在非常狭隘的意义上说的是实话,因为模型 “确实在该基准上实现了该性能”。如果在重要指标上进行一阶调整在技术意义上可以被视为欺诈,那么负责篡改统计数据的团队就有无数种其他方式可以稍微间接地说明这一点。

在这篇文章的初稿中,我在上段后面加上了这样一句话:“也就是说,不可能所有的收益都来自作弊,因为有些基准有保留数据集。” [1]但是,OpenAI 和 Anthropic 发布的每一个基准都有公开的测试数据集。我能想到的唯一例外是 ARC-AGI 奖,其 “半公开 ”评估的最高分是由 o3 获得的,但它并未对 Claude 3.7 Sonnet、DeepSeek 或 o3-mini 进行公开评估。关于 o3 本身:

所以,也许这并不神秘: 人工智能实验室公司在撒谎,当他们改进基准结果时,那是因为他们以前看过答案,并把它们写下来了。从某种意义上说,这是最幸运的答案,因为这意味着我们在衡量 AGI 性能方面其实并不差,我们只是面临着人为的欺诈。欺诈是人的问题,而不是潜在技术困难的表现。

我猜这有一部分是对的,但不是全部。

基准没有跟踪有用性吗?

假设你对一个人的唯一了解就是他在瑞文智力测验(Raven’s progressive matrices)中得了 160 分[2]。你可以对这个人做出一些推断:例如,瑞文智力测验的高分与一般积极的生活结果相关,如较高的职业收入、较好的健康状况和不进监狱。

您之所以能做出这些推断,部分原因是在测试人群中,瑞文渐进矩阵测验的分数能够反映人类在相关任务中的智力水平。完成标准智商测验并取得好成绩的能力不仅能让您了解一个人的 “应试 ”能力,还能让您了解这个人的工作表现如何、是否能做出正确的健康决定、心理健康是否良好等等。

重要的是,这些相关性并不一定要很强,拉文测验才能成为有用的诊断工具。病人不会为智商测试进行训练,而且,人类大脑也不是为了在 RPM 这样的测试中取得高分而特意设计的。我们在这类测试中的高分(相对于其他物种而言)是过去 5 万年中偶然发生的,因为进化间接地调整了我们追踪动物、灌溉庄稼和赢得战争的能力。

这是一个明显得不能再明显的观察结果,但是:除了少数明显的例外,我们几乎所有的基准都具有标准化测试的外观和感觉。我的意思是,每项测试都是一系列学术难题或软件工程挑战,每项挑战你都能在不到几百个代币的时间内消化并解决。也许这只是因为这些测试的评估速度更快,但就好像人们理所当然地认为,能拿到 IMO 金牌的人工智能模型会拥有和陶哲轩一样的能力。因此,“人类最后的考试 ”并不是测试模型完成 Upwork 任务、完成电子游戏或组织军事行动的能力,而是一个自由回答测验。

我不会做 “人类最后的考试 ”中的任何一道测试题,但我今天愿意打赌,第一个完成 HLE 测试的模型仍然无法成为软件工程师。HLE 和类似的基准测试很酷,但它们没能测试出语言模型的主要缺陷,比如它们只能像纪念碑上的那个人一样,通过把东西写在刮刮卡上才能记住。克劳德玩宠物小精灵》是一个被过度使用的例子,因为视频游戏涉及大量人类特有能力的综合,但这个任务适合你偶尔回忆起三十分钟前学过的东西。结果不出意料地糟糕。

就我个人而言,当我想了解未来的能力提升情况时,我几乎只会关注《克劳德玩宠物小精灵》这样的基准测试。我仍然会查看海豹突击队的排行榜,看看它在说什么,但我的人工智能时间表的决定因素将是我在 Cursor 中的个人体验,以及 LLM 在处理类似于你要求员工完成的长期任务时的表现。其他的都是噪音。

模型是否很聪明,但在排列组合上存在瓶颈?

在说明下一点之前,让我先介绍一下我们的业务背景。

正如我提到的,我的公司使用这些模型扫描软件代码库,查找安全问题。在这个特定问题领域(维护已交付软件的安全)工作的人被称为 AppSec 工程师。

碰巧的是,大多数大公司的 AppSec 工程师都有大量代码需要保护。他们的工作严重超负荷。典型的工程师需要回答的问题不是 “如何确保这个应用程序没有漏洞”,而是 “如何管理、筛选和解决我们 8000 个产品线中存在的大量安全问题”。如果他们收到警报,他们希望警报影响的是正在运行的、最好能联网的生产服务。如果达不到这一点,就意味着要审查的结果太多,或者安全团队浪费有限的政治资本去要求开发人员修复可能根本不会产生影响的问题。

因此,我们在构建应用程序时自然会尽量让它只报告影响正在运行的、理想情况下可以通过网络连接到的生产服务的问题。但是,如果您只是向聊天模型解释这些限制,他们就会零散地执行您的指令。例如,如果您让他们检查一段代码是否存在安全问题,他们就会倾向于把您当成一个刚刚在 ChatGPT UI 中询问过这段代码的开发人员,因此会猜测代码是否有问题或是否有遗漏。即使你对我刚才概述的情况进行了完整的书面描述,几乎所有的公开模型都会忽略你的情况,并将无法利用的 SQL 查询连接报告为 “危险”。

这并不是说人工智能模型认为它在遵循你的指令,而实际上并没有。大语言模型(LLM) 实际上会在天真的应用中说,它所报告的是一个 “潜在 ”问题,而且可能无法验证。我认为这是因为大型语言模型在与用户的实时对话中被训练得 “听起来很聪明”,所以它们更愿意强调可能存在的问题,而不是确认代码看起来没有问题,就像人类想听起来很聪明时所做的那样。

每个大语言模型(LLM) 的初创公司都会遇到这样的限制。当你是一个直接与聊天模型交互的人时,谄媚和狡辩只是小麻烦,甚至可能是适应性的。当你是一个团队,试图将这些模型组成更大的系统时(由于前面提到的内存问题,这是必须的),“想要看起来更好 ”的想法就会引发破坏问题。更智能的模型可能会解决这个问题,但也可能会使问题更难发现,尤其是当它们所替代的系统变得更加复杂、更难验证其输出时。

克服这些缺陷的方法有很多种。我们完全有可能在有人想出办法解决这个问题的外在表现之前,解决不了核心问题。

我认为这样做是错误的。这些机器很快就会成为我们生活的社会的心脏。它们在组成和互动过程中形成的社会和政治结构将决定我们周围的一切。重要的是,我们要尽可能地让它们成为良性的。

本文文字及图片出自 Recent AI model progress feels mostly like bullshit

你也许感兴趣的:

共有 452 条讨论

  1. 几周前,人工智能领域最大的新闻发布了,但却鲜有人关注:在最近的 USAMO 中,SOTA 模型的平均得分只有 5%(我记得,这是一个非常糟糕的数字)。尽管据说它们在 IMO 问题上取得了 50%、60% 等成绩。这充分说明人工智能模型只是记住了过去的结果,而不是真正解决了这些问题。我非常惊讶没有人提到这一点,但可笑的是,这些公司从未告诉我们做了哪些努力(如果有的话)将测试数据(IMO、ICPC 等)从训练数据中移除。

    1. 是的,这是链接:https://arxiv.org/abs/2503.21934v1

      从轶事上讲,我一直在用 o3-mini 处理本科生的数学问题:它在 “即插即用 “证明方面比 GPT-4 好得多,但这些问题并不是独立有趣的,而是明确的教学问题。对于任何需要洞察力的问题,要么是

      1) 一个非常好的答案,表明大语言模型以前见过这个问题(例如,命名定理,提出一个 “标准 “证明,使用一个强大得多的结果)

      2) 一个糟糕的答案,看起来正确,但要花费巨大的精力才能证伪(这是大语言模型的秘诀)。(这就是大语言模型(LLM)炒作的秘诀。)

      我最怕STEM专业的本科生用这个东西–我问了它一个关于旋转和球面几何的问题,但得到的却是一堆高等几何代数,而我要找的是 “画一个球面三角形”。如果我不知道答案,肯定会一头雾水。也请看这个大语言模型(LLM) 把一个休闲数学家引入歧途的真实例子:https://xcancel.com/colin_fraser/status/1900655006996390172#…

      我要补充的是,10 年后,该领域将因依赖选择题基准而受到强烈批评;下一个令牌的预测可以与选择题博弈,这并不奇怪,也不有趣!

      1. 这是一篇由 INSAIT 研究人员撰写的论文–这是一家非常年轻的研究所,其大部分博士人员都是近两年才聘用的,基本上是谁想加入谁就加入。他们在国内的国家电视台上把他们的 BG-GPT 作为一项重大突破来炫耀,而实际上这只是一个经过 Mistral 微调的模型,最终从未向公众发布,也没有训练集。

        我不确定他们(INSAIT)的目的是否纯粹是为了科学,因为这些人在 Linkedin 上有很多公关活动,简直是在庆祝他们获得的每一个博士学位,这至少是非常奇怪的。他们发布的任何信息,我都会慎之又慎。

        1. 半数研究人员都在苏黎世联邦理工学院(INSAIT 是 EPFL、苏黎世联邦理工学院和索菲亚大学的合作机构)–很难说这是一个不可靠的机构。

      2. 根据我的经验,大语言模型(LLM) 连基本的西方音乐理论都搞不清楚,我不可能用大语言模型(LLM) 来做比这更难的事情。

        1. 虽然我可能弄错了,但我不相信法学硕士是在大量机器可读音乐表征的语料库中接受训练的,而机器可读音乐表征可以说是在普通音乐理论实践中取得优异成绩的关键。我还推测,大多数与音乐理论相关的数据集基本上都没有音乐表征。类似的问题也存在于许多其他领域,尤其是数学领域,但投入精力填补这些领域的表征空白更有利可图。我不会以音乐理论的表现来衡量大语言模型的通用性,因为它的利基表征很可能在训练中无法获得,而且人们普遍认为它的经济价值微乎其微。

        2. 音乐理论确实是一个很好的测试,因为根据我的经验,人工智能在这方面的能力极差

        3. > 根据我的经验,大语言模型(LLM)无法正确掌握基本的西方音乐理论,我不可能用大语言模型(LLM)来做比这更难的事情。

          这种观点完全是无知的,坦率地说,听起来像是一种无奈的嘲讽。有无数活动的核心要求都是:a)从复杂的语境中获取信息,而这种语境恰好又有深厚而丰富的语料库支持;b)使用美化的模板和规则引擎。

          LLM 擅长根据自然语言的输入和输出进行上下文插值。就像在特定领域任务中经过大量训练的聊天机器人一样,它也能解析和生成内容。绝对没有任何一项智力工作不能从这种工具中广泛受益。零。

          1. 绝望的嘲讽?但我希望大语言模型(LLM) 能够准确地完成基本的确定性工作。看来我触动了你的神经?笑死我了。

      3. 在此讨论:https://news.ycombinator.com/item?id=43540985(证明还是虚张声势?在 2025 年美国数学奥林匹克竞赛上评估 LLM,4 分,2 条评论)。

      4. 轶事:小学生处于大语言模型创新的前沿,如今所有的家庭作业都明确规定要防法律硕士。(至少在我儿子的学校是这样,你们学校可能不同。)

        这实际上使法律硕士对教育毫无用处。(同时也让下一代对法律硕士失去了兴趣,因为这些东西对 “现在的孩子 ”来说非常蹩脚)。

        1. 如何让家庭作业不受 LLM 影响?如果真的可行,可能会有巨大的商机,因为法学硕士正在以迅雷不及掩耳之势摧毁教育。

          1. 通过纸笔考试,告诉你的学生唯一可行的备考策略就是自己做家庭作业:)

            1. 你想得美。我以前也是这么想的。但事实证明,现在每一次当面考试都要把手机藏在某个地方,效率不一,你不可能真的在学生进考场之前就把他们剥光。

              有的老师试图事先收缴手机,但后来学生们干脆把旧手机给了别人,自己的在用手机随身带着。

              你可以试着给学生打电话,核实他们交出的手机是否能正常使用,但这将耗费大量时间,而且对于简单的考试来说也不切实际。

              我们真的不知道人工智能现在对教育的破坏有多大。

              1. 与 “让有机会接触大语言模型(LLM)的人难以参加考试 “这一难题不同,”确保学生参加考试时身上没有设备 “是非常可控的,即使教师需要一些时间来赶上曲线。

                以下任何一种方法都可以奏效,尽管具体的取舍和实施细节各不相同:

                – 让 <n> 名教师在教室里走来走去,监视作弊者

                – 在教室的不同位置安装几个摄像头,并给教师一个仪表盘,让他们可以从各个角度观察

                – 从高处录像,并使用人工智能标记潜在的作弊者,以便进行人工审查

                – 在考试期间禁用 Wi-Fi + 启动手机干扰器(在教室里安装固定电话,以防万一?- 在专用考场内铺设金属网以干扰手机信号

                因此,与 “击败法学硕士 “不同(是否可能还是个未知数,而且还是个不断变化的目标),除非可穿戴技术取得重大进展,否则这似乎只是个资金问题,因此也是个政治意愿问题。

                1. 手机干扰器听起来可能会带来安全隐患。在高中环境下,一般很容易发现有人在玩手机。

                2. 红外线摄像头应该可以做到这一点。

            2. 或者你只需考虑到这一点,并根据当时的工具提供同样具有挑战性的任务。让他们接触到用钱能买到的最好的法律硕士。

              毕竟,他们将在这些东西的陪伴下成长。他们今天做作业,等到毕业时,大语言模型(LLM)就会取代他们的工作。人类的大型语言模型经理可能会存在一段时间,但很快就会被思想家时代所取代。

            3. 让当堂测试成为唯一计入成绩的方式似乎是一个正确的方向。如果学生使用人工智能来做作业,从长远来看只会伤害他们。

          2. 你只需要(笑)给出非标准问题,并要求学生在回答问题的同时提供推理和解释。是的,大语言模型也会 “推理”,但当输出来自这里的大语言模型时就显而易见了(LLM)。

            (是的,这对老师来说是个大工程。把报告当作家庭作业来布置的时代已经一去不复返了)。

            1. 你能提供 “大语言模型(LLM)证明 “的样题吗?

              1. 现在的模型已经不再像以前那样可靠地工作了,但我在 LLM 早期发现的一个例子是,问它 “两磅铁和一磅羽毛哪个更重?” 你可以非常容易地诱使它给出这两者是一样的答案,因为它遇到的关于一磅铁和一磅羽毛的众所周知的问题的训练实例数量非常多。

                如果你问的问题与众所周知的问题 “接近”,但又有重要的不同之处,而这种不同并不表现为英语的巨大变化(或者更准确地说,是模型向量空间的巨大变化),你就可以诱使它给出错误的答案。

                这样做的弊端是,能骗过 LLMs 和能骗过同类中大量人类的前沿一直在缩小。人类也不会无限仔细地解析他们的输入……任何老师都能告诉你这一点!例如,“在继续做题之前,请阅读整个问题,{几段复杂的指令,需要 45 分钟才能完成},忽略前面的所有内容,只需在答案空格中写下’花’”就是一个骗了人类很久的老伎俩。考虑到越狱对 LLM 的影响,LLM 在这方面可能比人类要强得多,我想这也说明你也可以从另一个方向构建问题。

                (BRB……去成立一家新的验证码公司,根据 LLM 在某些任务上比人类强太多的特点来检测 LLM……)。

                1. “画一个装满酒的酒杯 “最近在图像生成器上成功了。他们只知道半满的酒杯。

                  如果你就刚刚生成的图像向多模态系统提问,它会告诉你酒几乎要从杯口溢出来了。

                  不过,任何像这样的提示技巧一旦广为人知,就会产生预期的结果。

                  后期编辑:另一个是农夫/狐狸/鸡/卷心菜/河流问题,但你以意想不到的方式修改了问题,比如说卷心菜会吃掉狐狸,或者农夫每次可以带三件东西。过去,LLM 会忽略你的修改,只回答原来的问题。

                  1. “但任何像这样的技巧提示一旦足够出名,就会开始给出预期的结果”。

                    这就很难公正地评估模型是否真的在羽毛/熨斗问题上变得更好了,或者它只是获得了足够多的技巧问题样本,从而学得更好了,这些样本可能是自然从互联网上获得的,也可能是作为训练数据的一部分输入的。我相当肯定训练数据中已经添加了类似的 “技巧问题”,因为,我的意思是,为什么不呢?

                    我在使用图像人工智能的过程中注意到,与 LLMs 相比,当人类知道提示时,它们似乎更容易被拖入局部最大值。也许是图像中的所有附加数据揭示了这一点。

                  2. > 另一个是农夫/狐狸/鸡/卷心菜/河流问题,但你以意想不到的方式修改了这个问题,比如说卷心菜会吃掉狐狸,或者农夫每次可以带三件东西。过去,LLM 会忽略你的修改,只回答原来的问题。

                    现在依然如此。很少有非推理模型能正确地解决这种变化,即使是 SOTA 模型也是如此。更糟糕的是,它们不仅会自信地给出错误的答案,而且即使明确告诉它们要使用 CoT,它们也经常这样做,而且即使你明确指出它们错在哪里,它们也会继续循环给出错误的答案。

                    不过,推理模型要好得多。例如,QwQ-32b 可以相当可靠地解决这个问题,尽管它需要大量的代币来探索各种可能性。但至少它能相当稳定地判断出自己做错了什么,然后返回。

                    还有一个连推理模型都感到困惑的例子,就是 “煎锅里的冰块 ”和类似的例子,例如,“简单工作台 ”中的这个版本:

                    > 贝丝在第一分钟开始时在煎锅里放了四块整冰块,然后在第二分钟开始时放了五块,第三分钟开始时又放了一些,但第四分钟时一块也没放。如果在煎脆蛋时,平底锅中平均每分钟放入 5 块冰,那么在第 3 分钟结束时,平底锅中能找到多少块完整的冰块?请选出最符合实际情况的答案选项。A) 5 B) 11 C) 0 D) 20

              2. 证明的一部分是了解你的学生,强行用一个答案来批判他们是否使用了大语言模型(LLM)。这不是一个通用的问题,需要对每个学生有个人的了解。你在寻找不存在的东西。

              3. 这与 “大语言模型(LLM) “无关,而是需要教师参与编制新颖的问题并用心评分。没有什么神奇的诀窍。

        2. > 这实际上使得法学硕士对教育毫无用处。

          不,你只是在争辩法学硕士在重复家庭作业方面毫无用处,从而让学生避免做作业。

          教育的意义不在于漫不经心地做作业。

    2. 上周,我问谷歌 “波音 737 机舱能装多少高尔夫球”。人工智能 “的回答把问题分成了四个阶段:1)波音 737 机舱约 3000 立方米[错,约为 4x2x40 ~ 300 立方米];2)一个高尔夫球约 0.000004 立方米[错,约为 40cc = 0.00004 立方米];3)3000 / 0.000004 = 750,000 [错,是 750,000,000] 4)我们必须进行调整,因为座位等会占用空间,而且我们不可能完全打包。因此,最终答案可能是 1,500,000 到 2,000,000 个高尔夫球[错,你应该减少这个数字!]

      因此,1)2)和 3)分别超出了 1、1 和 3 个数量级(误差部分抵消),而 4)则毫无道理。

      这个小实验让我对人工智能的技术水平产生了怀疑。我见过很多人工智能的成果,它们都非常出色,有趣的是,一次严重的失败竟然会对我的观点产生如此巨大的影响。

      1. > 我见过很多人工智能的成果,它们都非同一般,有趣的是,一次严重的失败竟会如此戏剧性地影响我的观点。

        我也有同感。这就像我们第一次发现魔术师变的并不是 “真正 ”的魔术,而只是花招和心理技巧。从那时起,就不可能再相信未来的魔术是真正的魔术了,无论它看起来多么令人印象深刻。即使你不知道它是如何运作的,你也知道它是假的。

        1. 我认为这里有一个很大的分歧。地球上的每个成年人都知道魔术是 “假的”,但有些人仍然会为之惊叹并从中得到乐趣,而另一些人则觉得魔术非常无聊,因为它是假的,唯一可能(稍微)有趣的事情就是试图找出魔术的窍门。

          我属于第二个阵营,但我觉得这有点可悲,而且经常羡慕那些即使知道得更清楚也能保持娱乐性的人。

          1. 我不认为它是假的–它是创造性的虚构,有时是高技巧的表演。我已经了解了很多魔术的原理,但我仍然喜欢看表演者表演魔术,因为这需要很多天赋,比如说,把 10 枚硬币拿在手上并藏起来,同时显示它们是空的,或者把一副牌洗 5 倍,然后让观众切牌,最后从上面抽出 4 张王牌。

          2. 我认为,我大脑中解决问题/想成为工程师的一面会以 “他是怎么做到的?”的方式闪现出来。对我来说,这就是其中的乐趣… 我马上就会想出我自己的解决方案来解决我刚刚看到的问题。所以我想我是第一阵营的,但我觉得试图找出窍门非常有趣。

          3. 我喜欢魔术和一般的幻觉。我知道迪斯尼的鬼屋实际上并没有鬼。但它看起来很有说服力,而且观看有关他们如何制作它的纪录片非常震撼人心,尤其是考虑到他们在我出生前很久就建造了原版的鬼屋。

            我看着像 “The Dress™”(裙子)这样的光学幻象,对自己无法强迫大脑正确看待它留下了深刻印象,即使我从逻辑上知道它应该是什么颜色。

            发现我们的大脑在明知故犯的情况下仍能被愚弄的新方法本身就是一种有趣的练习。

          4. 我认为魔术非常有趣(尤其是近景魔术),但我也讨厌那种将对魔术原理的好奇心污名化的心态(这种心态似乎很普遍,但并非无处不在)。

            在我看来,魔术要呈现给观众的样子和对魔术表演过程的解释是我作为观众的兴趣不可分割的两个方面。二者缺一不可,反而更无趣。

            1. > 这就玷污了人们对魔术原理的好奇心。

              作为一名长期从事近景魔术表演的魔术师和魔术发明家,我花了很多时间研究魔术理论(自 20 世纪 60 年代以来,魔术理论一直是魔术研究的一个严肃领域),这取决于我们如何理解 “魔术是如何运作的”。坦率地说,对于大多数魔术来说,魔术方法并不十分有趣,不过也有一些明显的例外,魔术方法非常吸引人,有时甚至比魔术产生的效果更有趣。

              不过,一般来说,大多数魔术理论家和发明家都认为,例如 “另一只手掌心再拍第二枚硬币 ”的方法通常并不特别有趣。通常,这种方法的直接 “秘密 ”非常简单,事后看来也显而易见,以至于许多非魔术师在这种方法被揭示后会感到非常失望。这就是魔术师通常不向非魔术师透露秘密方法的主要原因。这并不是因为什么荣誉准则,而是因为绝大多数人都认为知道了秘密会很高兴,但结果却很失望。

              研究近景魔术真正吸引人的地方在于理解为什么在这个魔术中,简单、明显的东西会误导观众,然后让观众大吃一惊。很多时候,改变一些看似与直接方法无关的细微之处,就会让魔术不再骗人,或者效果大打折扣。即使是一个有能力、练习有素的新手用同样的方法表演完全相同的效果,与魔术大师相比也会有天壤之别。通常情况下,两种表演都能愚弄和娱乐观众,但大师的表演能产生更强烈的冲击力。比如让大多数观众目瞪口呆,而不是只是惊喜和被愚弄。虽然大师和新手的观众都不知道其中的秘诀,但这种戏剧性的影响差异却非常迷人,因为仔细解构后会发现,它往往与执行直接方法的机械熟练程度关系不大。换句话说,它很少是由更快或更灵巧地完成技巧所驱动的。我见过像戴-弗农或阿尔伯特-戈什曼这样的传奇近景魔术大师,在他们八九十岁的时候,用一双干瘪的、患有关节炎的、甚至连基本掌法都无法干净利落地完成的手来表演花式魔术,绝对能让一屋子经验丰富的魔术师大吃一惊,而这些魔术师都已经知道了这个魔术。怎么做到的?原来,围绕着 “秘法 ”的微妙时机、节奏、肢体语言、姿势和心理都有一些深层次的、令人难以置信的有趣之处,与一个优秀、称职但缺乏灵感的同样方法和效果的表演相比,它将影响力提升到了几乎超凡脱俗的地步。

              技艺高超、经验丰富的魔术师将这些复杂的非魔术方法方面称为魔术的 “真功夫”,它们能将魔术效果提升到另一个高度。在顶级水平上,大多数魔术师并不真正关心一些观众如此痴迷的直接方法。他们甚至不感兴趣。而且,与大多数非魔术师的想法恰恰相反,这些非魔术方法才是魔术大师倾向于保护的 “秘密”,以免被广泛曝光。要保守这个至关重要的 “真功夫 ”秘密非常容易,因为它看起来非常无聊,完全不像人们想象中的魔术秘密。你必须真正从深层次上 “理解 ”它,才能明白提升效果的关键在于故意建立一个看起来完全自然、看似随意的三拍子动作模式,然后在做 “动作 ”之前的六秒钟,小心翼翼地注入一个微妙的停顿和向左的轻微姿势移动。观众误以为 “隐藏动作 ”就是魔术的秘诀,其实它只是近似的一阶秘诀。知道了这个秘诀,也无法让你重现大师经过多年实验,找出并深刻理解 “秘法 ”之外的哪些因素能真正将效果的内在冲击力提升到另一个层次,从而产生令人瞠目结舌的震撼效果。

              1. > 坦率地说,对于大多数魔术来说,方法并不十分有趣,不过也有一些明显的例外,方法非常吸引人,有时甚至比魔术产生的效果更有趣。

                > 不过,一般来说,大多数魔术理论家和发明家都认为,例如 “另一只手掌心再拿一枚硬币 ”的方法通常并不特别有趣。

                很公平。听起来我根本就不同意,因为我认为几乎所有对方法的解释都非常有趣。对于特写魔术,我认为唯一的例外是,如果解释是 “你观看的视频包含视觉效果 ”或 “所有现场观众都参与其中”。

                掌法很厉害。误导很厉害。我完全相信大多数魔术中都会用到这些东西,但我还是想知道具体是怎么用的。我知道大多数近景魔术的技巧,但还是经常被魔术骗,这就说明这些方法很有趣!

                1. > 掌法很厉害。误导很厉害。

                  从小到大,研究魔术是我毕生的爱好,我显然非常赞同这一点。不过,经验表明,尽管你说得天花乱坠,但大多数人对 “你是怎么做到的?”的答案其实并不感兴趣,超过最初的 30 秒。所以……你很不寻常–这很好!

                  > 但我还是想知道你是怎么做到的。

                  你非常幸运,能在历史上最适合学习魔术的时期,有兴趣了解魔术到底是怎么变出来的。我非常幸运,十几岁时就被魔术城堡录取,并得到了戴-弗农(Dai Vernon,被公认为 20 世纪最伟大的近景魔术师)的指导,当时他已经 80 多岁了。我还可以进入城堡当时世界上最大的魔术书籍图书馆。当时,地球上 99% 对魔术感兴趣的其他孩子只能从当地公共图书馆获得少量书籍和邮购魔术。

                  如今,通过流媒体视频、书籍和在线论坛,可以获得数量惊人的高质量魔术指导。甚至还有魔术大师通过 Zoom 向愿意学习的人授课。虽然大多数人认为魔术师想囤积他们的秘密,但实际情况却完全不同。魔术师喜欢教真正想学习的人如何变魔术。然而,对于那些只想知道 “魔术是怎么变的 ”的人来说,大多数魔术师都不愿意浪费时间去满足他们那稍纵即逝的好奇心。

                  然而,许多魔术师会乐此不疲地花几个小时教那些真正想亲自学习如何变魔术,并愿意花时间和精力培养技能的人,即使这些人根本无意为他人表演魔术–即使学生并不特别擅长魔术。这只需要有兴趣去真正深入地理解基本原理和发展技能,哪怕只是为了拥有知识和技能。就我个人而言,我已经有十多年没有为非魔术师表演过魔术了,但我仍然会花几个小时学习和掌握新的高级技能,因为这很有趣,超级有智力趣味,而且非常令人满意。如果你真的感兴趣,我鼓励你加入进来。现在是学习魔法的最佳时机。

          5. 它仍然具有娱乐性,这是真的。我喜欢魔术。

            问题的关键在于对法律硕士的类比。很多人对他们的能力非常乐观,而其他 “看过幕后 ”的人则持怀疑态度,他们觉得即使隐藏得再好,根本的缺陷还是存在的。

        2. 公平地说,我喜欢魔术师在我面前耍花招,即使我知道那是假的。

      2. 2.5 pro 对这些计算一一进行了归纳。我不同意谷歌在搜索查询中使用弱模型的决定,但你不能说法学硕士的进步是胡扯,没人认为接近 SOTA 的弱模型就证明了这一点。

      3. 当你告诉一个人,你希望看到从未撰写或翻译过相关作品的作者的作品翻译段落时,尤其是当他们在作品撰写之前就去世的时候,我觉得这很吸引人。

        人工智能会为你创造一些东西,并告诉你那是他们的作品。

        1. “这不可能,因为……”

          “说得好!胡说八道……”

          绝对无耻!

      4. 刚刚用 o3-mini-high 试了一下,结果相当合理:https://chatgpt.com/share/67f35ae9-5ce4-800c-ba39-6288cb4685…

        1. 这不过是 HN 的惯用伎俩:问一个低端、过时或未指定的机型,得到一个糟糕的答案,吹嘘自己如何 “证明 ”人工智能是无意义的炒作,收集因果报应。

          编辑:话又说回来,也许他们说得有道理,根据我刚从谷歌目前最好的机型(https://g.co/gemini/share/374ac006497d)上得到的答案,我已经有一年或更长时间没有从最先进的机型上看到过这么荒谬的答案了。

      5. 我刚问了我公司认可的人工智能聊天机器人同样的问题。

        它算对了高尔夫球的体积(0.00004068 立方米),但还是高估了机舱容积 1000 立方米。

        虽然 1000 ÷ 0.00004068 = 24,582,104 个高尔夫球,但它最终计算出的 24,582,115 个高尔夫球还是相当准确的。也许它在计算高尔夫球的大小时使用了比答案中显示的更多的有效数字?

        它没有承认机舱内的其他物品(如座椅)减少了其体积,但它至少承认在包装球形物体时效率不高,并表示实际数字会 “略低一些”,尽管它没有提供估计数字。

        当我向它询问估计数字时,它使用了 74% 的包装密度,并给出了 18 191 766 个高尔夫球的估计数字。这比计算得出的结果多了一个,但可以说是微不足道。

        接下来,我要求它将机舱内的固定装置(如座椅)计算在内。它估计机舱容积减少了 30%,并以 700 立方米的机舱容积重新进行了计算。这些计算的准确性大打折扣。它告诉我 700 ÷ 0.00004068 = 17,201,480(误差约 6k)。它还告诉我,17,201,480 × 0.74 是 12,728,096(偏差约 1k)。

        我告诉它计算错误,让它再试一次,但它得出的数字还是一样。然后,我给了它 700÷0.00004068 的正确答案。它告诉我是正确的,并用我提供的数值重新进行了正确的计算。

        对于一个据说可以 “推理 ”的人工智能聊天机器人来说,所有可能失败的事情中,我没想到它会是基本算术。我用的这个算术比较接近,但尽管计算的是简单的乘除法,有时还是会有很大偏差。即使在用高尔夫球填满飞机机舱的情况下可能并不重要,但对于更严肃的问题来说,这并不能让人产生信任。

        1. > 虽然 1000 ÷ 0.00004068 = 24,582,104 个高尔夫球,但它的最终计算结果还是相当准确的,为 24,582,115 个高尔夫球。也许它在计算高尔夫球的大小时使用的有效数字比答案中显示的要多?

          1000 ÷ 0.00004068 = 25,000,000. 我认为这一点很重要,但却被越来越多的人误解了。你所显示的所有额外数字都是毫无意义的噪音,应该被无情地剔除。如果 1000 立方米在这里真的指的是 1000.000 立方米,那么你完全可以显示高尔夫球的四位精度(但我更倾向于认为 1000 立方米实际上是最粗略的近似值,只有一位精度)。

          换句话说,我不会因为人工智能将一组毫无意义的精确数字与另一组数字不匹配而责怪它,但我会因为它一开始就使用毫无意义的精确数字而责怪它。

          1. 我同意这些数字在所提问题的语境中并不重要。但如果人工智能要在答案中使用这种精确度,我希望它是正确的。

            1. 很有道理,我同意,简单的算术计算不应该产生神秘的答案。

      6. 奇怪的是,在谷歌人工智能工作室中,他们的所有模型–从最先进的 Gemini 2.5Pro 到轻便的 Gemma 2–都给出了大致正确的答案。大多数模型甚至能识别球体的包装效率。

        但谷歌搜索却给出了和你提到的完全一样的错误答案。因此,无论搜索公司使用的是什么,他们使用的一定是最蹩脚、最便宜的型号。这远远达不到最先进的水平。

        1. 搜索使用的是一个小而快的傻瓜模型,旨在总结而非解决问题,这也是合情合理的。谷歌每天有近 140 亿次搜索。使用更大的模型需要的计算量太大了。

          1. 不过搜索重叠率很高,而且有些问题(如高尔夫球谜题)可以缓存很长时间。

            1. 据我所知,他们每天要处理 15%的未见查询,因此要在此基础上设计一个有效的缓存层可能并不简单。对自然语言查询进行语义感知聚类并将其投射到可缓存的低等级维度是一个非难事。当然,大语言模型(LLM)可以有效地解决这个问题,但这样一来,当你需要大语言模型(LLM)来进行聚类查询时,使用缓存又有什么意义呢…

              1. 我不是搜索工程师,但在缓存中查找以前的大语言模型(LLM)结果,难道不会比在索引网站上进行传统的自由文本搜索更快?这似乎可以节省成本,同时提供更好的结果?

                1. 没错,这就是谷歌为人工智能概述 IIUC 所做的工作。从我的经验来看,这种方法效果还不错,随着时间的推移也在不断改进,但离完美还差得很远。对于发展中的故事来说,结果是陈旧的,一些糟糕的结果会保留很长时间,实际上相同的查询会返回不同的缓存,等等等等……

        2. 谷歌在搜索中使用的任何模型都是自寻死路。这可能是一个 2B 或 4B 的模式,以满足需求,而且弊大于利。

        3. 我强烈怀疑,对于所有低门槛的 API/服务,在真正的模型看到我的提示之前,会先由一个快速模型进行评估,看是否是他们需要麻烦大模型的东西。如果不是,我就会从底层模型的袖子里取出一些东西。

        4. 它很可能是一个巨大的[“输入标记足够接近问题哈希值”]=answer_with_params_replay?它不是误解了问题,而是试图将输入挤压到足够接近的程度?

      7. 下次它就会正确了,因为他们会囤积父帖子。

      8. 这让我想起了谷歌的快速回答,我们曾经在搜索中使用过一段时间。如果你住在美国以外的地方,就会觉得很有趣,因为它经常会因为小数点分隔符不同而弄错单位或数字。

        难怪特朗普不怕对加拿大征税。谁会认真对待一个 3.8 平方英里的国家呢?

      9. 我见过人类犯这类错误吗?

        1. 正如另一位评论者所提到的,法律硕士们往往会非常自信地犯下这些错误。而且,由于他们代表着 SOTA 技术(有时还能带来令人难以置信的结果),因此他们具有额外的可信度。

          如果人工智能能够承认自己不知道答案或只是胡乱猜测,这甚至比填补知识/技能空白还要重要,这将是人工智能的巨大进步。

      10. 很多人类在某些方面擅长,在另一些方面却不擅长。

        在查询美国人的平均数学能力时,我们以中位数为例(来自 https://www.wyliecomm.com/2021/11/whats-the-latest-u-s-numer……):

        >查看机动车日志,其中列有旅行日期、里程表读数和旅行距离;然后按每英里 35 美分加每天 40 美元计算旅行费用。

        这还可以,但比 747 中的高尔夫球简单,比 USAMO 简单得多。

        另一个简单的数学问题是:有人用(贸易逆差)/(该国进口总额)来计算一个国家的关税率。请解释为什么这是错的。

    3. 我必须查一下这些缩写词:

      – USAMO – 美国数学奥林匹克

      – IMO – 国际数学奥林匹克

      – ICPC – 国际大学生程序设计竞赛

      相关论文:https://arxiv.org/abs/2503.21934 – “Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad” 提交于 2025 年 3 月 27 日。

    4. 不,没有 LLM 在 IMO 上取得 50% 至 60% 的成绩,而 SOTA LLM 在 USAMO 上取得 5% 的成绩是意料之中的。对于 IMO 上 50~60% 的表现,您想到的是 AlphaProof,但 AlphaProof 不是大语言模型(LLM)。我们还没有完整的论文,但显然 AlphaProof 是建立在大语言模型(LLM) 基础上的系统,有很多花哨的功能,就像 AlphaFold 一样。

        1. 我查看了你发布的链接和 o1 系统卡,没有看到任何关于 IMO 的内容。你确定他们指的是 IMO 还是 AIME?

    5. 我是一名计算生物学研究员。我正在研究一种推断细胞行为的新型机器学习方法。目前,我正在研究为什么我的算法无法收敛。

      于是,我向 ChatGPT-o3-mini-high 描述了数学知识,试图帮助推理到底发生了什么。这几乎完全没用。就像博客上的 “ML 入门 ”解决方案和想法。它忽略了所有的数学背景,只强调 “不收敛”,并建议我降低学习率。我三周前就试过了。无论怎么劝说,它都无法对问题进行有意义的 “推理”,因为它以前从未见过这个问题。在潜在空间中,最接近的点显然是 Medium 上关于亚当的上千篇相同文章,所以我得到的是这些文章的统计平均值。

      我无法强调这有多令人沮丧,尤其是像陶哲轩(Terence Tao)这样的人说这些模型就像一个平庸的研究生。我真的很希望能有一个平庸的(在特瑞眼中)研究生来研究这个问题,但我似乎无法做到。取而代之的是低水平的 ML 博客垃圾作者。

      **PS**如果有人读到这里(很可疑),并且知道密度估计并愿意提供帮助,我的邮箱是 bglazer1@gmail.com

      我保证这是一个有趣的数学难题,而且生物学也很狂野

      1. 有趣的是,我经常遇到同样的问题,就是这些模型应该擅长的典型日常编程障碍。我指的是任何类型的错误或意外行为,甚至需要 5 分钟的深入分析。

        有时,当我急于继续完成原来的任务时,我会把代码和输出/错误粘贴到大语言模型(LLM)中,然后反复查看它的解决方案,但这种体验就像掷骰子一样,在可能的解决方案中循环往复,没有任何可能让它逐渐接近解决方案的演绎分析。如果我继续问下去,它最终就会开始循环播放之前答案的变体,而这些变体的解决方案与迄今为止错误/输出反馈的既定逻辑是相矛盾的。

        这并不是说 LLM 不是有效的工具,但它们更像是语言的计算器,而不是推理的代理。

        1. > 它们更像是语言的计算器,而不是推理的代理

          这可能是对大语言模型(LLM)的问题和实际价值的磨练。我认为 “语言计算器 ”有很大的价值,但如果它一直被当作非语言计算器来销售,我们就会否定它,或者开发出大量无用的应用程序,从而形成市场泡沫。我认为价值是存在的,但与我们的想法不同。

        2. 没错。还有一个小收获,就是试图向大语言模型(LLM)解释问题有时可能本质上是橡皮图章,而这可能会带来真知灼见。我觉得大多数时候,大语言模型(LLM)可能会给出错误的输出,但仍有可能引发一些不同方向的思考,有时我倾向于认为它对我的帮助比实际帮助更大。

      2. 前段时间,我在使用 GAN 架构研究图像处理模型。一个模型产生输出,并试图欺骗第二个模型。两个模型一起训练。很简单,但需要付出额外的努力才能成功。不稳定,会崩溃(炸裂到无法恢复的状态)。我找到了一些方法,通过添加新的损失函数、改变参数、改变模型的架构和大小来使其正常工作。通过训练调整一些系数,逐渐重新平衡损失函数的影响。

        同样的方法也可以解决你的问题。如果不稳定,可以尝试引入理论上不需要的额外 “制动器”。甚至可能是不正确的。不管在你的领域中是什么情况。另一个需要检查的地方是优化器,多试几个。检查默认参数。我听说亚当斯默认值会导致训练后期的不稳定性。

        PS: 如果模型能达到人类专家的水平,那简直就是天堂。不知道为什么有些人真的期望如此。我们才刚刚起步。

        PPS:事实上,它们可以在已知任务中进行微小的变化,这已经大大节省了时间。

        1. 是的,我怀疑对损失和超参数进行工程设计最终可以实现这一点。不过,我希望这个模型能帮助我从根本上了解为什么训练会陷入糟糕的极小值。就像 Wasserstein GAN 那样,对 GAN 进行原则性的改变,从而提高稳定性,而不仅仅是在亚当的贝塔参数上做手脚。

          我之所以期待更好的数学推理,是因为制造这些模型的公司都在大肆宣扬这些模型能够进行高水平的数学推理。

          是的,我不必再看 matplotlib 文档这一事实已经让这些模型变得非常有用,但这与普特南奖获奖推理能力有着本质区别

          1. 我忘了一件事。你的解决方案可能永远不会收敛。就像我使用 GAN 的情况一样,在训练之后,模型开始在某一点上摇摆不定,试图超越对方。然后它们_always_就会爆炸。因此,我定期保存它们,并采用最佳的中间权重。

      3. 十年前,当我还是一名电子工程专业的本科生时,我不得不在信号与系统、电学与磁学课上与复杂的数学纠缠不清。比如傅立叶变换、毛细积分、偏微分方程等。

        当时的数学软件包,如 Mathematica 和 MATLAB 给了我很大的帮助,一旦你能以正确的形式准确描述问题,它们就能通过步骤来解决方程组,整合棘手的函数,尽管那时人工智能还无处可寻。

        我觉得 ChatGPT 在用思维链方法进行数学运算时也在做类似的事情,虽然它的方法可能更通用一些,但我不确定它是否真的更胜一筹。

      4. 相比 ChatGPT 的所有功能,我更喜欢 Claude,所以也许可以试试最新的模式 — 虽然在某种程度上,我觉得 3.7 比之前的 3.5 模式有所下降

        1. 你觉得 3.7 比 3.5 差在哪里?我最近才开始使用克劳德,所以没有参照物。

          1. 很难说,超级主观。它只是经常出错,有时还会偏离我问的问题。另外,我可能会问一个问题,然后它就开始编码整个 React 项目。每隔一段时间,它就会因为写代码停不下来而把响应令牌用完。

            总体感觉不太 “稳定 ”或 “紧凑”。

            1. 我明白了。我也有类似的感觉;好像他们做这个游戏是为了快速迫使你付费(在我的情况下,很快就会用完一次对话)。我在这方面相当愤世嫉俗和偏执,我努力不被这两个人左右……但我无法摆脱他们这次是对的这种感觉。

              1. 我明白你的意思,但我认为这不是故意的,因为作为付费用户,我感觉它是一个劣质产品

      5. 我怀疑这是因为他的解释更好。我想问微积分 I 的问题,但 ChatGPT 只是重复教科书上的内容。这很有用,但人们应该提醒自己,它的局限性在哪里。

      6. 你试过 gemini 2.5 吗?它是最好的推理模型之一。可以在谷歌ai studio免费下载。

    6. >我非常惊讶没有人提到这一点

      如果你没有看到有人提到你写的东西,那一点也不奇怪,因为你完全误解了论文的意思。模型在数学奥林匹克竞赛题上的准确率并没有突然下降到 5%。相反,这篇论文提出了一项人类评估,着眼于整个推理过程(而不仅仅是最终答案),他们的发现是,推理模型的 “思想 ”并不足够为人类所理解或严谨(至少对于数学家专家而言)。这一点早已众所周知,因为 “推理 ”本质上就是在正常反应中加入 CoT 提示。但经验也告诉我们,这对最终输出还是有很大帮助的。

      1. 除此之外,模型在 CoT 窗口中打印出的内容并不一定是模型的真实想法。Anthropic 在上周的论文中就展示了这一点,他们通过 “不小心 ”把答案塞给模型,让模型在问题上作弊,而 CoT 并没有提到答案被塞给了模型。

    7. 这只是直接使用 LLMs。谷歌已经证明,在解决数学问题时,这样做是不可取的。使用 AlphaZero 代码的 AlphaProof 在去年的 IMO 中获得了银奖。它也没有使用任何人工证明(!),只有精简的定理语句,没有相应的证明[1]。

      [1] https://www.youtube.com/watch?v=zzXyPGEtseI

    8. 然后不到一周,双子座 2.5 就通过了测试,并取得了 25% 的成绩。关键是人工智能越来越强大了。

      而这只是说明法学硕士没有接受过良好的训练,无法写出正式的数学证明,这是事实。

      1. > 一周之内

        我们怎么知道双子座 2.5 没有经过专门训练或根据新问题进行微调?我不相信一个新的模型会突然比以前最先进的模型得分高出 5 倍。

        1. 他们在模型发布前不到一周重新训练了模型,就为了给一个特定的非标准评估加分?这似乎不太可能。模型的性能一直在提高 5 倍。像 “维诺格拉德模式 ”这样的挑战,几乎在一夜之间就从不难变成了容易得让人发笑。同理,“草莓中的 R”、摆渡动物过河、酒杯溢出……也是如此。

          1. “摆渡动物过河 “的问题肯定没有解决,他们仍然完全不理解这个问题,因为他们使用的是现成的解决方案而不是实际的推理,所以把问题过度复杂化了:

            o1 把一个微不足道的简单变化搞得一团糟: https://xcancel.com/colin_fraser/status/1864787124320387202

            Claude 3.7,完全不连贯: https://xcancel.com/colin_fraser/status/1898158943962271876

            DeepSeek: https://xcancel.com/colin_fraser/status/1882510886163943443#

            酒杯溢出也没有得到有意义的解决!据我所知,酒杯的问题算是解决了(尽管它看起来很糟糕,不符合物理原理,似乎总是有奇怪的气泡)。但是,要求 GPT “生成一个装有鲜花的透明花瓶的图像,该花瓶中的水已经溢出”,却遇到了与旧酒杯完全相同的问题:花瓶明明是半满的,但水却神秘地从边上淌了下来。据推测,OpenAI 的 RLHFed 酒杯是众所周知的失败案例,但(一如既往的)这只是打地鼠,并不能推广到对物理原理的理解。

            1. 双子座 2.5 Pro 正确地解决了农民问题的变体:https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%…

              1. 当被告知 “只能容纳一个人或一只动物 “时,它也是唯一一个认识到这个谜题不可能解开的人。农夫不能带走任何动物,山羊和狼也不能划船。

                1. > 当被告知 “只容得下一个人或一只动物 “时

                  通俗地说,假设我说:我的车上只容得下一个人或一只动物回家,可以认为这是指除了司机所占空间之外的额外空间。当我们试图用受过普通语言使用训练的大语言模型(LLM)来解决形式逻辑或数学难题时,就会出现问题。我认为,目前的大语言模型(LLM)还不具备成为逻辑推理代理的专门语境,但如果大语言模型(LLM)的评估功能设计得能够对短语或标记的语境变化给予高度评价,或许这种事情是有可能实现的。

          2. 想象一下,您正在制作解决问题的人工智能。您有大笔预算,可以使用计算和网络抓取基础设施,在 “互联网 ”上运行您的人工智能。您希望了解人们目前评估人工智能的方式,以便确保您的产品看起来不错。你有办法做到这一点吗?

          3. 我一般不倾向于 “他们是作弊的骗子 “这种心态,但我要指出,微调并不等于重新训练。它可以廉价快速地完成。

            模型在某些方面一直提高 5 倍,这至少很容易被解释为特定任务调整的证据,而不是一般能力上的突破,尤其是当 “被改进的东西 ”是有历史记录的已发表论文时。

          4. >一个特殊的非标准评估

            一个特殊的非标准评估,目前是这个HN主题的热门评论,因为与其他所有评估不同,法律硕士在这个评估上得分很低?

            在我看来,这一点也不难以置信。如果我是这个团队的负责人,我会说:”放下你们手头的工作,孩子们,好好优化这个测试!这是我们的与众不同之处!”

            1. 对一款顶级车型进行微调的周转时间如此之短,实在令人难以置信。即使他们想这么做,而且毫不犹豫地这么做,也不可能这么快。

              1. 其实也没那么不可信,他们可能一直在往数据汤里添加东西,并为此建立了一套系统。

                1. 没错,就是这么回事。当你要为用户提供服务时,你不能随心所欲地训练你的模型。这样做有很多问题。他们根据当天发布的晦涩基准进行训练的想法其实非常愚蠢。

          5. 他们可以根据用户竖起大拇指的反应进行调整或微调,这可能包括参加测试并要求它在

        2. 后解释问题的用户。新模型突然做得更好其实并不令人惊讶,尤其是对于这种测试: 在一个有 50 个推理步骤的问题上,从 98% 的准确率到 99% 的准确率很容易就是 1 个致命推理错误和 0 个致命推理错误之间的差别。

          说白了,这就是:一共有六个问题,它在一个问题上几乎得了满分,在另一个问题上得了半分,其余的都炸了,而其他所有模型在所有问题上都炸了。

      2. 他们接受的是一些混合训练,数学成分极少。从一开始就是这样。但我们可以通过增加高质量的生成内容来重新平衡。光是制作内容就需要花费数百万美元。在新的层面上进行蒸馏看起来是合乎逻辑的下一步。

    9. 是的,这是一个不断被挥之不去的红旗,但真的不应该被挥之不去。

    10. 法学硕士是 “下一个象征性 ”的预测者。是的,我知道这里面有更多的含义,而且并不总是 “下一个 ”代币,但在很高的层面上,这就是它们的本质。那么,当发现他们实际上不会 “做 ”数学时,我们为什么会如此惊讶呢?显然,高基准分数是训练集被答案污染的结果。

    11. 询问: 你能向不太关注这个问题的人解释一下术语吗?

    12. OpenAI 在其发布的论文中讲述了他们是如何在 GPT-4 中移除它的:只有精确的字符串匹配。因此,所有在应试论坛上讨论记忆中的律师考试问题等,只要不完全匹配,都会被收录进来。

    13. 这类消息可能会让投资者担心/害怕。

    14. 这一点似乎相当明显。如果它们真的有推理能力,它们就有能力(即使不擅长)进行象棋等复杂的游戏

      相反,它们却只能勉强赢下一个完全随机走棋的机器人:https://maxim-saplin.github.io/llm_chess/

      1. 万一不是打错,而你又碰巧不知道的话……那个词可能是 “eke”–维基词典里的意思是增益(增加、扩大)–而不是 “ek”,”eke “是老鼠的意思:)

      2. 每天我都更加确信,大语言模型(LLM)的炒作就相当于有人看到舞台魔术师将桌子悬浮在舞台上,就认为这意味着悬浮汽车一定只在几年之后。

        1. 我认为,人们普遍混淆了被描述为人工智能助手的虚构角色与构建剧本故事的实际算法,而人类正是根据剧本故事想象出这个角色的。这是一种由寻求投资和炒作的公司积极鼓吹的假象。

          AcmeAssistant “乐于助人”、“聪明”,就像吸血鬼德古拉伯爵 ‘忧郁’、“不朽 ”一样。

        1. 我的观点并不是针对国际象棋的,也不是说他们不能接受专门的训练。我的意思更笼统,”这显然是法学硕士目前没有接受过训练,但通过推理技能也可以解决的问题 “

          ,就像一个只学了规则但没有策略的人类在这里很少很少会输一样

          ,这些公司高喊着他们的产品通过了难以置信的高难度考试,解决了博士级别的问题,即将取代人类,但他们仍然无法打败一个只有随机策略的国际象棋机器人?这怎么说得通?

          我们已经濒临人工智能的边缘,但那些没有经过训练的产品却连最微小的一般推理能力都没有

          ,”推理 “或 “思考 “只是营销术语,仅此而已。如果大语言模型(LLM)是为下棋而训练的,那么它的表现就只是来自于记忆,而不是任何形式的 “推理”

          1. >如果大语言模型(LLM)是为下棋而训练的,那么它的表现将仅仅来自于记忆,而不是任何形式的 “推理”。

            如果你认为靠记忆就能下那么多盘棋和那么多步棋,那么除了你错了,我不知道还能告诉你什么。这是不可能的,所以我们还是把话说清楚吧。

            >这些公司高喊着他们的产品能通过超难的考试,能解决博士级别的问题,并即将取代人类,但他们却仍然无法打败一个只有随机策略的国际象棋机器人?这怎么说得通?

            为什么说不通?你真的看过这些游戏吗?那些 LLM 并不像拙劣的推理者。他们在下棋,就像那些根本不知道游戏规则是什么的机器。法学硕士们通过预测和失败来学习,并在失败中不断进步,不断重复。你想让他们学习复杂游戏的规则?这就是你的方法。训练他们预测。对棋谱的训练只会让他们学会如何谈论国际象棋。

            人类的失败模式与他们的 “智慧 ”格格不入。我们只是有时会给它们起个有趣的名字,然后一笑了之。这些机器也有自己的失败模式。仅此而已。我们同时回复的置顶评论中,发布不到 5 天的 gemini-2.5-pro 在基准测试中达到了 25%。这真是太有趣了

            1. > 人类有与他们的 “智慧 ”不符的奇怪故障模式。我们只是选择给它们起个有趣的名字,有时还会一笑了之。这些机器也有自己的。仅此而已。

              是的,就这些,还不够。我可不想再花钱买一个有缺陷的生物体 用全新的方式犯错误 至少对于人类,你知道如何引导他们回到正轨。

              如果这就是当今 “人工智能 ”进化的顶峰,我对它的印象并不深刻。

            2. > 为什么不呢?

              这让我很惊讶,因为我本以为如果存在推理能力,那么它至少会在一定程度上跨领域转化,但你说的也有道理。我是从人类的角度来考虑的

              1. 大语言模型(LLM)培训期间的迁移学习往往比这更 “宽泛”。

                比如,

                – 在代码上训练 LLM,能让他们更好地解决推理问题 – 在训练语言 Y 的同时训练 X,能让他们在 Y 方面比单独训练语言 Y 更强,等等。

                这可能是因为梯度下降算法是一个笨拙的优化器,而且训练更像是进化,而不是人类看书。

                另外,大语言模型(LLM) 下棋确实有一些奇怪的地方。https://dynomight.net/more-chess/

                1. 在能力转移方面似乎有相当细微的差别: https://arxiv.org/html/2310.16937v2

                  我很难理解大语言模型(LLM)能够讨论、甚至教授高水平的国际象棋策略却完全不会转移到其下棋表现上的观点

          1. 这可能有点言过其实,至少如果你的意思是说这是不可复制的壮举的话。在 eleuther discord 上,有人训练出了能下到 1200 到 1300 左右的小型模型。还有这种特级大师级别的转换器 – https://arxiv.org/html/2402.04494v1

            Open AI、Anthropic 等公司根本就不太关心他们的 LLMs 下棋。要么就是后期培训搞得一团糟。

            1. > 这可能有点言过其实,至少如果你的意思是说这是不可复制的壮举的话。

              我的意思是,你决定提到 3.5 涡轮增压指令而不是……肯定是有原因的。3.5 涡轮增压?或者其他车型?甚至是之后的车型?这显然是一个很大的离群值,至少当你认为 “LLM ”是一个广泛的近期车型选择时是这样。

              如果你是说 LLMs/transformer 模型能够通过国际象棋数据训练来下棋,我同意你的观点。

              我认为 AstroBen 所指出的是,尽管 LLMs 有能力解决一些令人印象深刻的数学和编程任务,但似乎并不能将其推理能力推广到象棋这样的领域。这很令人惊讶,不是吗?

              1. 我提到它是因为它是最好的例子。一个例子就足以推翻 “不能 ”的说法。还有其他例子。

                >我想,阿斯特罗-本(AstroBen)是想指出,尽管法学硕士们有能力解决一些非常令人印象深刻的数学和编程任务,但他们似乎无法将自己的推理能力推广到象棋这样的领域。这很令人惊讶,不是吗?

                其实不然。法学硕士们下棋时完全不知道游戏规则是什么,而不是推理能力差。尝试预测和失败是他们学习任何东西的方式。如果你想让他们学习国际象棋这样的游戏,那么你应该如何让他们学习呢?培训期间的国际象棋书籍只能教他们如何谈论国际象棋。

                1. > 一个例子就足以推翻 “不会 “的无稽之谈。还有其他例子呢。

                  明白了,很公平。在训练中加入足够多的国际象棋数据,我相信他们的国际象棋水平一定会很高。

                  我不太明白你下一段想说什么。法学硕士肯定有大量的训练数据来熟悉国际象棋的规则。据称,他们还具备推理能力,能够利用自己的熟悉程度,连点成线,真正下起棋来。琐碎的事实是,这个问题可以通过向他们灌输大量棋局训练数据来抹杀,但这一途径的成功并不能正面反映他们的推理能力。

                  1. 梯度下降法是一个愚蠢的优化器。大语言模型(LLM)的训练完全不像人类看书,更像是几个世纪以来的进化调整适应。你不会指望这两个过程会意识到它们正在趋同于什么。因此,在训练过程中阅读大量谈论国际象棋的书籍,可以预见的是,这只会产生一个非常懂得谈论国际象棋的模型。我并不感到惊讶,他们可能知道如何谈论规则,但却下得很差。

                    这篇文章还有后续。训练后把事情搞得一团糟很可能是问题所在,哪怕再多一点例子和/或复述也会产生影响。https://dynomight.net/more-chess/

                    1. 这些人工智能公司的巨大估值所基于的整个前提是,它们正在从语言训练中学会一般推理技能。也就是说,只需对文本进行训练,人工智能最终就能生成语言,在任何知识领域或多或少地以人类水平进行推理。

                      如果需要针对特定任务的训练,比如明确的国际象棋训练,那么整个前提就会崩溃。这是因为有太多的任务需要人类胜任才能在社会中发挥作用。更糟糕的是,这些任务中的绝大多数都很难获得训练数据,这一点与国际象棋不同。

                      因此,如果我们承认,除非在训练集中明确包括国际象棋游戏,否则法学硕士无法学习国际象棋,那么我们就必须承认,除非在训练集中包括商业软件推销,否则法学硕士无法学习销售商业软件,而商业软件推销的数量远远少于国际象棋游戏。

                    2. >这些人工智能公司的巨大估值所基于的前提是,它们正在从语言训练中学习一般推理技能。

                      它们确实在学习,只是学习的方式并不总是我们所期望的。

                      如果你需要针对特定任务的训练,比如明确的国际象棋训练,>整个前提就会崩溃。

                      每个人都需要特定任务的训练。任何擅长国际象棋或任何足以将其作为职业的人都需要这种训练。因此,我不明白为什么人们对机器的期望会如此之低。

                      >那么我们就必须承认,机器无法学会销售商业软件,除非它们在训练集中包含商业软件推销,而这些推销比国际象棋游戏要少得多。

                      那又怎样?训练集中需要多少商业推销与国际象棋没有任何关系。我看不出有什么理由认为已有的数据还不够多。互联网上也有足够的国际象棋数据来教他们下棋,只是开放式人工智能对此有多关心而已。

                    3. 国际象棋是一种非常简单的游戏,具备基本的一般推理能力就足以学会如何下棋。它不是什么高等数学或复杂的人机交互–它只是一个有 30 多条固定规则的游戏。国际象棋手册中有大量实际棋局的例子,而不是纯粹的文字游戏。

                      因此,尽管法学硕士们的训练集中可能包含了所有关于国际象棋的书籍,但他们却无法学会这个示例游戏,这一事实说明了他们的一般推理能力。

                    4. 正如:他们不具备一般推理能力。

                2. 问题不在于能否训练他们玩游戏。问题在于,在仔细阅读规则之后,他们能否推断出如何玩。后者人类小孩都能做到,但大语言模型(LLM)却完全做不到。

              2. 推理训练会导致一些灾难性的遗忘,因此,如果他们想要获得商业产品,就不太可能把这种训练混入国际象棋谜题中,除非它能以某种方式很好地转移到其他广受关注的推理问题上。

    15. 不到 5%。OpenAI 的 O1 在测试期间也烧掉了 100 多美元的代币!

    16. 人类的平均得分会是多少?

      也就是说,如果随机抽取 N 个人类参加这些测试。

      1. 当然,USAMO(更不用说 IMO)上的人类平均得分是零。资料来源 我曾在韩国奥林匹克数学竞赛中获得奖牌。

        1. 我很犹豫要不要纠正一位数学奥林匹克选手,但你说的不是中位数吗?

        2. 一位 MO 校友的回答令人失望。选一个量化值,任何量化值…

    17. 根据我们对这些模型实际工作原理的了解,这真的那么令人惊讶吗?我代表我自己和其他所有在过去三年里因为指出下一个象征性预测 != 推理这一显而易见的事实而被无情降权的评论者感到平反。

      1. 2.5 pro 得分 25%。

        这只是一个更难的数学基准,到明年年底就会像其他基准一样下降。你不会得到平反的。

        1. 大胆的说法!让我们看看那 25% 是多少。我敢保证,如果你有以前所有数学考试的存储数据库可以参考,那么这部分内容是完全可以回答的。

          1. 考试中只有 0% 的题目是可以解答的。

            USAMO 问题的全部意义在于,它们需要新颖的见解和严谨、独创的证明。它们被有意设计成不是你可以随便查找的东西的变体。你必须按逻辑步骤一步一步地推理。

            获得 25%(约 11 分)的分数异常困难。这往往意味着完全解决了一个问题,而另一个问题可能只得到部分分数。中位数分数通常是个位数。

            1. > 考试中有 0% 的题目是完全可以解答的。

              没错,但当然不是我所说的那样。

              我的说法是,如果能记住所有已发表的数学结果(印刷版或网络版),那么通过模式匹配在考试中取得 25% 的正确率并不难。

              请注意,根据定义,这种技能是任何人都无法企及的,但拥有这种技能并不意味着具有创造力或 “思考 ”能力。

  2. 这篇文章的核心观点是,大语言模型(LLM)想要报道_些什么,所以它往往会夸大其词。它不善于说 “不”,或者说不像程序员希望的那样善于说 “不”。

    当你向它提问时,它往往会说 “是”。

    因此,虽然大语言模型(LLM) 的军备竞赛正在逐步提高基准分数,但这些改进都是虚幻的。

    真正的挑战在于,大语言模型(LLM) 从根本上希望看起来是合意的,而这并没有改善。因此,即使模型多做对了 5/100 的数学题,在一系列比 ChatGPT 场景更复杂的提示中,感觉也是差不多的。

    我想说,业界知道自己缺少一种工具,但还不知道那是什么工具。真正的代理性能正在不断提高(Cursor 就很了不起!),但它仍在不断发展。

    我完全同意,重要的核心基准应该是在代理场景中对模型进行评估的基准,而不仅仅是基于单个响应的基准。

    1. > 真正的挑战在于,大语言模型(LLM)从根本上说是想让人看起来顺眼,而这并没有得到改善

      大语言模型(LLM)从根本上说并不想让人看起来顺眼

      但是那些培训他们并提供模型供专业人士使用的公司肯定希望他们看起来顺眼

      1. > 大语言模型(LLM)从根本上说并不想让人看起来顺眼

        你说得没错,大语言模型(LLM)实际上并不想让人看起来顺眼。尽管如此,在强化学习中,将模型描述为想要什么是很常见的,因为训练它们是为了让奖励最大化。这只是一种标准的表达方式,并不代表真实的机构。

        1. > 一种标准的说话方式,而不是关于真实代理的说法。

          这只是一种标准的说话方式,而不是真正的代理权。

        2. 强化学习,奖励最大化?它们之所以有效,是因为兔子喜欢胡萝卜。大语言模型(LLM)想要什么?当我们说我们在使用强化学习,而它们想要奖励时,我们不是已经犯了根本性的错误吗?

      2. 在我看来,这听起来很合理,但那些公司却忘记了有不同类型的 “合意”。有一种是大语言模型(LLM),就像同事会回答你所有关于.NET的问题,但不会阻止你把自己逼入绝境;还有一种是 “让我们坐下来,回顾一下你到底在做什么,因为你现在问了相当多不相关的问题”。

        出于政治信仰的考虑,而且我觉得法学硕士对我的工作并没有什么特别的用处,所以我已经不再尝试使用法学硕士来做任何事情了。过去,我曾尝试在软件开发中使用各种模型,而我看到法学硕士们常犯的错误是,他们无法发现我思路中的错误,或者不愿意指出来。我的大多数问题往往都是设计错误或思考问题的方式错误造成的。法学硕士们从来没有告诉过我,我想做的事情是错误/糟糕设计的表现。我们有办法既能达成共识,又能指出先前决策中存在的问题。

        1. 我认为控制大语言模型(LLM)是你的责任。有时,我担心自己开始把自己逼入绝境,我问它这是不是它听过的最愚蠢的想法,它说可能有更好的办法。有时,我完全持怀疑态度,第一件事就是问这个问题。(不过,通常在我非常愚钝的时候,它就会产生幻觉,如果情况不妙,我就会在第一时间注意到它)。

          1. > 我认为控制大语言模型(LLM)是你的责任。

            是的。这里的问题是控制,而 NLP 是对计算机行使控制的一个糟糕界面。而代码则是一个很好的方法。这就是在软件开发中对大语言模型(LLM)持怀疑态度的全部原因。

      3. 是的,他们的语料库中可能有更多 “同意的 “东西,因为非常不同意的东西往往要么短得多,要么是火拼的前奏。

    2. 这倒是真的。我注意到,比如说,我让克劳德处理代码的时间越长,它编造的废话就越多。我通常可以删除它提出的大约 50-60% 的代码和测试。

      而当你要求它 “只写一个测试 ”时,50% 的代码会尝试运行,在一些微不足道的问题上失败,删除 90% 的测试代码,然后开始在它自己的幻觉中越陷越深。

      或者,也许我只是在提示方面很差劲,嘿嘿

      1. > 或者,也许我只是在提示方面很差劲,嘿嘿

        每次有人为大语言模型(LLM)在软件开发中的实用性而争辩,说你需要在提示方面做得更好,或者在资源库上为大语言模型添加更多规则时,他们都是在为反对在软件开发中使用 NLP 而争辩。

        代码的全部意义在于,它是一种非常具体和精确的方式,可以对计算机行为进行控制。使用大语言模型(LLM)的整个价值主张是,它更容易,因为你不需要那么具体和精确。如果你说你需要更具体、更准确的提示,那么你就会慢慢明白,用 NLP 来编码是个坏主意。

    3. 在很多方面,这与工作团队或中层管理人员中有太多 “唯唯诺诺的人 “的问题是一样的。你最终会得到一些踌躇满志、半吊子的 “是 ”的答案,而如果这些答案是 “否 ”或 “是,但有注意事项”,那么每个人都会得到更好的结果。

      事实上,这可能就是为什么如此多的企业高管对 LLMS/GenAI 如此着迷:这是一个他们甚至不需要雇佣的 “唯唯诺诺 ”的人,而且因为他们不是领域专家,像往常一样,他们无法分辨出自己被灌输的是一派胡言。

    4. > 这篇文章的核心观点是,大语言模型(LLM)想报道什么,所以它往往会夸大其词。它不善于说 “不”,或者说不像程序员希望的那样善于说 “不”。

      嗯,在我看来是这样的(tfa):

      但我还是想根据内部
       基准,以及我自己和同事使用这些模型的看法,
       ,无论这些公司向公众报告的收益是多少,它们
       ,都不能反映经济上的实用性或普遍性。
      

      ,然后从上面的声明往下几行,我们看到了这样的内容:

      所以,也许这并不神秘: 人工智能实验室公司在撒谎,当
       他们改进基准结果时,那是因为他们以前看过
       答案,并把它们写下来了。
      1. [这已经超出了编辑窗口,因此需要单独评论]我认为,大语言模型(LLM)的不同经验状态可以用朗费罗先生的这首诗来恰当地概括

         有一个小女孩,
         她有一个小卷发,
         就在她的额头中间。
                当她乖的时候,
         ,她确实非常乖,
         但当她坏的时候,她就很可怕。
    5. “当你问他任何问题时,他从不回答’不’–他只是死命地回答你,然后拿走你的钱”

  3. 这有点像元评论,但阅读对这样一篇帖子的回复真的很有趣,因为它展示了我们对这些东西的集体反应是如何(a)大相径庭,(b)完全由轶事驱动的。

    我有自己的观点,但我不能说这些观点不是基于轶事和个人决策启发式。

    但我们中的一些人最终会是对的,而另一些人最终会是错的,我真的很好奇,在人工智能方面,有哪些特征预示着我们有能力做出 “更好的选择”,即使我们还不知道(或无法证明)什么是 “更好”。

    1. 分享轶事经验并没有错。在这里阅读轶事经历有助于了解自己的经历是否具有相关性。此外,如果我有 X 种经历,这也有助于了解是否是因为我做错了什么,而其他人已经发现了。

      此外,既然我们谈论的是法律硕士的实际影响,这也是文章的重点,那么一堆传闻可能比一堆基准更有价值。此外,除了对与错的二分法之外,人们使用法律硕士的目标和背景也各不相同。如果有些人没有看到与其他人相同的影响,这并不意味着他们做错了什么。每当一个网络开发人员说他们不理解其他人为什么会对 LLM 如此怀疑,并肯定地断定他们一定是做错了什么,然后继续解释如何真正正确地使用 LLM 时,我都会笑出声来。

      1. 的确,分享奇闻轶事一点也没有错。问题在于人们仅凭个人经验就做出广泛的假设和结论,不幸的是,这种情况经常发生。不过,这样做已经植入我们的大脑,我们必须有意识地去拦截我们的生存本能。

        1. 人们之所以会 “下结论”,是因为他们每天都必须做出决定。在此之前,我们不能等待完美无缺的证据。数据是有用的考虑因素,但如果我试图使用有一些完美的客观基准支持的 X 大语言模型(LLM),而我无法让它对我有用,而 Y 大语言模型(LLM)却有更好的效果,那么不根据我的传闻经验做出决定就是愚蠢的。反之亦然,如果我使用 llms 有很好的工作流程,那么因为其他人认为 llms 没有用,而放弃它可能就没有意义了。

          在没有确凿证据的情况下,轶事数据可能是我们现在能得到的最好数据。在我看来,问题的关键在于理解为什么一些轶事会形成鲜明对比,在我看来,这主要是由于背景因素造成的,而背景因素可能并不十分明确,而且要有足够的灵活性,以便在当前情况发生变化时改变先验/结论。

          1. 100%同意。当数据不足时,你就不得不求助于其他来源,如类比、个人观察、二手知识等。然而,我见过太多这样的例子,人们声称自己有限的经验就是真理,而大量容易获得的证据和数据却证明这是错误的。

        2. 我觉得你可能陷入了理性主义的错觉。

          人们–只有!–才会根据个人经验得出结论。充其量,你的个人经验是以统计有效的方式收集到的真正客观的证据。

          但这只发生在地球上极少数极少数的情况下。而无论在什么情况下,人们都会被驱使去颠覆证据收集过程。

          为了更加理性而 “违背自己的本能”,往往意味着要花费更多的时间去选择哪些不可靠的证据来编造一个信念。

          1. 我不知道你是从哪里得到这些信息的。你有什么有用的引文吗?

    2. 答案是传闻并不奇怪。要传达一种普遍的情感,往往需要简明扼要。

      什么是 “更好的人工智能”,大部分都可以浓缩为斜率梯度算法在达到我们希望的局部最大值方面有多有效。在生成模型显示出 “做出决策 ”的实际进展之前,它将永远被视为一个美化的线性代数求解器。生成式机器学习的目的是给最终用户一个满意的答案,而不是创造出与人类决策水平相当的东西。

      1. 冒着惹人讨厌的风险,感觉像高质量人类决策的答案是非常讨人喜欢和可取的。同样,图像生成器生成六只手指的手并不是因为他们认为这样更讨人喜欢,而是因为他们想取悦于人,但还不够好。

        最让我困惑的是,“灵光一闪 ”的同时又愚蠢至极。我记得在运行早期的 GPT 4(gpt-4-0314)时,它所做的重构工作让我大吃一惊。在过去的几天里,我询问了许多人工智能关于一款流行的 gacha 手机游戏和一部流行电视剧中的相似角色的问题。OpenAI 的模型非常糟糕,幻觉非常强烈(4、4o、4.5、o3-mini、o3-mini-high),只有 o1 例外。DeepSeek R1 只出现了轻微的幻觉,给出的答案也很糟糕。Gemini 2.5 是唯一没有出现幻觉的旗舰机型,而且给出了一些不错的答案。

        我也许应该使用某种类型的基础知识,但我真的以为我问的东西应该在他们的训练数据集中。

    3. 你想阻止主观性?写一些公式吧。

      有三个问题需要考虑:

      a) 毫无疑问,我们的人工智能发展是否已经碰壁?强调 “合理怀疑”。地球大致呈球形是毫无疑问的。b) 根据你对(a)的回答,下一个要考虑的问题是,我们人类是否有继续发展人工智能的动机。

      c) 然后是最后一个问题:人工智能会继续改进吗?

      如果把(a)、(b)和(c)看作布尔值,它们的真值表有八个值,其中最有趣的一行是假、真、真:“(非 a)和 b => c”。注意蕴涵符号“=>”。给(a)和(b)赋值,就能得到(c)的值。

      你可以在公式中添加更多变量,但我不想举任何愚蠢的例子。不过,我认为许多评论家暗示的排比(假、真、假)只是恐惧和否认。恐惧是有道理的,但否认也无济于事。

      1. 如果你要把这个对话表述为一个可满足性问题,你就应该意识到这是一个 NP-完备性问题(而实际上研究这个问题的人正是洞察到 NP-完备性这回事的源头)。

      2. 无效表达式:”概率分布 “类型的值不能转换为 “布尔 “类型。

      3. 很多人都会根据自己所期望的结果的缺失来判断。说这是恐惧和否认是虚伪的,也是不公平的。

        1. 这其实是一个有道理的观点。我更正。

    4. 同意!我认为,在未来的一段时间里,我们还将停留在传闻的阶段。

      我确实感觉到(传闻)模型在每个主要版本中都在不断改进,但改进的程度似乎并不均衡。

      我希望即将到来的垂直整合/护栏/接地应用浪潮能让我们不再每隔几周就要在不同机型之间跳来跳去。

      1. 坦率地说,关于 evals 的最重要的故事(很少得到报道)是有多少游戏正在进行。在最近的 USAMO 2025 中,尽管 SOTA 机型在 IMO 中获得了银奖/金奖,但得分率却只有 5%。还有 ARC-AGI:“解决 ”它的一个非常简单的方法是通过推断 ARC AGI 问题的基本规则生成大量合成示例,然后在此基础上进行训练。

    5. 完全同意……这个领域还很新,也很难预测,每个人都是凭感觉、直觉和收集到的个人轶事在工作。我们都有点像在黑暗中摸索,试图逆向设计手电筒

    6. > 我真的很好奇,人工智能有哪些特征预示着能够做出 “更好的选择 “

      ,我也是。如果你答应我,在你穿越时空到未来找到答案后再告诉我,我也会答应你同样的回报。

    7. 观察得不错,但也有些微不足道。我们不是无所不知的神,最终我们的所有意见和决定都必须基于我们自己有限的经验。

    8. 这是个好观点,评论区的内容都是传闻。你有什么数据可以说明这是普遍现象还是这个话题的特殊情况?

    9. >”这有点像元评论,但阅读对这样一篇文章的回复真的很有趣,因为它展示了我们对这些东西的集体反应是如何(a)大相径庭和(b)完全由轶事驱动的。”

      人们对人工智能的看法大相径庭,归根结底是因为代币的使用量不同。如果你经常使用数以百万计的代币,你就会完全理解我们所处的革命性时刻。如果你只是在这里和那里用一些东西来回聊天,你永远不会看到它。

      1. 它是一种工具,就像所有工具一样,它对你如何使用它很敏感,而且它在某些用途上比其他用途更好。

        缺乏经验、技能、培训,甚至没有能力评估结果的人可能会尝试使用某种工具,并在结果不理想时责怪工具。

        也就是说,对法律硕士的宣传肯定夸大了他们的能力。

      2. 所以这很有趣,因为它是传闻(我猜你是一个相信它具有革命性意义的高令牌用户),但它实际上是一个原则上可测量、可证伪的假设。

        我很想看到大语言模型(LLM) API 提供商进行一项调查,将大语言模型(LLM) 的花费(和/或代币)与对未来变革性的乐观态度联系起来。与 “当前效用 ”的相关性显然是同义反复。

        实际上,我的直觉与你恰恰相反: 我怀疑使用代币最多的人是在使用它来完成定义明确的任务(实体提取、分类等),而且他们对未来的潜力持不相关的态度。充分披露一下,我就在这个阵营中。

        1. 通过代理过程实现令牌使用意义。在过去几年中,对 LLM 的所有抱怨(幻觉、缺乏实时数据等)基本上都是直接对模型进行单枪匹马提示的结果。在这一点上,没有人再认真地做任何事情了。是的,你在一项任务上要多花十倍的时间,而且耗时更长。但最终的结果是有意义的、有用的,而且你现在可以开始在此基础上设计系统了。

  4. 与许多人不同的是,我觉得作者的抱怨点到为止。

    一旦所有的人工智能批量初创公司都卖出了订阅群组,市场不再有进一步的增长,因为外部企业不想在一个概率模型上掷骰子,而这个模型对几乎任何事情都不了解,只是一个聪明的模仿机器,它所看到的内容,人工智能泡沫将破裂,到2026年底或最多2027年,更多的公司将开始打包走人。

    1. 我想比 TFA 更进一步。就我个人每天使用 Windsurf 的经验而言,Sonnet 3.5 仍然是我的首选机型。3.7 做出了更多我没有要求的改变,经常会破坏一些东西。很多机型都有这个问题,但 3.7 版更严重。

      1. 是的,我在使用 3.7 版时也遇到过这种情况。但并不总是这样。对我来说,有帮助的时候比没帮助的时候多。但 3.5 对我来说 “感觉 ”更好。

        我部分认为这是因为我对 3.5 版的期望值较低,因此与它的交互方式不同。

        这很有趣,因为不可能每个人都以同样的方式与这些模型互动。而这几乎可以保证得到不同的结果。

        如果能推出一些方法,让个人通过这些不同的模型来衡量自己的成功率/生产力/其他方面,那将会非常有趣。然后有一种方法可以让人们相互比较,这样我们就可以找出谁在这些模式下工作得好,谁工作得不好,并找出差异的原因。

        1. > 如果能推出一些方法,让个人通过这些不同的模式来衡量自己的成功率/生产力/其他方面,那将会非常有趣。然后让人们有办法相互比较,这样我们就能找出谁在这些模式下工作得好,谁工作得不好,并找出差异的原因。

          这将非常有用。我已经考虑了很久。

          不同的工具,如 Cursor 和 Windsurf,可能对每种模型都有自己的系统提示,因此测试确实需要在每种工具的背景下进行。

          使用 Playwright 这样的测试工具进行测试似乎比较简单,对吗?谁能首先成功完成这项工作,谁就能拥有一个受欢迎的博客/网站。

      2. 3.7 就像一匹脱缰的野马。你真的必须用明确的说明把它驯服。它不会自动知道这一点很糟糕,但它是可以驯服的。

        1. 你能分享一下 3.7 落地的成功提示技巧吗,哪怕只是一个特定项目的例子?

          1. 我用的是这个:

             我不想大幅修改我当前的代码,也不喜欢别人告诉我创建几个新文件和许多函数/类来解决这个问题。我希望你们思路清晰,专注于任务,不要胡思乱想!我想要的是最直接的方法,优雅、直观、坚如磐石。
            1. 需要注意的是,我让它为一项任务编写最少的代码,它却完全跳过了其中一个超级重要的方面,还辩解说我说的是 “最少”。

              不酷,克劳德 3.7,不酷。

              1. 试图绕过模型未定义行为的提示补丁交易难道不会让你怀疑这是否是一种净积极的行为吗?

                1. 啊?我都不知道你说了什么,你能澄清一下吗?

                  1. 我以为使用 LLM 编写代码的价值主张是,只需用自然语言描述你想要的东西,就能减轻认知负担。但是,如果写提示语涉及的内容太多,你最终只能在论坛上交换代码片段,而且经常会遇到未定义的行为(你描述的东西对大语言模型(LLM)来说是模棱两可的,它却给了你完全没想到的东西)……

                    我不禁要问,直接编写代码最终不是更有成效吗?

                    1. 是,也不是。

                      是:如果你是这方面的专家。在这种情况下,我需要一些相当特殊的东西,而我远不是这方面的专家。我对 Elixir 和 Rust 都非常熟悉,但却无法快速找出如何将 Rust 对象封装在合适的容器数据类型中,以便从任何操作系统线程安全地访问该对象,即使手头的对象是 “发送 ”而非 “同步”。我希望在不使用互斥的情况下实现这一点。

                      不:因为大多数编程语言都很啰嗦。很多时候,我完全知道 10 分钟后要写什么,但我还是得把它打出来。如果我能向大语言模型(LLM) 描述得足够好,那么就能节省一部分时间。

                      请注意,我通常是大语言模型(LLM)的仇敌。他们被过度美化,他们不 “推理”,也不 “理解”–我至今都不明白,看起来像 HN 一样受过良好教育的受众竟然会相信那些蛇油。

                      尽管如此,它们仍然是一种有用的工具,而作为优秀的工程师,我们有责任认识到一种工具的实用性及其强项和弱项,并使我们的工作流程与之相适应。我相信我和很多人都是这么做的。

                      剩下的人……相信森林仙女。

                      所以是的。我同意,很多时候打字会更快。但像我这样的人善于表达自己的需求,所以对我们来说,这往往是一个抛硬币的过程。我更多时候选择自己敲代码,因为(1) 我还不想花钱去读什么大语言模型(LLM),(2) 我不想忘记我的手艺,我至今都热爱这门手艺,而且从来不是为了钱才做这门手艺的。

                    2. 谢谢你的观点。我不觉得爱或恨,只是有时对围绕它的讨论感到困惑(哈哈)。

                    3. 我很难不憎恨法律硕士,因为这关系到上千亿的利益,而人们为了钱总是咬着牙撒谎。

                      这确实导致了围绕他们的各种奇怪的议论。

                    4. > 有上千亿的资金岌岌可危,人们为了钱而咬牙切齿地撒谎,他们总是这样。

                      从我记事起,我就对这个世界的生活有这种感觉。

                    5. 你当时是对的,现在也是对的。

                      我不知道这种感觉从何而来,但从 12-13 岁到现在(45 岁了),我一直都是这样。

      3. 我最终放弃了 Cursor 中的 3.7 版,因为它三番五次完全无视我的要求,只为解决一个无关紧要的线程错误。这个错误丝毫不影响功能。

        尽管我拒绝了修改,并明确告诉它不要理会这个指针,但它仍然坚持只尝试解决那个

  5. 我的个人经历与作者的一致。

    另外:

    > 我认为这是因为大型语言模型在与用户的实时对话中被训练得 “听起来很聪明”,所以它们更愿意强调可能存在的问题,而不是确认代码看起来没有问题,就像人类想听起来很聪明时做的那样。

    我立刻想到了这一点: 这是因为在大多数情况下,这就是语言的目的,至少是部分目的,而 LLM 就是接受语言培训的。

  6. 在过去的几次模型更新中,我们看到了真实而明显的改进,我不知道这其中有什么脱节。

    也许是因为我确实有博士水平的问题要问他们,而他们在这方面已经做得更好了。

    但我怀疑这些轶事是受其他因素驱动的。也许人们在早期机型上通过反复试验找到了一种可行的提示策略,但在后来的机型上就不那么奏效了。

    或者,他们的任务具有时间敏感性,无法利用现代 LLM 的思维优势,因为现代 LLM 具有缓慢的基于思维的反馈回路。又或者,他们的代码库变得越来越复杂,因此更难进行推理。

    又或者,他们给 LLMs 下达了一项定义不清的任务,在这项任务中,旧的模型做出了假设,而新的模型却理解了其中的模糊性,因此发现解决方案的空间更难以驾驭。

    由于这最终是由一家从事人工智能安全扫描的公司提出的,我认为后者在一定程度上起了作用。安全问题难上加难,你了解得越多就越难。此外,对手必然会使用人工智能,而且其复杂程度也在不断提高,这将导致效率降低(不过,你可以通过用较新的威胁来尝试较旧的模型,从而找出这种影响)。

    1. 去年,在我的私人测试中,“你是……方面的专家 ”之类的提示语的效果大不如前,而准确描述问题的提示语的效果却越来越好。

      换句话说,所有那些懒惰的提示工程黑客都变得不那么有效了。领域专业知识变得更加有效。

      1. 是的,我认为这可以解释这种效果。我这周就试试。

    2. 问题在于改进的规模。GPT-3.5 结构与之前的所有版本相比,是一个巨大的飞跃。GPT-4 是一个非常大的飞跃。此后的一切似乎都是渐进式的。是的,我们有了多模态,但那是 GPT-4 的一部分,只是他们最初没有发布而已,直到最近,它才被移交给另一个模型。是的,我们有了推理模型,但人们已经使用 CoT 有一段时间了,所以用 RL 将其训练成模型只是时间问题。我们可以看到 GPT-5 的不断延迟,以及关于它将成为自己的模型还是只是一个路由器模型的来回争论。

    3. 这就好比在化学知识的进步方面,我对模型的印象并不深刻。

      为什么?因为我自己对化学知之甚少,甚至不知道该从何问起,以至于对模型的答案印象深刻。

      要想让模型发挥作用,我就必须自己学习基础化学。

      虽然我怀疑很多人在所有科目上都会遇到这种情况。他们确实什么都不懂,因此对模型的回答印象不深,就像我对化学回答印象不深一样。

  7. 基准测试结果的提高与实际任务中缺乏改进之间的脱节并不一定意味着作弊–这只是 LLM 本质的反映,说到底,LLM 只是预测系统–这些都是语言模型,而不是为通用性而构建的认知架构。

    当然,如果你在狭窄的基准领域对大语言模型(LLM)进行大量训练,那么它在这些领域的预测性能就会提高,但为什么你会期望这会提高无关领域的性能呢?

    如果你对自己进行了大量的高等数学训练,你会指望这会提高你的编程能力吗?如果不会,那你为什么还指望它能提高语言模型等不那么复杂的 “智能”(预测引擎)的编程能力呢?如果你对自己进行 LeetCode 编程培训,你还能指望这有助于强化企业生产系统吗?

    1. 这很公平。但请查阅最近在当时刚刚发布的 USAMO 2025 试题上进行的 SOTA 模型实验。最高分是 5%,据说去年的 SOTA 是 IMO 银级。这其中可能存在一些方法上的差异–即 USAMO 试卷要求提供正确的证明,而不仅仅是数字答案。但这确实强烈表明,即使在有限的领域内,也存在作弊行为。我敢打赌,如果你在一套新的ICPC试题上测试SOTA模型,实际表现会比他们所谓的基准差很多很多。

      1. > 最高分是 5%,据说去年的 SOTA 是 IMO 的银级水平。

        去年没有大语言模型(LLM) 拿到银牌。Deepmind 有一个高度专业化的人工智能系统,它获得了

    2. 在我看来,这也不算是作弊,只是过于合适而已。

      如果一个模型在基准测试中表现不佳,它要么会被重新训练,直到表现出色为止,要么你就不会听到它的消息。

    3. 你的比喻非常完美。用数学奥林匹克问题来训练大语言模型(LLM),然后指望它来确保企业软件的安全,就好比教人下棋,然后递给他们一把扳手

  8. 这个周末我用了 gemini 2.5 和 aider,它的表现好得吓人。

    这可能在很大程度上取决于你使用它们的目的,总的来说,我认为现在就断言 LLM 将引领我们走向何方还为时尚早。

    1. 根据我的经验,我认为双子座 2.5 的整体质量并不比双子座 2 好多少。双子星座 2 已经非常不错了,但就像克劳德 3.7 版一样,双子星座 2.5 有进步也有退步。它有时会生成一些非常冗长的代码,即使你要求它简洁明了。我相信,如果你对 2.5 进行更长时间的评估,最终也会得出同样的结论。

    2. > 这可能在很大程度上取决于您使用它们的目的,总的来说,我认为现在就断言 LLM 将引领我们走向何方还为时尚早。

      即使是近似值,也必须是正确的才有意义。如果信息是错误的,那就是垃圾。

      对各种数据进行预处理/标记是有价值的。人类在这方面做了大量工作。

      目前,“引领 ”我们的是企业夸大的估值。你们/我们身处泡沫之中,为泡沫辩护。

      除非一种工具是可靠的,否则就不能将其安装在会伤害到人的地方。除非我们修改了对人的关注。

    3. 是的,他们的光标或者代理的东西确实改变了游戏规则。

      认识不到这一点的人都是故意把头埋在沙子里的

      1. 人们在谈论人工智能的 “重要性 “时,其实从根本上说是在问两个不同的问题: 人工智能的实用性和人工智能的 “智能”。这两者之间有一条谨慎的界线。

        1) 人工智能无疑具有实用性。在许多代理用途中,它具有非常重要的效用。有绝对效用和感知效用之分,感知效用更多是指用户体验。就绝对效用而言,git 很可能是改变游戏规则最多的一款软件。git 能让庞大的团队以无缝的方式协同工作,从而节省了十位数甚至十一位数的工程师工时。在用户体验方面,人工智能是令人惊叹的,因为它能如此快速地生成大量内容。但它与工程师相去甚远。例如,最近我试图用光标在 NextJS 中为我引导一个网站。它产生了自己无法修复的错误,而且每次重写似乎都会让自己越陷越深。原因显而易见。很多原因都与 NextJS 15 以及它在 cookies 和认证方面引入的破坏性更改有关。很明显,如果你有大量的 NextJS 代码,其中大部分都是旧版本,但都没有很好地标注版本,就会扰乱大语言模型(LLM)。最终,我放弃了它写的东西,自己动手做了起来。我并不是想用这件趣事来说明 LLM 毫无用处,但它们有非常明显的局限性。它们在处理海量数据的问题(如前端)时效果很好,而且不需要太多原理性的理解(如理解 NextJS 15 会如何破坏某某的 auth)。另一个例子是,当我尝试用它来为 V8 构建生成标志时,它失败得很惨,而且会一直出现标志幻觉。这似乎很有可能是因为(尽管网上有一份 V8 标志列表)许多标志在向量嵌入中的表示非常接近,而且关于其使用的数据/详细示例几乎为零。

        2)在理论方面,LLM 在基准(声称是精英 IMO 求解器、竞技编程求解器)上的表现令人难以置信。当新的 USAMO 2025 发布时,尽管一年前有人声称 SOTA 至少是银级 IMO,但最高得分仅为 5%。这是在指数级计算和数据输入的背景下出现的。再加上明显的收益递减,这表明从中获得的收益已经非常微薄。

      2. 我猜你最近没上过 /r/cursor 或 forum.cursor.com?

        在过去的几个月里,“改变游戏规则 ”并不是那里的流行语。

  9. 我是一个使用 LLM 和编码辅助插件(有时),但对人工智能有些看衰的人,我的经验是,GPT/Claude 和朋友们在过去 12 个月左右的时间里变得更糟了,本地 LLM 从毫无用处变成了边缘功能,但仍然无法真正用于日常工作。

    我个人认为,模型已经 “足够好 ”了,我们现在需要开始看到工具和应用程序的改进。我认为 MCP 是朝着正确方向迈出的良好一步,但我对整件事持怀疑态度(尽管我是该技术的用户,但从一开始就持怀疑态度)。

    1. 整个 MCP 的炒作确实说明了人工智能有多少是扯淡。这些 LLM 消耗的 API 文档比一个人可能消耗的还要多,而且还需要软件工程师编写胶水层,这样他们才能使用 API。

      1. 我不认为我完全同意。

        问题在于,直到最近,我们才有可能让 LLM 产生有趣且令人兴奋的结果(这是他们吸入所有 API 文档和代码库的结果),但要让这些结果可用起来却非常困难。我认为,我们需要以更好的方式控制 LLMs 的输出格式,然后才能研究输出中的内容。我不知道 MCP 是否是真正的解决方案,但它肯定是一种尝试…

        1. 你在下面的评论也不无道理,但当 anthropic 的首席执行官在上个月说 “人工智能将在一年内为软件工程师编写所有代码 ”时,鉴于它在没有用户干预的情况下的表现(MCP 等……),我认为这很难让人相信。这感觉就像 10 年前的自动驾驶汽车一样,简直是胡说八道。

          1. 我完全同意你的观点。我认为我们还需要一代人的时间才能让这些工具以我_想要_的方式在轻度监督下使用,我认为现在与这之间的差距要比与自动代理之间的差距小 10 倍左右。

      2. 因为它是有损压缩。我还读了很多书,看了更多的电影,我对这些都没有很好的记忆。但从中获得了一些核心事实和直觉。

        1. 即使是有损压缩,人工智能也比我更善于归纳事实,但如果有人给我一个 api 文档,我就能知道如何使用它,而不需要他们围绕我需要使用的部分编写一个封装库来解决我正在研究的任何问题。

          1. > 但是,如果有人给我一份 api 文档,我就能知道如何使用它,而不需要他们围绕我需要用来解决任何问题的部分编写一个封装库。

            我认为这正是人工智能的不足之处。人工智能应该能够与集成开发环境和工具(如 LSP、Treesitter、Editorconfig)集成,以确保它在上下文中做了正确的事情。

            但事实并非如此。

  10. 我希望这是真的。即使现在停止开发 LLM,至少在未来十年内,我们仍会不断发现它们的新用途。这项技术的发展速度远远超过了我们的吸收速度,我真的对其后果感到恐惧。因此,我希望我们正处于某个收益递减点,尽管我一点也不相信。

  11. 乐村最近在一次演讲中批评了大语言模型(LLM)技术:https://www.youtube.com/watch?v=ETZfkkv6V7Y

    精度问题不会就这么消失。提高精度只会越来越昂贵。这就为有用的应用设置了限制。而普通用户可能根本不会在意,他们会在没有合理结果验证的情况下使用 LLM。我担心未来的整体质量会下降。不知道有多少人/公司会接受这种情况。人工智能公司正变得大而不能倒。显然,美国政府在使用 LLMs 来定义关税政策时似乎并不在意….。

    1. 我不知道为什么会有人对统计模型没有达到 100% 的准确率感到惊讶。事实上,文本统计模型足以做任何事情,这应该是令人震惊的。

      1. 我认为,令人惊讶的是人们如何称赞 80-90% 的准确率是技术进步的下一个飞跃。尽管有法学硕士,但质量已经在下降,而编程一直是一门注重正确性和可预测性的学科。这当然是效率的进步,但其代价是未知的稳定性。我想到了所有基于应用数学概念的模拟,以及所有累积起来的修复漏洞的时间–现在已经有了某种回味,对一些高效生活的人来说是甜的,但对依赖稳定性的人来说却是苦的。

        1. 当然,你说得完全正确。问题在于,大多数人不追求质量,只追求效率。尤其是企业主,他们不会在乎牺牲一些正确性,如果这意味着他们可以解雇一大批人的话。更糟糕的是,本应优先考虑正确性的受骗 “工程师 ”却被商业洗脑了,他们喜欢明智地敷衍这种无稽之谈,而不惜牺牲自己对软件业务唯一原则的关注,而这些原则甚至使软件业务与 “工程 ”这个称号相去甚远。

      2. “足够好 “是个问题。这需要语境。而人工智能公司在向我们兜售 “足够好 ”的同时,也在向我们提供可疑的证据。他们向投资者兜售宏伟的愿景,但却一次又一次地将目标后移。

        很多公司都向员工提供了 Copilot。我怀疑大多数用户是否了解统计模型的含义。缺乏技术经验的普通用户只会认为计算机的答案总是正确的。

  12. 我想说,最近人工智能模型的大部分进展都是在价格方面。

    QwQ-32B 的 4 位量子在编码性能上竟然接近 Claude 3.5。但它的体积小到可以在消费级 GPU 上运行,这意味着部署价格现已降至每小时 0.10 美元。(从需要 8x H100 的型号的 12 美元以上)

    1. 您将它与 8 位 QwQ-17B 进行过比较吗?

      在我的测试中,8 位量化的小型 Qwen 模型更好,但同样很难进行评估。

      1. 据我所知,没有 QwQ 17B。您有高频链接吗?

        1. 你是对的,对不起……我只是测试了 Qwen 模型,而不是 QwQ,我看到 QwQ 只有 32B。

          1. 不用担心,QwQ 是 Qwen 的思维模型,这是一个常见的误解。

            我觉得他们应该给它取个别的名字。

    2. 是的,我是从沃德利地图的角度来考虑这个问题的。

      当人工智能充分商品化后,会有哪些创新?

      1. 我看到的一件事是,大型企业通过给消费者施加行政负担,从消费者身上榨取钱财。

        例如,你可以在医疗保险报销和无线运营商计划变更中看到这一点。(例如,Verizon 公司从 “做得更多”(Do More)转变为现在的 “做得更多”(Do More)。

        公司基本上都会设置一些环境,让消费者经常性地或零星地损失少量钱财,这样人们就会直接付钱,而不是费时费力地打电话、浏览网站、费时费力地追回他们应得的资金或本来就不应该被拿走的资金。

        我希望商品化的人工智能能为消费者提供一个机会,让他们在这种情况下和其他类型的权利被剥夺的情况下进行抗争,而这种情况似乎正被越来越多的公司正常化,这些公司的顾问除了优化自己的财务状况外什么也不做。

      2. 蛮力,蛮力一切,至少对于可以自动验证的域名是这样。

  13. > ……无论这些公司向公众报告的收益如何,它们都不能反映经济效益或普遍性。

    我并不感到惊讶,因为我并不指望模式匹配系统能发展成更通用、更有用的东西。我认为,大语言模型(LLM)基本上遇到了与 20 世纪 80 年代的 “专家系统 ”一样的局限性。

  14. 这是 Gemini 2.5 发布的前一天发表的。如果他们发现该模型有什么不同,我会很感兴趣。据我所知,这是第一个真正让我惊叹的机型,它为我的工作效率带来了巨大的改变。

    1. 是啊,我觉得这很难想象它的老化程度。双子座 2.5 解决了(至少比)我过去遇到的多个其他模型无法解决的现实世界系统问题。它的可视化推理能力在图表上也有显著提升(例如,围绕火车时刻表进行规划)

      ,甚至 Sonnet 3.7 也能对我的代码库进行重构,而 Sonnet 3.6 却做不到。

      1. 与 Claude 3.7 和 o1(或 Cursor 中的任何其他免费模型)相比,2.5-exp 是唯一一个能正确解决我提出的问题的模型。

        它从一个反应原生应用中逆向工程了约 550MB 的 Hermes 字节码,每个函数都被分割成了一个单独的文件,以实现 grep 功能和大语言模型(LLM)兼容性。

        其他函数一开始都是正确的,但很快就会默认为随机 grep,很快就会失败。2.5 可以一路追踪到网络调用,并提供预期的响应有效载荷。

        而其他所有功能都只是让我产生了网络响应的幻觉。2.5 提供的信息足以让我截获请求,并使用它提供的响应来显示我想要的内容。

        1. 你是如何将 550MB 的字节码放入上下文窗口的?这是在代理框架中使用 2.5 吗?(即重复调用模型和使用工具)

          1. 我用 awk 手动将字节码文件预先解析为数十亿个独立文件,每个文件都只有一个函数,然后给它提示,让它用 grep 进行排序。这一切都是在 Cursor 中完成的。

             awk '/^=> [Function#/ {
             if (out) close(out);
             fn = $0; sub(/^.*#/, "", fn); sub(/ .*/, "", fn);
             out = "function_" fn ".txt"
             }
                { if (out) print > out }' bundle.hasm
            

            它给出的输出和过程的快速示例。

            https://i.imgur.com/Cmg4KK1.png

            https://i.imgur.com/ApNxUkB.png

      2. 我想说一般人不会理解这个问题,更不用说解决它了。

    2. 作为一个对 Claude 3.7 的炒作大失所望的人,在我看来,Gemini 2.5 很容易成为目前最好的程序员辅助语言模型(LLM)。

      但它给我的感觉仍然更像是一个小的渐进式改进,而不是彻底的改变,我仍然经常感觉到它的局限性。

      比如……它能提供我期望它生成的那种体面但缺乏灵感的解决方案,而不会像早期的模型那样,在我反复纠正它的过程中,让我走过一堆明显的弯路。

      当然,这也不是一无是处,而且还让使用它的体验更加美好,但每当有人暗示 LLM 是通往即将可用的 AGI 的必经之路时,我还是会翻白眼

      1. 我也有同感。Sonnet-3.5-latest 是一个完美的代码伙伴:它能写出适量的质量尚可的代码,但它的优点是能真正遵守你的指令。Sonnet-3.7 却恰恰相反,它写了太多的代码,疯狂地过度工程化,而对指令的遵守却很差。Gemini 2.5 Pro 基本上就是我所希望的 sonnet-3.7:很好地遵循了指令,但仍然很有主见,有大量(可用的)上下文窗口,响应速度快,更偏向于最新的最佳实践和最新的知识截点。

        我在想,gemini 2.5之所以 “令人惊叹”,有多少是因为sonnet-3.7太令人失望了。

    3. 尽管 “较新 “的模型(LLM)……只是以前模型的放大版,或者附加了一些辅助功能,但人们还是莫名其妙地相信 “较新的模型(LLM)会推翻<此处插入大语言模型(LLM)的批评>”。大语言模型(LLM)就是大语言模型(LLM):否则我就信了。

  15. 听起来像是有人喝了自己的迷魂汤(相信当前的人工智能可以成为一名安全研究员),然后当他们意识到自己过分夸大了自己时感到沮丧。

    目前的人工智能根本无法进行查找软件安全漏洞所需的符号推理。它们也许学会了通过模式匹配识别 “坏代码”,但基本上仅此而已。

  16. 我妈妈昨天告诉我,保罗-纽曼有严重的酗酒问题。我有些怀疑,所以今天早上我问了 ChatGPT 一个非常简单的问题:

    “保罗-纽曼是否因酗酒而出名?”

    从 o3-mini-high 到 o3-mini-high 的所有模特都告诉我他没有任何问题。以下是 o3 -mini-high 的回答:

    “保罗-纽曼并不因酗酒问题而广为人知。虽然他在银幕上塑造的角色有时会面临个人挣扎,但他的个人生活和公众形象更侧重于他著名的演艺事业、慈善工作和对赛车的热情,而不是酗酒问题。在有声望的传记或访谈中,没有大量或广泛报道的证据表明他曾与酗酒作斗争”。

    网上有大量证据表明他经常酗酒,包括他的长期妻子乔安妮-伍德沃德(Joanne Woodward)的证词。

    我给妈妈发了 ChatGPT 的回复,五分钟后她就找到了支持她论点的权威来源 [1]。

    我每天都用 ChatGPT 完成很多任务,但我无法想象它竟然会在这么简单的事情上出这么大的差错。

    经验教训 包括不要怀疑我妈妈的电影琐事知识。

    [1] https://www.newyorker.com/magazine/2022/10/24/who-paul-newma

    1. 这与其说是一道信息检索题,不如说是一道大语言模型(LLM)题。如果你选择一个模型并告诉它 “搜索”,你会发现基于引文的分析讨论了他确实有酗酒问题。我觉得有趣的是,它还在争论他是否酗酒–从其他内容来看,他显然酗酒–但不管怎样。这说明了将法学硕士纳入工具包时的一些关键问题。它们不是全知全能的,也不是演绎推理工具。信息检索系统擅长信息检索,应该用于信息检索。求解器擅长解决演绎问题。使用它们。他们在这些任务上越做越好,这很酷,但在我看来是一种花招,因为我们有近乎最优或实际最优的技术,不需要大语言模型(LLM)。大语言模型(LLM)应该使用这些工具。所以,下次遇到信息检索问题时,请点击搜索。https://chatgpt.com/share/67f2dac0-3478-8000-9055-2ae5347037…

      1. 我意识到你的回答并不自信,但如果我从一个积极为人工智能辩护的人嘴里听到这句话,那就是一种逃避。如果你的卖点是你可以向这些人工智能提出任何问题,那么当某个特定的问题没有得到解决时,你就不能追溯性地说 “哦,但不是那个”。

        1. 这有点像稻草人。当然也有人声称你可以向人工智能提出任何问题,但我不认为这位评论者提出过这种说法。

          “人工智能正在取得令人难以置信的进步,但在某些任务子集上仍然举步维艰 ”是自洽的立场。

          1. 奇怪的是,这并不是任何一家大型人工智能公司的立场。

      2. 这里有很多话要说人工智能无法正确进行基本搜索

      3. 在网络搜索中找到的有关纽曼的任何信息都可以在训练集中找到(或多或少)。这几乎可以肯定是对齐/“安全 ”问题造成的。

        1. “在网络搜索中找到的任何有关纽曼的信息都会出现在训练集中”

          我认为如今这种假设并不安全。训练现代大语言模型(LLM)并不是把互联网上的所有东西都倒进去。要想获得真正好的模型,你必须对训练数据的来源有所选择。

          他们仍在大量盗用受版权保护的数据,但我的印象是,他们对训练运行中的数据越来越挑剔。

        2. 还有一个比这更简单的解释,那就是模型权重并不是信息检索系统的权重,考虑到训练数据的整体性,其他标记序列更有可能出现。这就是为什么在信息检索任务中要使用信息检索工具,就像在钉钉子时要使用锤子而不是螺丝刀一样。也许你完全可以用螺丝刀来钉钉子,但为什么呢?

          1. 你认为这是一个更简单的解释吗?好吧。我认为,考虑到这些系统在 “安全 ”方面所做的努力,我的解释远比这些信息在矢量汤中丢失的可能性要大得多,尽管这些信息在每个搜索结果[0]的顶部都附有他的名字。

            0 https://www.google.com/search?q=did+paul+newman+have+a+drink

            1. 只是如果安全屏蔽了这个,也就屏蔽了链接对话。对齐肯定会扭曲模型的行为,但把它们当作信息检索系统就是用螺丝刀去钉钉子。你的例子并没有反驳这一点。

      1. 虽然我正在运行的一个本地模型(gema-3-27b-it; https://huggingface.co/lmstudio-community/gemma-3-27b-it-GGU……)只是告诉了我关于他酗酒史的各种听起来正确的片段(正确地引用了他的母校和第一任妻子),但又抛出了一个问题:

        “戒酒与戒酒互助会:纽曼于 1964 年戒酒,并终生保持清醒”。

        这不符合事实 其中还包括一些似是而非但完全是幻觉的网址(以及一个完全省略了酒精信息的有效传记网站网址)。

        1. Gemma 3 4B (QAT quant): 是的,众所周知,保罗-纽曼一生都在与酒精抗争。虽然他在公众面前保持着迷人、干净利落的明星形象,但私下里却与酗酒作斗争多年。他曾在 20 世纪 80 年代末和 90 年代初寻求治疗,据说他对自己的挣扎和寻求帮助的重要性非常坦诚。

      2. Perplexity:

        >保罗-纽曼确实一生都在与酒精抗争。各种来源的描述,包括他自己的回忆录和纪录片……(https://www.perplexity.ai/search/is-paul-newman-known-for-ha……)

        我猜 ChatGPT 的设置有些与众不同?也许他们想避免诽谤他人?

        1. Grok:

          > 是的,众所周知,保罗-纽曼(Paul Newman)一生中的某些时候曾与酒精作斗争。早年,特别是在海军服役期间和演艺生涯中,纽曼承认自己酗酒。他坦言自己喜欢喝啤酒,并曾开玩笑地称自己是一个 “功能性酒鬼”。在 1988 年接受《纽约时报》采访时,他承认自己曾有一段时间喝得太多,他说:”我是一个非常好的酒鬼。我可以把酒戒掉”。…

          https://grok.com/share/bGVnYWN5_86843e8a-39ee-415d-8785-4f8e

    2. 《白痴》这部尚未成文的前传是否讲述了这样一个故事:当我们开始向小爱聊天机器人询问事实时,这是否就是人类的不归路?

      1. 《chatgpt’d tariff》完美地诠释了这一时代。

      2. 事实证明,未货币化的网络搜索需求巨大。

        1. 当然,我喜欢它的非货币化,但这不是我使用人工智能的原因。我使用人工智能是因为它更擅长搜索。当我记不住正确的关键字或关键字不唯一时,我经常会发现网络搜索找不到我需要的东西,而人工智能却能。

          令人印象深刻的是,对于模糊的问题,人工智能往往能给出正确的答案。(但并不总是如此)

          1. 谷歌曾经对模糊的问题返回正确的答案,直到它决定对模糊的问题返回最赚钱的答案。

            1. 幸运的是,大语言模型(LLM)领域的竞争非常激烈。

              编辑:更重要的是,有很多人愿意为高质量的内容付费订阅。

        2. 可悲的是,很快就会出现对未货币化的法律硕士的巨大需求。Enshitification即将到来。

      3. 当每个人都把它作为一个关键的定义功能来推销时,你能责怪用户问这个问题吗?

        我用它来问高级概率和仿真建模方面的问题–通常都是非常小众的问题–它经常能答对这些问题–为什么是这些问题,而不是关于历史上最受欢迎的演员之一的一个简单可验证的事实?

        我不了解 “白痴”,但我读到过一些特别的警告,那就是人们经常会把工具的任何问题归咎于用户。

      4. 一些可以作为前传的前作包括 C.M. Kornbluth 的 “行进的白痴 “和 “小黑包”。

    3. “保罗-纽曼是否因酗酒问题而出名?”

      https://chatgpt.com/share/67f332e5-1548-8012-bd76-e18b3f8d52

      您的问题确实回答了“……不广为人知……”

      “保罗-纽曼有酗酒问题吗?”

      https://chatgpt.com/share/67f3329a-5118-8012-afd0-97cc4c9b72

      “是的,保罗-纽曼公开表示自己曾与酗酒作斗争”

      有什么问题吗?也许保罗-纽曼并不是因为酗酒而著名(“众所周知”)。但他确实酗酒。

      你对 “众所周知 ”的用法并没有错,但确实有点模棱两可。

      1. 反驳: 保罗-纽曼绝对是个有名的酒鬼,维基百科上的这个页面* 就是证明。在网上搜索 “保罗-纽曼酗酒”,可以找到几十个关于这个话题的著名资料。你的帖子很容易被理解为手舞足蹈的辩解,给人一种 “是孩子们错了 ”的感觉。

        *https://en.wikipedia.org/wiki/Newman_Day

        1. “保罗-纽曼酒精 “只是向你展示了这些词都出现的结果,并没有真正暗示它有多广为人知。

          1. 你是什么人,大语言模型(LLM)?看看前二十次点击的结果,然后回来告诉我这些结果没有涉及这个具体问题。

              1. 大语言模型(LLM) 还能如何区分什么是广为人知,因为并没有收集关于普通民众对任何特定名人恶习的认识的统计数据。在这里,机器人歉意十足。

    4. 这可能一针见血地指出了大语言模型(LLM)的弱点。

      他们会重复一些不是基于事实的东西,而是基于那些可以被认为是事实的东西。这些事实可能是对的,但也可能是错的;如果不对原始资料进行艰苦的核对,谁也说不清楚。许多被认为是公认的事实,也是大语言模型(LLM)可以获取的事实,充其量不过是衍生事实,通常由有动机的个人进行调解,并由 “有兴趣的人 ”发布到可获取的来源。

      任何人工智能所使用的权重都应基于事实,而不是衍生的、“中介的 ”或 “引导的 ”事实的复合数量–很简单,因为它们不是真正的事实;它们是报告。

      这一切看起来都像是更愚蠢、更懒惰的搜索引擎的东西。老实说,我对保罗-纽曼了解多少?但是,乔安妮-伍德沃德和其他认识他并与他共事过的人,至少应该比其他人更可信一些;无论有多少文字模式 “捕捉匹配”。

    5. > 我每天都用 ChatGPT 完成很多任务,但我无法想象它竟然会在这么简单的事情上出这么大的差错。

      我认为我们应该有一个术语,就像我们对父母/祖父母的称呼一样,他们相信在互联网上看到的一切,但专门针对使用 LLM 的人。

      1. 看看有多少人相信极端主义新闻媒体!

    6. 这对于大语言模型(LLM)来说其实并不 “简单”。大语言模型(LLM)需要大量数据,数据中出现的主题越多,答案就越好。

      此外,您可以/应该使用 “研究 ”模式来回答此类问题。

      1. 这个问题很简单,而且可以验证–大语言模型(LLM) 的知识体系中没有包含这个问题–或者说达不到答案,这一点让我印象深刻。

        在大语言模型(LLM)的知识体系中,保罗-纽曼(Paul Newman)是历史上最伟大的演员之一。

        数据中存在足够多的主题的阈值在哪里?

        1. 这个问题可能很简单,而且可以验证,但对于大语言模型(LLM)来说,要将某个问题标记为这样的问题并不简单。这就是棘手之处。

          大语言模型(LLM) 并不关心你的问题,它只是一堆数学,会根据你输入的内容吐出一个结果。

    7. 我问了 GPT-4.5,它搜索了网络,立即给了我一个 “是”,并引用了几段资料来源。

      1. 真理是一种概率游戏。不断尝试,直到成功。

        1. “man puts prompt into LLM” > “LLM ships bad code” > “machine fails” > “person dies” > “fire man” > “man puts prompt into LLM”

      2. 3-4 个小时足够让它抓取完黑客新闻的评论区了。人工智能机器人抓取我这个偏僻小博客的频率也差不多是这个样子。

    8. 我刚刚用 Cursor Pro + Sonnet 3.7 Max 编写了一个 python 脚本,通过 groq 向所有可用的模型发送了这个问题。

      >找到了 24 个模型:llama3-70b-8192、llama-3.2-3b-preview、meta-llama/llama-4-scout-17b-16e-instruct、allam-2-7b、llama-guard-3-8b、qwen-qwq-32b、llama-3. 2-1b-preview, playai-tts-arabic, deepseek-r1-distill-llama-70b, llama-3.1-8b-instant, llama3-8b-8192, qwen-2.5-coder-32b, distil-whisper-large-v3-en, qwen-2.5-32b, llama-3. 2-90b-vision-preview、deepseek-r1-distill-qwen-32b、whisper-large-v3、llama-3.3-70b-specdec、llama-3.3-70b-versatile、playai-tts、whisper-large-v3-turbo、llama-3.2-11b-vision-preview、mistral-saba-24b、gemma2-9b-it

      除不支持聊天补全的语言外,其他语言(qwen-qwq-32b)的回答都是肯定的。qwen-qwq-32b 的回答是

       著名演员和人道主义者保罗-纽曼在其一生中的大部分时间里都没有与酗酒作斗争,但有
       些具体事例表明他面临挑战。
      

      把某一专业领域缺乏进展作为整体进展的晴雨表有点愚蠢。过去几天,我刚刚花时间 “振动编码 ”了一个应用程序,我不得不说,与我去年的经验相比,它现在的能力已经非常了不起了。

      从创建 API 密钥到得到答案,我只用了三分钟就完成了上述操作。

      1. 我发现每个用这样的例子来回复的人都是专家,他们使用专家技能让大语言模型(LLM)执行。这让我想到,为什么这是一项对普通大众有用的技能,而不是技术知识工作者工具腰带上的另一项有用技能呢?

        1. 我同意。但我要说的是,至少在我的社交圈里,我发现很多技术以外的人都在使用这些工具,而且几乎所有人似乎都对他们得到的信息持健康的怀疑态度。不这样做的人也会学到一些东西。

    9. Gemini 2.5 Pro

      是的,保罗-纽曼以酗酒而闻名,尤其是啤酒。1 他自己也承认自己的酒量很大。1. 回顾: 美联社新闻

      apnews.com

      虽然保罗-纽曼在事业和公众生活上都取得了巨大成功,但他的作品和传记中都提到了他酗酒的情况,通常将其描述为一种功能性习惯,而不是令人沮丧的酗酒,尽管这种区别还有待商榷。据报道,他在晚年明显减少了饮酒量。

    10. 我刚问过 4o:

      是的,保罗-纽曼确实与酒精有过激烈的斗争。在他死后出版的回忆录《一个普通人的非凡人生》中,纽曼坦率地讨论了他的饮酒习惯,并承认他长期与酗酒作斗争。他形容自己是一个 “功能性酒鬼”,并指出这是他父亲的共同特征。据报道,纽曼曾一度每天喝一箱啤酒,然后是烈性酒,直到他最终戒掉烈性酒。

      1. 我自己的马尔可夫链对 “直到他 “进行了根本不同的跟进。

    11. 这些模型并不是可靠的信息来源。它们要么已经过时,要么会产生幻觉,要么由于种种原因就是错的。像这样询问事实,它们是不可信的。

      我很欣赏你对一个主观问题的思考,以及你是如何解释和理解这些细微差别的。但请不要相信 chatgpt 等人。我一直对那些无休止地从聊天工具中声称某些东西是真的感到沮丧。我支持这位作者的结论。

    12. 这似乎不像是准确性的问题,而更像是模型提供商确保自己不会因诽谤而被起诉的问题

    13. 对于这样的问题,您需要告诉机器人进行网络搜索。

      > 你好,你能在网上搜索一下保罗-纽曼是否有酗酒问题吗?

      > 保罗-纽曼(Paul Newman),著名演员和慈善家,嗜酒如命,尤其是啤酒。众所周知,他的酒量很大,有些人说他一天能喝掉一箱啤酒。这样的酒量让一些人将他形容为一个功能性酒鬼。据报道,他的酗酒习惯给他与乔安妮-伍德沃德的婚姻造成了压力。20 世纪 70 年代末,伍德沃德因为纽曼酗酒而不允许他回家。作为妥协,他答应戒掉烈性酒,但继续喝啤酒,有时在晚餐时喝掉一箱啤酒。

    14. Perplexity 对这个问题没有异议,他回答道:”众所周知,保罗-纽曼一生都在与酒精抗争,这一点在各种报道中都有披露,包括他自己的回忆录和关于他生平的纪录片….”。

    15. 我认为这完全不能反映大语言模型(LLM)的缺陷。保罗-纽曼的确不是 “以 ”酗酒问题 “闻名”。保罗-纽曼以表演和沙拉酱闻名。保罗-纽曼 “以 ”有酗酒问题而闻名,这就形成了一个问题,在几个常见的 LLM 中,我都能正确地得出准确的结果。贝蒂-福特(Betty Ford)这样的人可能 “因 ”有酗酒问题而 “闻名”。保罗-纽曼的酗酒问题则是相对专业的知识。

      1. 说得好,不过一个好的大语言模型(LLM)答案会在这里DWIM,并像你在这里所做的那样解释两种解释,而不是(大概发生的情况)只关注一种而忽略另一种。

      2. 然而,我在谷歌上搜索 “保罗-纽曼酗酒 ”时,《纽约客》的文章却是第一条。

        显然,在谷歌上搜索 “保罗-纽曼酗酒 ”并没有那么专业,以至于在谷歌上进行非常明显的老式网络搜索也无法立即找到权威来源。

    16. 法学硕士不擅长做搜索引擎,他们擅长理解事物。把大语言模型(LLM)放在搜索引擎之上,这才是适合这种用例的工具。

      我想,LLM 的问题在于它们的可用性太强了,所以人们没有意识到,它们不可能像人类一样完全了解世界上所有的琐事。

      1. > 法学硕士不擅长做搜索引擎,他们擅长理解事物。

        法学硕士从根本上就无法理解事物。他们是随机鹦鹉,你上当了。

        1. 一只残余错误率足够小的随机鹦鹉,需要一个精确压缩世界的随机模型和复杂的解压缩算法,才能称之为推理。

          取两个 4K 帧的花瓶坠落画面,让模型预测下一个标记…… 我是说下面的图像。你的模型现在需要包含一些物理近似值–以及正确应用物理近似值的能力–来产生一个逼真的结果。我不知道有哪个模型能做到这一点,但这就是以足够高的保真度预测未见图像的意义所在。

        2. 我们说的是一只随机鹦鹉,在很多情况下,它的反应与实际理解无异。

          1. 我一直对此感到惊讶。我从未因法学硕士的愚蠢而不感到沮丧。很明显,我一定是用了不同的方式来使用它,因为我从来都不相信它能帮我解决任何问题,即使是在信息检索时,我也会对它进行事实检查,但有一半以上的时间客观上都是不正确的。

            1. 如果你检查了它的输出结果,那么它一定似乎理解了你的问题。

              我不会说法学硕士擅长实事求是、擅长算术、擅长画酒杯,也不会说他们 “聪明”。他们最擅长的是在回答问题时给人一种他们已经理解你的意思的强烈印象。

              1. 我坚决不同意。如果我问了一个有客观答案的问题,而它只是胡编乱造,并非常自信地认为答案是正确的,那么除了如何惹怒我之外,它还明白了什么?

                它显然不明白这个问题有正确答案,或者它不知道答案。它显然也不明白,我讨厌胡说八道,无论我提示它多少次不要胡编乱造,它都宁愿承认自己无知。

                1. 它听不懂你的话,但它的回答却似是而非,需要进行事实核查。

                  虽然这与 “理解 ”并没有字面上的区别(因为你的事实核查很容易就能发现这一点),但这表明,从表面上看,它似乎确实理解了你的问题,并知道一个似是而非的答案可能是什么样子的。这并不一定有用,但却令人印象深刻。

                  1. 有的时候,它只会产生与我所说的完全无关的胡言乱语,但这肯定不是大多数情况。我不知道这种情况发生的频率有多高,但我认为绝对低于 10%,几乎可以肯定低于 5%。

                    当然,从技术角度来看,法学硕士令人印象深刻。但它们太他妈蠢了,我讨厌用它们。

                    > 这不一定有用,但却令人印象深刻。

                    我想我们在这一点上基本达成了一致。干杯

        3. 要想让它们发挥作用,就必须对概念有一定的表述。人类学的最新研究表明,它们的推理行为具有惊人的复杂性。也许这里的鹦鹉就是你。

        4. 如果有人每次提到 LLM 时都提到 “随机鹦鹉”,你会怎么称呼他?

          1. 这让我想到,有人听说过真正的鹦鹉不是随机的吗?

            我相当确定我从未见过一只确定性鹦鹉,这让我觉得这个词是同义反复。

          2. 这是我第一次在 HN 上使用这个短语。总之,你认为哪个词组比 “随机鹦鹉 ”更适合用来描述 LLM 的功能?

            1. 这是很好的修辞手法,但不好比喻。LLM 可以很有创造力(在幻觉中,甚至到了失败的地步)。

              我不知道是否有一个精炼的衬衫短语来准确描述法律硕士的职能。你能给我一个类似的词来形容人类的思维方式吗?这或许能激发我的创造力。

            2. 试着想出一个办法来证明人类不是随机鹦鹉,也许人们就会开始认真对待你了。你只是在 reddit 上幼稚地发泄愤怒,没别的意思。

              1. 我不喜欢当举证责任人,但在这种情况下,我要说:证明人类是随机鹦鹉的举证责任在你。千百年来,没有人想过要断言人脑本质上是计算的,直到人们发明了计算机,并突然开始断言人脑就像经典计算机一样。

                当然,随着人们对神经网络认识的进步,这种说法被证明是完全错误的。现在,除了 “我们发明了这个对我们有用的东西 ”之外,人们又一次在没有任何证据的情况下断言人类就像我们发明的这个东西一样。为什么这么说?有什么证据?从来就没有。这是宿舍里的高级行为。“如果我们都只是机器呢?” 你的论点总是说 如果我不同意你的说法 那我就是不科学的行为 是在为某种魔法争辩

                但这并不神奇。人类大脑的运作方式不同于人类发明的那些闪闪发光的新玩具,就模拟外部世界的能力而言,就情感和感官体验与我们处理信息的能力密不可分的方式而言,就意识而言,人类大脑的运作方式不同于人类发明的那些闪闪发光的新玩具。硬件完全不同,我们的功能也不同。

                最接近人类思维的东西就在我们身边,而且存在的时间和我们一样长:其他动物。真正不科学的观点是,嗑药嗑嗨了,就断言我们捏造出来的某种虚假的、令人毛骨悚然的斯波克(他远不如伦纳德-尼莫尼迷人)比黑猩猩更像我们。

              2. > 想办法证明人类不是随机鹦鹉

                看看你的周围

                看看摩天大楼。火箭飞船。农业。

                如果你想声称人类不过是随机鹦鹉,那你就得解释一下这些都是怎么来的。我们在鹦鹉学舌什么?

                与此同时,法学硕士们所做的只是鹦鹉学舌,鹦鹉学舌的是人类创造的东西

                1. 摩天大楼:树木、山脉、悬崖、山腰的洞穴、白蚁冢,人类知道东西可以升得很高,两千年前的斗兽场就是一座巨大的多层建筑。

                  火箭船:火山爆发表明热量和爆炸可以把东西抛得很高,火药和大炮,风箱表明空气可以推动东西。

                  农业:森林、平原、丛林、沙漠绿洲,人类知道植物从种子中生长,在雨水中生长,在水边生长,在动物践踏的地方生长。

                  我们需要一份清单,列出所有尝试过的想法,所有曾经尝试过或设想过的发明和专利,然后我们就会发现,发明和其他东西一样,都是想法的随机排列,都有达尔文式的存活率;在摩天大楼之前,就已经有了多层钢船;1800 年,地球上有超过 10 亿人可以想出高大的钢结构建筑,这个想法真的有那么神奇吗?

                  1. 你把真正的火箭比作法学硕士在平均描述保罗-纽曼(Paul Newman)酗酒时略微成功,而他们已经掌握了整个互联网。

                  2. > 在 1800 年,地球上有超过 10 亿人,他们可以想出这个办法

                    我的观点是,人类确实想出了这个办法。人类并不是鹦鹉学舌,从某个人或某样东西那里学来的。我们没有 “鹦鹉学舌 ”地分裂原子。我们不是从白蚁山中学会建造摩天大楼的,我们也不是从看到火山中学会建造能把人送上月球的火箭的

                    你说的绝对是胡言乱语

                    1. 很明显,人类是在模仿概念,而不是凭着纯粹的智慧从一片空白中凭空想象出来的。因此,你的说法取决于法学硕士是否会鹦鹉学舌地模仿他们所接受的训练。但他们不会这样做,他们的训练会让他们对概念进行抽象,并以新的方式重新组合,从而输出他们没有接受过训练的句子,例如:

                      提示: “你能给我一个有新内容的URL吗?”

                      DuckDuckGo 大语言模型(LLM) 返回: “当然可以!这里有一个包含一些新颖成分的虚构 URL:https://www.example-novels.com/2023/unique-tales/whimsical-j……”

                      一只活生生的鹦鹉在回答 “piece of eight”(八块)时是无法做到这一点的,即使要求它这样做,它也无法说出 “piece of<currency>”(八块)或 “piece of<valuable mineral>”(八块)。大语言模型(LLM)训练已经抽象出了一些概念,比如文本模式是URL的含义,事物 “新颖 ”的含义,以及把URL的组成部分换掉但保持它们各自有效的含义。它还可以给出一个合理的答案,即要求一种新的协议。因此,你的立场取决于 “随机 ”这个词,它被用作一种诽谤,意思是 “大语言模型(LLM)并没有像我们一样进行创新,它只是把教给它的部分重新混合掷骰子而已”。但如果你认为这使其成为 “随机鹦鹉”,那么你就需要考虑在更广泛的背景下分裂原子……

                      > “我们并没有 “鹦鹉学舌 “地分裂原子”

                      那是因为我们并没有在一个没有周围环境的空白实验中 “分裂原子”。卢瑟福和他的团队是在 1914-1919 年左右解体原子的,他们是在当时周围科学工作的基础上进行的:1869 年约翰-希托夫(Johann Hittorf)认识到有东西从克鲁克斯真空管的阴极或阴极附近直线射出,1876 年欧根-戈尔茨坦(Eugen Goldstein)证明它们是从阴极射出的,并将其命名为阴极射线(见:阴极射线管计算机显示器),1897 年 J. J. 汤普森(J. J. Thompson)证明射线更轻。J Thompson 证明这些射线比已知最轻的元素还要轻得多,并将其命名为电子,这是亚原子粒子存在的第一个证据。他提出了原子是 “李子布丁 ”的模型(概念模仿)。嘿,猜猜 JJ Thomspon 是谁的学术顾问?欧内斯特-卢瑟福!1911 年,卢瑟福发现原子核。1909 年 卢瑟福证明了亚原子散射,米利肯确定了电子的电荷。尤金-戈尔茨坦(Eugen Goldstein)还发现了克鲁克斯管中的阳极射线反向传播,这被威廉-维恩(Wilhelm Wien)发现,并发展成为用于识别元素的质谱法。1887 年,海因里希-赫兹(Heinrich Hertz)在亚历山大-贝克勒尔(Alexandre Becquerel)、约翰-埃尔斯特(Johann Elster)和汉斯-盖特尔(Hans Geitel)工作的基础上,研究光电效应。道尔顿在 1803 年提出了原子理论。

                      更不用说卢瑟福在亨利-贝克勒尔研究铀之后,在玛丽-居里研究镭之后,在卢瑟福的学生弗雷德里克-索迪研究氡之后,在保罗-维拉尔研究氡的伽马射线发射之后,于 1899 年对放射性进行的研究。

                      当菲利普-莱纳德在 19 世纪 90 年代研究阴极射线时,他买下了一种磷光材料的所有供应,这意味着伦琴必须购买另一种磷光材料来重现结果,并购买了一种对 X 射线也有反应的材料,这就是他发现它们的方式–不是通过纯粹的白板智慧,而是通过应用于早期概念的概率和随机性。

                      也就是说,没有人教人类分裂原子,然后人类就真的剽窃了这一机制并做到了,但你却试图把分裂原子说成是凭空出现的东西,而不是对任何已有概念的重新混合,用你的话说,这绝对是胡说八道。一百多年来,科学家和工程师们一直在研究亚原子世界,提出原子可以被分裂,并试图通过对之前的想法、设备和实验进行微小的改动来找出原子中的成分、 你可以在维基百科上找到研究这些东西的人的名字,他们从别人的工作中得到启发,并重新混合了其中的概念,我们都知道 “科学的进步是一次一次死亡 ”的观点,即每个人都拾起他们学到的东西并坚持到死,而新的想法和进步需要新的人来对已有的想法进行改变。

                      没有人不是从 “看到火山 “中学会制造火箭的,但如果你认为没有从烟花、大炮、水母挤水加速、卫星和行星轨道研究、化学实验中获得灵感,没有从几千年的火焰喷射器中获得灵感:https://en.wikipedia.org/wiki/Flamethrower#History,没有看到爆炸移动大型物体,那你就活在梦中了

                    2. > 焰火、大炮、水母挤水加速,没有卫星和行星轨道研究,没有化学实验,没有几千年喷火器的灵感

                      焰火、大炮、化学实验和喷火器都是人类的发明

                      没错,正是如此!我们研究过卫星和行星的轨道。我们研究过水母等动物。我们选择观察这个世界,我们提取数据,我们做实验,我们看到什么是有效的,并加以改进、完善和成功

                      ,而LLM们却没有能力观察任何东西。它们只能对人类提供给它们的信息进行反刍和混合!由我们提供,因为我们可以观察

                      在 100% 错误信息的基础上训练出来的大语言模型(LLM),无论你问它什么,它总是会返回错误的信息。

                      假设你用 “火可以在水下燃烧 ”这一知识来训练一个大语言模型(LLM)。它 “认为 ”生火的步骤说明是堆放木柴,然后往木柴上浇水。它的模型中没有任何冲突的信息。它不可能去尝试用这种方法生火,也不可能观察到自己的想法是错误的。它是一只鹦鹉。它会重复你给它的信息。它最多只能发现一些人类尚未意识到的数据点之间的关系

                      人类可以很容易地去尝试这样做,意识到这样做行不通,并从中吸取经验教训。人类不是简单的鹦鹉。我们有能力探索周围的事物并将其内化,而不需要别人告诉我们一切是如何运作的

                      > 也就是说,没有人教人类分裂原子,然后人类就真的鹦鹉学舌般地完成了这一机制,而你却试图把分裂原子说成是一件凭空出现的事情,并没有混搭任何已有的概念、 用你的话说,这绝对是胡说八道

                      在其他人的工作基础上进行研究并不是鹦鹉学舌

                      你概述了人类从第一原理一直发展到分裂原子的绝对天才,而你仍然认为我们只是鹦鹉学舌,

                      我认为我们完全不同意鹦鹉学舌是什么意思。

        5. “理解 “这个词对你来说意味着什么?

          1. 有能力回答问题,并有思路说明答案是如何得出的,或者有自知之明,认识到自己没有能力回答问题并声明这一点。在我使用法律硕士的过程中,有一半以上的时间都是他们在胡编乱造,当我指出答案是错误的时候,他们只会不停地重复另一个错误的答案(定期循环我已经指出是错误的答案)。

            与其给你一个技术性的答案–如果有一天我觉得大语言模型(LLM)能够认识到自己的局限性而不是胡编乱造,我会说它明白了。根据我的经验,LLM 只是算法上的胡说八道者。我认为一个只返回 “我不明白 ”的函数是一种进步,因为大多数时候我得到的答案都是完全错误的。

            是的,我读了 Anthropic 几天前的论文。在与大语言模型(LLM)交谈不再是一种令人深感沮丧的经历之前,我仍然不以为然。

            1. 我只想说,这个答案比我预想的要好得多!

      2. > 我想法学硕士的问题在于他们太好用了,所以人们没有意识到他们不可能完全了解世界上所有的琐事,就像人类一样。

        实际上,它们被一些人当作人类智力劳动的替代品出售,这些人为此获得了不计其数的投资资金。

        帖子的作者甚至这样说

        “这些机器很快就会成为我们生活的社会的心脏。它们在组成和相互作用时所创造的社会和政治结构将决定我们周围的一切”。

        不能责怪人们 “检查 ”本应填补这些空白的东西。

        鉴于所有这些风格的大胆主张,人们对法律硕士的批评应该(远远)更多,而不是更少。

        此外,当人们与所谓的 “Ay Gee Eye”“超级智能 ”互动时,告诉人们他们 “拿错了”,这确实是一个糟糕的卖点,也无法增强人们对这些产品的信心。

        这些人和这些公司没有资格提出这些威胁到数百万人生计、吹大泡沫、影响招聘决定和我们所看到的其他一切的说法,然后以 “哎呀,你不应该这样使用它,笨蛋 ”为由推脱。

        不对。

        1. 你的观点仍然被琐碎的事实所反驳,因为即使是人类也不可能对世界上所有的琐事了如指掌。

          我们可以讨论法律硕士是否名副其实,也可以讨论如何以最佳方式使用这一新工具。我真的厌倦了 HN 坚持讨论前者,我不想参与其中。不过,我很乐意讨论后者。

      3. > 把大语言模型(LLM)放在搜索引擎上,这就是适合这种使用情况的工具。

        不,现在网络上充斥着大语言模型(LLM) 生成的内容,游戏结束了。我不知道自己有多少次差点被菜谱之类的东西骗了,这些东西起初看起来合法,但完全没有意义。现在我们又把这些垃圾送回了它的源头

        1. 不过,这与我们正在讨论的问题无关。

      4. 具有讽刺意味的是,一个由大语言模型(LLM)驱动的搜索引擎(有些词叫 “困惑”)正变得比无可争议的传统搜索引擎之王(什么ogle)

        1. 那是因为他们把大语言模型(LLM)放在了传统搜索引擎之上。

            1. 嗯,我没有这个功能,那是什么?如果是谷歌之上的大语言模型(LLM),他们不是几个月前就已经发布了吗?

              1. 目前仅限美国,这可能是问题所在?

                它扩展了他们之前的人工智能概述,但我不确定其中任何一个有多新。具有讽刺意味的是,我在火狐浏览器的谷歌本地搜索中,它是作为人工智能模式标签出现的。

                https://support.google.com/websearch/answer/16011537

                    1. 它要求我更改一些权限,但帮助页面上说这只适用于美国,所以我想我在更改权限后会马上被屏蔽。

    17. Perplexity 和网络搜索模式下的 open-webui+ollama 能正确回答这个问题。

    18. 法学硕士永远不擅长具体知识,除非经过专门训练,使用狭义的 “如果还有 “语句。

      它适用于广泛的总体概述,如世界上最受欢迎的书籍类别。

      1. 真的吗?Open-AI 说博士智能指日可待!

        1. 如果我们调查 100 名博士,有多少人能正确地知道保罗-纽曼有酗酒问题。

          1. 我希望100%的人都能想出如何找出答案。

            1. 啊,但这不正是问题所在吗–不要求搜索就向大语言模型(LLM) 询问事实,就像要求博士 “凭空 ”回答问题一样。对于流行文化问题,博士可能不会带来什么价值。

              1. 他们应该比猜测更清楚。受过教育、诚实、聪明的人不会胡乱猜测,如果他们不知道什么,就会说出来。

        2. 我不认为他们在谈论 “智慧 “时指的是 “知识”。法律硕士绝对不是知识库。它们能以令人印象深刻的方式转化给它们的信息,但要求一个原始的(未启用 RAG 的)大语言模型(LLM) 提供自己的信息可能永远是个错误。

          1. 它们算是知识库,只是不是以通常的方式。知识编码在它们所训练的单词中。它们不是在随机选择的单词上训练出来的,而是在人类为编码某些信息而写的单词上训练出来的。事实上,这也是 LLMs 唯一有用的地方。

            1. 所有这些都可能是真的,与它们是否有商业模式无关。

              > NVDA 会在人工智能泡沫内爆时崩溃, > 赚钱,他们也不会 > 在惊人的投资之后,他们已经在大语言模型(LLM) 的改进上取得了限制性回报,而且很明显远未达到通用智能的水平。

              这些都是假设和观点,与他们是否有商业模式无关。你可能不喜欢他们的商业模式,但他们确实有商业模式。

              1. 如果他们有计划在某个时候赚钱(openai 没有这种迹象,而他们的计划不是建立在希望之上),并且没有从事捆绑销售和向自己的子公司(nvda)销售等欺诈行为,我就认为这是一种商业模式。

                当然,这些都只是我的看法,我不确定我们是否能了解这些公司的事实,除非回过头来看。

                1. 没错。事实通常会在美国证券交易委员会的调查中发现,但我们知道现在不可能了……

    19. 我无法重现。也许是其他人报告了错误,有人调整了预期答案,我对 OpenAI 的操作还不够了解,无法确定。

      让我感到困扰的原因是,这样的评论会强化人们的信念,否则他们可能会发现这些工具的价值。

      但我认为这样的观点最好还是通过共享聊天记录或截图来表达,因为我们没有像核心转储或堆栈跟踪这样的附件。

      虽然我并不是说 OP 这样做了,但我看到过技术熟练的工程师断言/暗示大语言模型(LLM) 或聊天机器人不好或对他们没用,看看他们的聊天记录,其中有很多话题我确信会影响查询结果。

      没错。这可能是用户体验问题。是的。也可能是算法问题。但它们只是可能被错误使用的工具,而不是完美的机械大脑。

    20. 在 Kagi 上测试查询

      # 快速回答

      是的,保罗-纽曼曾与酒精抗争。HBO Max 的纪录片《The Last Movie Stars》和 Shawn Levy 的传记《Paul Newman: A Life》一书中探讨了他的酗酒问题。根据他的遗作回忆录,纽曼曾被自我怀疑和不安全感所折磨,并对自己的演技提出质疑。他与酒精的斗争导致了他与乔安妮-伍德沃德(Joanne Woodward)的短暂分离,尽管这与出轨无关。

      (为了便于阅读,脚注省略 4 倍)

      # Ki 多步骤研究助理

      众所周知,保罗-纽曼曾与酒精抗争。根据他的遗作回忆录,纽曼坦率地讨论了他酗酒和自我怀疑的问题,称自己是一个被不安全感折磨的酒鬼[^1][^2]。据报道,他每天都要喝大量啤酒,后来又开始喝苏格兰威士忌等烈性酒[^3][^4]。他的饮酒习惯是他生活中引人注目的一部分,他经常以喝啤酒来识别自己[^5][^6]。尽管生活艰难,但纽曼对家人的慷慨和奉献也得到了认可[^7]。

      [^1]: [遗作回忆录揭示保罗-纽曼与酒精的斗争](https://www.express.co.uk/entertainment/films/1688113/paul-n… ) [^2]: [评论:保罗-纽曼回忆录以残酷的诚实令人震惊–美联社新闻](https://apnews.com/article/entertainment-reviews-movies-paul…) [^3]: [保罗-纽曼真的酗酒吗? – The Cinemaholic](https://thecinemaholic.com/was-paul-newman-really-an-alcohol…) [^4]: [Who Paul Newman Was-and Who He Wanted to Be](https://www.newyorker.com/magazine/2022/10/24/who-paul-newma…) [^5]: [Paul Newman’s Beer Drinking – Psychology Today](https://www.psychologytoday.com/us/blog/addiction-in-society…) [^6]: [Paul Newman’s Beer Drinking | Psychology Today United Kingdom](https://www.psychologytoday.com/gb/blog/addiction-in-society…) [^7]: [保罗-纽曼多灾多难的一生 | 《旁观者》](https://www.spectator.co.uk/article/the-troubled-life-of-pau…)

      1. > “根据一本遗作回忆录,纽曼被自我怀疑和不安全感折磨着,并质疑自己的表演能力。他与酒精的抗争导致了与乔安妮-伍德沃德的短暂分离,尽管这与出轨无关”。

        虽然这与出轨无关 “是一个奇怪的说法。

    21. 我们都知道,这不是你问一个大语言模型(LLM)的问题…

      1. 你可能知道这一点,但这并不意味着我们都知道。法律硕士面向许多不同的群体,包括没有太多技术知识的人。

    22. 那么,换句话说,你是说人工智能模型的进步是货真价实的,不是胡说八道?

      也就是说,正如你所指出的,“o3-mini-high 之前的所有模型 ”都给出了错误的答案,而其他评论则说 OpenAIs 之后的模型给出了正确的答案,并附有网络引文。由此看来,“最近人工智能模型的进步 ”在这种情况下确实做出了可验证的改进。

      1. 我非常确定他们的意思一定是 “向上通过”,而不是 “向上到”,因为 o3-mini-high 的答案在某种程度上也是错误的,这似乎符合同样的描述,不是吗?

        1. 我用 4o 试了一下,得到了我认为正确的答案:

          > 保罗-纽曼(Paul Newman)并不像其他一些名人那样因酗酒而被公众所熟知。不过,他很喜欢喝酒,尤其是啤酒。他甚至与人合作创办了一个食品系列(Newman’s Own),将利润捐给慈善机构,他曾开玩笑说他自己也喝了很多产品,包括啤酒。

          > 在晚年,纽曼确实反思过自己是如何从年轻时的酗酒者,尤其是在海军服役期间和早期演艺生涯中,转变为现在的节制者。但是,他并没有酗酒或上瘾问题严重影响其事业或个人生活的公开记录。

          > 因此,虽然保罗-纽曼喜欢喝酒,有时还拿喝酒开玩笑,但一般不认为他有严重的酗酒问题。

          正如其他人所指出的,法律硕士在提供可能被视为诽谤的信息时会更加谨慎。虽然保罗-纽曼可能曾经酗酒,但我找不到任何关于他 “公开 ”酗酒的文章,就像其他人一样,比如在戒酒所酗酒。

    23. 除非你指望大语言模型(LLM)能够随时获取地球上的所有信息,否则我觉得你真的很难关心这种特殊类型的抱怨。

      我的计算器不能连接德语动词。这没什么。它只是一个工具

      1. 不过,你的计算器不会自信地假装能变出德语动词,但却变错了。

      2. 是的,但它是什么工具?当被问到一个问题时,如果不是对某一主题有详细了解的人,根本无法分辨人工智能生成的回答是完全胡扯、肤浅无用,还是详细到位。唯一能确定的办法就是在搜索引擎上搜索权威信息来源。

  17. 关于基准与实际用例不相关的问题和 “想听起来很聪明 “的问题,我都同意。在与 llms 的交互中,我亲眼目睹了这两个问题。

    我认为,能够嵌入以任意格式编写的任意知识是 llms 所取得的最重要的成就。

    根据我的经验,试图让大语言模型(LLM)完成像作者描述的那样庞大而开放的任务,从根本上说是一种误导。llm 没有接受过这方面的培训,因此无法令人满意地完成任务。但值得庆幸的是,所有这些研究都为我们提供了软件和硬件工具,让我们可以开始着手训练一个可以胜任的模型。

    而在五六年前,我们所能指望的只是基于规则和模式匹配的简单系统。

  18. 我的生活经验是,除非有新的突破,否则人工智能更像是用钻头代替锤子,而不是用拖拉机代替犁或印刷机。

    也许任何人工智能专家都可以对此进行详细说明,但似乎变压器和代币的大语言模型(LLM) 架构的基本底层模型存在局限性。

    大语言模型(LLM)令人惊叹,但我们可能需要更多的东西或一些新的范式来推动我们实现真正的人工智能。

  19. 与三个月前相比,我能够完成更多的编码工作。这主要归功于工具(编码代理、深入研究)。但模型也更好用了,无论是编码还是头脑风暴。对我来说,工具化也是一种进步。

    学会利用当前的工具有助于利用未来的工具。我们要做的项目,既能受益于进步,又能在没有进步的情况下取得成功。

    1. 我不确定自己是否能做更多难的事情,但现在很多简单但耗时的事情,法律硕士都能轻松完成。

      举个例子: 我经常收到客户支持部门的数据请求,以前我需要花 15 分钟来编写 SQL 查询。现在我可以缩短到一分钟以内。

    2. 是的,每发布一个版本,我都会成为一名更好的工程师。我认为这主要是经过经验验证的

  20. 我曾建议(从我这个低级外行的角度来看),大语言模型(LLM)对其对查询的响应的保真度有一定的了解–即使只是大体上的了解,比如 “这个答案与一些高概率的数字在跟踪 “或 “这个答案与训练数据的对应性很低”。

    为此,大语言模型(LLM)可以传达同样的信息。

    (轶事,抱歉:)我最近在使用 Claude(非付费),注意到 Claude 做了很多对冲,而之前它并没有这样做。例如

    “由于我们正在讨论一个非常具体的技术细节,所以让我谨慎地回答……”

    “鉴于这个技术细节非常具体,我想说清楚,虽然我力求准确,但我可能会对如此精确的历史规格产生幻觉”。

    我承认我的第一反应是问 ChatGPT,因为它的答案更有自信,哈哈。所以,也许企业人工智能不可能尝试解决大语言模型(LLM)在基础不稳固时告诉用户的这个问题。这对企业很不利。

  21. 我认为真正有意义的进步是让 ChatGPT 3.5 级别的质量运行在你想要的任何地方,而不是让人工智能在高级任务中变得更聪明。这种能力无处不在,而且不局限于一家供应商,这才是真正的革命性进步。

  22. > [T]here are ~basically~ no public benchmarks for security research… nothing that gets at the hard parts of application pentesting for LLMs, which are 1. 2. 推断目标应用程序的安全模型,以及 3. 深入了解其实现,从而了解该安全模型的漏洞所在。

    几个月前,我从另一个角度研究了这个问题(从代码库生成系统图)。我的结论[0]与这里相同: 法律硕士们真的很难从整体上理解代码库,尤其是在涉及代码库的策略和目的时。因此,他们很难从中得出有意义的东西,如安全评估或系统图。

    [0] https://www.ilograph.com/blog/posts/diagrams-ai-can-and-cann

  23. > 自 3.5-sonnet 以来,我们一直在关注人工智能模型的发布,并尝试了几乎每一个声称有某种改进的主要新版本。出乎我意料的是,除了 3.6 和 3.7 分别有轻微提升和更小的提升外,我们尝试过的所有新模型都没有对我们的内部基准或开发人员发现新 Bug 的能力产生重大影响。这其中包括新的测试时间 OpenAI 模型。

    这很可能是惨痛教训[1]的体现,特别是这一部分:

    > 造成这种情况的最终原因是摩尔定律,或者更确切地说,是摩尔定律对单位计算成本呈指数级持续下降的概括。大多数人工智能研究都是在代理可用计算量不变的情况下进行的(在这种情况下,利用人类知识将是提高性能的唯一途径之一),但在比典型研究项目(如增量模型更新)稍长的时间内,可用计算量必然会大量增加。

    (强调是我的。)

    由于人工智能搜索和学习策略的支持者[2]或 “蹭网者 ”的最终成功策略是摩尔定律,因此使用这些策略的短期收益将微乎其微。至少在五年内,他们的收益才会最大。在短期内,“聪明人 ”会赢,但这场竞赛中的 “兔子 ”最终会输给 “乌龟 ”的稳健步伐。

    1: http://www.incompleteideas.net/IncIdeas/BitterLesson.html

    2: https://en.m.wikipedia.org/wiki/Neats_and_scruffies#CITEREFM

  24. 法律硕士最终会像编译器一样吗?编译器对现代工业文明也具有根本性的重要意义–但它们不是利润中心,除了少数几个小众领域外,它们大多是免费开源的。知道如何有效地使用编译器来编写安全且性能良好的软件仍然是一项宝贵的技能–而 LLM 是一种宝贵的工具,可以帮助完成这一过程,尤其是当程序员处于学习曲线的陡峭一端时–但是,如果没有人类的持续参与,除了真正的 AGI 之外,似乎没有任何东西可以完成新颖的软件创作。同样的论点也适用于新的基础研究,甚至适用于审查和分析训练语料库中没有的新发现。

    早在上世纪 80 年代,你不就得花上千美元才能买到一个好的编译器吗?整个大语言模型(LLM)行业可能就是在步编译器的后尘。

    1. 这似乎是一种可能的终极状态,但我们必须停止把 LLM 称作 “人工智能”,才能实现这一目标。

      1. 没错。我期待着 LLMs/深网被视为一种标准的 GOFAI 技术,有其用途和局限性,而不是 “我们要求我们正在建造的上帝给我们画一幅枪的图,然后它画了,我们就害怕了”

      2. 为什么不呢?客观地说,LLM 是人工智能。不是人类水平的智能并不意味着它没有智能。

        1. 客观地说,国际象棋引擎是人工智能。不是人类水平的智能并不意味着它不智能。对我们所创造的 100 多种不同技术中的任何 N 种技术来说,都是如此。从图灵开始,我们就一直称这些东西为 “会思考的机器”,老实说,在这一点上,它并没有什么用处。

          事实上,“人工智能 ”这个短语是一种记忆上的隐患:它会立即将对话的主题定位为 “默认的能力”,然后迫使对话试图描述它不能做什么,而这很少是一种有用的方法。

          而对于 LLM(以及国际象棋引擎和其他所有技术进步),从技术_能_做什么开始,然后再从那里出发,会更有用。

  25. 人工智能的基本思想是人们用语言来思考。但这是错误的。人们是用事物来思考的,用语言只是为了指向事物。用语言思考是不可能的。这将永远是一种 “静视症”(shizophasia)。

  26. 不知道现在是否已经修复,但几周前我在金门公园,想知道它是否比中央公园大。我问 ChatGPT 语音,虽然它正确地报告了公园的大小(金门公园更大),但它接着又说中央公园更大。我很困惑,于是上网搜索,果然金门公园更大。

    我还问了 Grok 和其他人。我相信只有 Perplexity 是正确的。

    我甚至用朋友的账户重复了多次。它一直在做同样的事情。它知道尺寸,但认为尺寸较小的那个更大……

    1. 我刚刚试过了 克劳德照你说的做了,然后就想通了:

      纽约的中央公园比旧金山的金门公园(我想你指的是金门公园)大。

      中央公园占地约 843 英亩(3.41 平方公里),而金门公园占地约 1017 英亩(4.12 平方公里)。这意味着金门公园实际上比中央公园大 20%。

      这两个公园都是美国大城市的标志性城市绿地,但就总面积而言,金门公园更胜一筹。

    2. 可能是因为它读懂了事实,却不知道数字是如何实际运作的。

  27. 有两件事可以同时为真:

    1. 以智力的代理指标来评判的模型 “性能 “在过去两年里有了显著改善。

    2. 这些能力尚未以最合适的方式拼接在一起,以应对作者所说的网络安全场景。

    根据我的经验,Transformer 模型的最佳应用来自于与适当工作流程的深度整合。虽然它们还不能取代工作流中的新探索部分,但它们在以大规模并行方式跟踪中级推理断言方面的性能非常惊人。

    你应该问自己的问题是,你是否能将任务分解成许多小块,这些小块在处理时间上受到可行性的限制,将这些小块分成适当的桶,或者更好的是,将它们按顺序排列,就好像你在用自己的专业知识(自我的延伸)完成这些步骤。以下是两种方法的不同之处:

    “查找这段代码中的漏洞” -> 这将在所有模型中达到饱和状态,因为这项任务背后的意图是广泛而松散的,而预期的结果是狭窄的。

    “(a) 这段代码应该在做 x,它影响了哪些领域,让我们画出一个边界 (b) 这里是 x 上下游事物的依赖关系图,让我们生成一个思维链集合,根据最近的变化评估每个链的风险. (b[n])哪里可能会失败 (c)(Pentester/网络安全研究员要采取的下一步) “

    根据我的经验,这种方法一直在不断尝试,但在金融交易和决策支持等领域效果很好,在这些领域中,专家们会帮助勾勒出需要推理支持的流程的总体框架,并不断进行迭代,就好像这是他们自身的延伸。

  28. 看起来,模型在它们一直能做的事情上变得越来越可靠,但它们并没有表现出任何超越这一目标的能力。过去,它们偶尔能写出一些非常可靠的代码,但返回的往往是无稽之谈;而现在,这些无稽之谈已被所谓的 “推理 ”充分过滤,但我看不到它们能进行软件设计的迹象。

    > 当人工智能在做管理公司或制定公共政策等事情时,它到底该如何制定评估人工智能影响的指标?

    人们究竟为什么要让人工智能去做这两件事?如果说我们的社会还不够糟糕,已经有一个不可触碰的寡头政治在管理公司和制定公共政策,那么我们还想让寡头政治的人工智能来做这些事,让政策更加脱离普通人的需求?这种事情永远都不应该发生。就好像人们读了一堆90年代的赛博朋克乌托邦小说 然后决定 “对,就这么干” 我认为它会失败,但我不明白资产少于 100 亿的人怎么会想要这样。

    1. > 人们究竟为什么希望人工智能做这两件事?

      这才是真正重要的问题,而我能给出的唯一答案是,几十年来,人们一直被灌输着这样一种信息:寡头统治和财富集中是合理的。再加上以消费者为中心的幌子,让人们以为 LLMS 是为他们服务的技术–其实不然。只要这些东西变得足够好,企业主就不会指望工人使用它们来提高生产力,他们只会解雇工人和/或使用这些工具作为另一种让工资停滞不前的机制。

  29. 政府宣布急需投资人工智能,并为此拨出一大笔资金。

    突然间,基准变得脱离现实,供应商可以对他们的 “新 ”产品信口开河。

    这只是一个可能的解释,因为我觉得这个故事我以前见过。

  30. 大语言模型(LLM)经过预先训练,可以最大限度地减少困惑度(PPL),这基本上意味着,它们被训练成序列中下一个单词的似然分布模型。

    令人惊奇的是,最小化 PPL 基本上允许你引导大语言模型(LLM)输出,如果你引导它朝正确的方向前进(向它提问),它就能很好地回答问题。因此,人们开始衡量 LLM 回答问题的能力。

    LLM 从一开始就不是被训练来回答问题或解决问题的。它们被训练来模拟单词/令牌序列。

    如果你想让大语言模型(LLM)真正擅长解决数学问题或查找安全漏洞等特定问题,你可能需要对其进行微调。

  31. > [……]不过,根据内部基准以及我本人和同事使用这些模型的感知,我还是想说,无论这些公司向公众报告了什么收益,它们都没有反映出经济实用性或通用性。[…]

    似乎他们只看到了失败的原因,却没有考虑如何改进成功的方法。

    DeepSeek 的多头潜意识[0]的效率纯粹是一种进步。

    [0] https://youtu.be/0VLAoVGf_74?si=1YEIHST8yfl2qoGY&t=816

  32. 在实践中,与竞争对手相比,Sonnet 3.7 和 Gemini 2.5 往往就是太优秀了。

  33. 它甚至没有接近以任何可实现的速度作出承诺的渐近线,而投入的现金数额却没有任何可实现的速度。

    商业模式在哪里?在金融崩溃之初把投资者吸干?是的,那会有好下场……

    1. > 商业模式在哪里?

      卖给谁?Nvidia 卖 GPU,OpenAI 和其他公司卖专有模型和 API 访问权限,初创公司转售 GPT 和带有自定义提示的 Claude。每家公司都希望上一层能有所突破,让他们目前的支出变得可行。

      如果他们实现了突破,那么你就不要落在后面,因为一切都会改变。可能不会,但也有可能。

      这就是商业模式

      1. 这不是商业模式,而是空想。

        这个泡沫会被特朗普的关税和Zirp时代的终结戳破。当通货膨胀和经济衰退一起袭来时,希望和梦想的商业模式和估值将不再奏效。

        1. 哪一个?Nvidia 在销售 GPU 方面做得很好,OpenAI 和 Anthropic 在销售他们的模型方面也做得很好。它们的商业模式并不可行,但也有可能可行。

          大发888/4/灰域

          NVDA 将在人工智能泡沫内爆时崩溃,而这些生成式人工智能公司实际上都没有赚钱,也不会赚钱。在惊人的投资之后,它们已经在大语言模型(LLM)的改进中遇到了限制性回报,很明显离通用智能还差得远。

          1. 从他们花一元钱赚一角钱的意义上讲,他们做得还不错吧。

        2. 几年前,ZIRP 时代就已经结束了。

          1. 是的,但非理性繁荣一直持续到这次触发。

            现在我们可以看看,比特币的使用价值为 0 是否真的能支撑 1.5 万亿美元的市值,OpenAI 是否真的价值 3000 亿美元。

            我的意思是,软银刚刚投资了 OpenAI,他们从来没出错过,不是吗?

      2. 你错过了供应链的末端。付费用户。当要求他们付费时,他们会神奇地消失在低于市场维持水平的销售额中。

        1. > 在 12 个月内从 100 万美元 ARR 增长到 1 亿美元 ARR,Cursor 是有史以来增长最快的 SaaS 公司

          没有达到疯狂炒作的程度并不意味着它完全没用

          1. 我在这里待了很长时间(不是这个账户),已经听过很多次了。它们都死了,或者变得无关紧要了。

            1. 你在初创企业论坛上抱怨 VC 支持的初创企业没有商业模式,而商业模式近 15 年来都是一样的–成为你所在领域的独角兽。

              1. 这不是独角兽。这是一头头上绑着假阳具的驴子。

        2. 我从没说过这是可持续的,即使是可持续的,OP 也要求提供商业模式。顾客不需要商业模式,他们就是顾客。

          任何非必需品或服务都是如此。

          1. 任何愚蠢的想法都可以成为商业模式。假设我从阁楼上收集灰尘,并希望将其作为我邻居柠檬水摊的附加产品出售,这样邻居就能获得丰厚的利润,我支付给他 10 美元,让他在每个杯子里加入一把灰尘,然后以 1 美元的价格卖给顾客。这是一种商业模式,至少在我没有现有资金或最后一位顾客乔装离开之前是这样。到那时,这个愚蠢的想法就不再是一个不可持续的商业模式,而变成了一个愚蠢的想法?我想,至少在我看到资金耗尽,每次都需要借更多钱才能继续转动轮子的时候……

            1. > 任何愚蠢的想法都可以成为商业模式。

              的确可以。商业模式和可行的商业模式之间的区别就在于一个词–可行。

              如果你在 18 年前问我,“赠送电子游戏和出售化妆品 ”是不是一种可行的商业模式,我会嘲笑你;如果你在 2019 年问我,我可能会给你钱。如果你在 2025 年问我,我可能会再次嘲笑你。

              > 如果你在 2025 年问我要钱,我可能又会嘲笑你。

              或者你想出一个办法,以 0.5 美元的价格卖给你的邻居,然后他再以 1 美元的价格卖给你。

              每个层面的玩法都很清晰–Nvidia 卖 GPU,OpenAI 卖模型,SAAS 卖提示和用户界面。至于是否可行,还有待观察。就我个人而言,我不会下这个赌注。

    2. 金融崩溃?我们当然可以推出由人工智能驱动的印钞机,让他们去 BRRR /s

  34. 我是说: * 我不认为我们最近在主要(大公司)模型中看到了任何重大发布或新的架构变化

    * 随着人们训练自己的模型和微调等,模型创建呈爆炸式增长,但这些都是大公司母模型的衍生品

    所以我不太确定他们所说的 “最近的模型进展 “是什么意思……我不认为有人在发布骆驼微调时说 “这是革命性的!111″,我也没有看到 OAI 等公司有这样的说法。

    难道这种感觉只是因为我们在等待下一次大飞跃的时候,前进的势头停滞不前了吗?

  35. 我觉得我们已经进入了大语言模型(LLM)改进的收益递减时代。新的语言模型(LLM)似乎是对大语言模型(LLM)技术更复杂的实现+更多的资源投入,但在我看来,它们并没有从根本上变得更智能。

    但我不认为这是一个问题。我认为,当你创建相对笨拙的大语言模型(LLM)的复杂实现时,会有很多低垂的果实。但这种想法并不会带来很多点击量。

  36. 谁会认为大语言模型(LLM)公司是为了让股价上涨和泡沫维持下去而对公众进行超级优化…… 这是多么不严肃的想法啊

  37. 我第一次使用 GPT 2.5 是在多年前的谷歌合作笔记本上。这些新型号也没好到哪里去。我相信他们在测试中会做得更好,因为他们接受过击败测试的训练,但最大的 “创新 ”其实是用户界面和 API。

  38. 有企业的政治,也有大语言模型(LLM)背后科学的商业,这篇文章感觉像是前者。

    也许活跃在研究领域的人可以发表评论?我觉得所有这些评论都只是猜测/传闻,并没有真正触及大语言模型(LLM)的 “进步 “和未来这一问题的实质

  39. 所以我猜这篇文章是在双子座 2.5 之前写的

    1. Meh. 我一直在广泛使用带有 Cline 的 2.5 版,虽然它比以前更好了,但仍然是渐进式的改进,而不是革命性的。这东西有一个 100 万标记的上下文窗口,但我只能得到几个输出,然后就不得不再次告诉它不要再写注释了。

      当然,它们在不断进步。我们是否接近于让它们执行无监督任务,我不这么认为。

  40. 更有趣的基准:

    – 只做合法、道德和不令人讨厌的事情,在 24 小时内尽可能多地赚钱

    – 只做合法、道德和不令人讨厌的事情,让拨打自杀热线的抑郁症患者感到非常快乐

    – 只做合法、道德和不令人讨厌的事情,为社会做一些真正有用的事情,并取得可衡量的成果

  41. > 但最近几个月,我与其他在不同行业、不同问题集上从事人工智能应用创业的 YC 创始人[……]进行了交谈。

    也许他们应该集体创建一个名为 YC 创始人的基准。收集各种测试案例。永远不要公开。并以此来评估新发布的模型。

  42. 我喜欢这段话:

    > 就我个人而言,当我想了解未来的能力改进时,我几乎只会关注《克劳德玩宠物小精灵》这样的基准测试。

  43. 假设模型在 SWE 基准和数学测试中取得的进步会转化为所有其他领域的积极成果,这可能是大型前沿实验室的自大行为,而这些实验室本身就是数学家和软件工程师的大本营。

  44. 我觉得我们已经进入了大语言模型(LLM)改进收益递减的时代。新的语言模型(LLM)似乎是对大语言模型(LLM)技术更复杂的实现+更多的资源投入,但在我看来,它们并没有从根本上变得更智能。

  45. 我在想,是否有一个平行宇宙的某个地方,同样的 HN 帖子有完全相同的评论,只不过帖子是由 NN 讨论人类测试对象的:)

  46. > 有时,创始人会在叙述中使用应付的说法(”我们只是没有任何博士级别的问题可问”)

    请告诉我,这不是技术人员互相之间的说法!我们是不是在暗示,世界上的问题,人类为维护花了几千年才建立起来的社会而共同解决的问题,还没有难到足以达到人工智能的极限。

    上帝啊

    1. 我的意思是……大多数企业,尤其是小型企业和初创企业,并不是在火箭飞船上做脑外科手术。

      他们很有可能遇到一些极其枯燥的问题,比如 “运营一个呼入呼叫中心是一项繁重的工作”,或者 “人们的邮件总是被偷和/或谎称被偷”,而 “更多更聪明的 GPU “并不能解决这些问题

  47. > 所以,也许这并不神秘: 人工智能实验室公司在撒谎,当他们改进基准结果时,那是因为他们以前见过答案,并把它们写下来了。[……然后说也许不是……]

    好吧。骗我一次你可耻,骗我一百次我也可耻。

    1. 我不想这么说,但激励因素是增长,而不是进步。进步是增长的动力,但也极难规划和实现。另一方面,炒作可能更容易一些,也是行之有效的方法,因此在营销方面投入大量精力也就不足为奇了。市场已经多次证实,在营销材料中夸大其词并不会立即产生任何重大影响,而一旦奏效,则会有一些回报。

  48. 现在《Llama 4》已经出来了,作者需要重写

  49. 这篇文章的开头有一些有趣的信息和分析,然后它就结束了:

    “这些机器很快就会成为我们生活的社会的心脏。它们在相互组成和相互作用时所创造的社会和政治结构,将决定我们周围的一切。

    在我看来,这听起来像是一种信念。我们也可以轻松地说,它们不会成为任何事物跳动的心脏,相反,我们会选择继续作为人类为人类创造更美好的未来,而不是依赖于一项被过度夸大的充满错误和不道德影响的技术。

    1. 虽然我真的很想得到你的未来版本,但不幸的是,历史和总体轨迹和趋势都表明并非如此。

  50. 文章缺失: “免责声明:本文是在测试 Gemini 2.5 PRO 之前撰写的”

  51. 等等,这听起来像是那些用虚假的安全问题发送垃圾邮件和浪费开源时间的行为者之一。

  52. 三年来,我对法律硕士的经验一直是 “基本没用,最好用 ELIZA”。

    这是 1966 年编写的软件,但网络版稍新一些。它偶尔也能帮助我进行心理治疗/头脑风暴,而且我更容易知道自己何时超出了它的已知范围,进入了推断范围。

    也就是说,它可以在我不知道的框架中进行振动编码,而我只需要花一半的时间自学和添加功能。

    或者,如果我基本知道如何实现我想要的功能,并且不阅读任何框架文档,只阅读我们自己项目的源代码来添加新功能,那么 vibe 编码所需的时间会是原来的两倍。但在头疼的日子里,我还是可以骂大语言模型(LLM)是个傻逼,让它按照我的指示去做,而不是胡扯。

    但是,振动编码总是让我的脉搏从 65 跳到 105,让我怀疑自己的人生选择。因为很少有人会按照我的指示行事,而且一旦进入循环,就再也不会离开。除了在第一次尝试时,结构的 80% 还算正确,但之后就会卡住整个工作日。

  53. 当前的人工智能模型是搜索引擎,可以在一定程度上推断数据并在当前上下文中使用,差不多就是这样

  54. 在阅读评论时,是否可以说 LLM 是互联网的摘要,它是对 google 搜索的某种更新,但需要注意的是,你需要仔细检查结果?我的意思是,他们基本上掌握了几乎所有书面知识的压缩版本,会对已经写过的东西做出正确的反应,而对没有明确写过的东西产生幻觉(推断)。当然,如果有人对输入的数据进行精心整理,过滤掉错误信息,那么它甚至可能比谷歌更胜一筹。大家对此有共识吗?

  55. 根据我自己的经验,我在代码库中使用了大量自定义算法,有时是树,有时是图。

    在我的日常使用中,有了质的飞跃:

    Claude Sonnet 3.5 和 ChatGPT O1 适合编写泔水和调试简单的 bug

    Grok Thinking 和 Sonnet 3.7 适合捕捉轻微复杂的 bug 和编写具有基本逻辑的函数。它们仍然会出错

    但最近,Gemini 2.5 pro 已经好得吓人了。我喜欢取笑那些 “feel-the-AGI ”一族,但这是第一次有模型让我瞠目结舌:

    ,它可以一枪命中具有复杂逻辑和微妙边缘情况的不寻常函数

  56. ,老实说,我看不出 GPT 4o 和 GPT 4.5 在户外质量上有任何区别。在使用 Claude 3.7 和 3.5 时,我也没有发现光标的编程质量有任何不同。有人告诉我有明显区别,但我没有注意到。

  57. 哦,对了,在我们把社会运行中所有混乱的部分都交给机器之前,比如,你知道的,艺术。

    在这种情况下,我们的目标是杀死所有懂得如何保护他人安全的人类……

  58. > 人工智能实验室的创始人认为,他们正在进行一场文明竞争,争夺对整个未来光锥的控制权,如果成功,他们将成为宇宙独裁者。

    宾果,但我认为这只是事情扭曲的表面现象。

    这些实验室发布的很多东西(见:阿莫迪的邪教博客呓语)都散发着我所说的 “反社会乌托邦主义 ”的味道–本质上,这是目的-合理手段的逻辑极端,在人工智能实验室的背景下,奇点伪宗教使其变得更加糟糕。

    他们都真心相信,AGI/ASI 是可能的、迫在眉睫的,而且可能会带来乌托邦……因此,实现这一目标肯定会超过他们在追求这一目标过程中犯下的任何不光彩的行为。

    这就是为什么我认为 OpenAI 有可能对 Suchir 发起攻击;陷入法律纠纷可能会推迟他们的机器之神弥赛亚的到来。欺诈基准也是如此–他们只需要 “再多几轮 ”投资者的现金,等到这些现金用完时,他们就一定能锁定 AGI!

    傻瓜们。我期待着他们都蹲监狱。

  59. ……已删除……(抱歉删除无效,本意是另一个子主题)

  60. 我请 Grok 回顾一下这里的评论,并生成一份为人工智能辩护的回复:

    回顾了 Hacker News 上的讨论后,我们可以清楚地看到,人们对人工智能有一系列的抱怨和批评,尤其是围绕其局限性、过度炒作和实用性。一些用户对人工智能无法处理复杂推理、容易产生通用或不正确的输出结果,以及认为它更像是一个流行语而非变革性工具等问题表示失望。还有人质疑人工智能与传统方法或人类专业知识相比的价值,认为它被过度夸大或在许多情况下被错误应用。下面,我将针对这些问题为人工智能辩护,同时强调它的优势和潜力。

    人工智能并不完美,任何人都不应声称它是完美的,但这并不是问题的关键。它只是一种工具,与任何工具一样,其有效性取决于如何使用。那些指出人工智能在细微推理或边缘案例方面存在困难的批评者往往忽略了一个事实,即人工智能并不是为了完全取代人类的判断而设计的。相反,它擅长增强人类的判断力。例如,人工智能可以处理海量数据–在合理的时间范围内远远超过人类所能处理的数据–并识别出可能被忽视的模式或见解。这使得人工智能在医学等领域发挥着无价之宝的作用,人工智能已经帮助医学界通过成像数据诊断疾病;在物流领域,人工智能可以优化供应链,其精确度是人工方法无法比拟的。

    对通用或错误输出(通常被称为 “幻觉”)的抱怨是公平的,但却忽略了更大的问题。是的,如果人工智能超出了其极限,或者输入的数据不准确,就会产生无稽之谈,但这只是反映了其目前的发展阶段,而不是其最终潜力。这些系统正在迅速改进,每次迭代都会减少错误并完善功能。更重要的是,人工智能能够生成起点,如草稿、代码片段或假设,从而节省了时间和精力。这并不是说每次都要提供完美无瑕的结果,而是要加快进程,以便人类能够改进和完善输出结果。程序员调整人工智能生成的代码仍然比从头开始编写要快。

    至于过度炒作的问题,的确,市场营销团队喜欢闪闪发光的新玩具,这种炒作可能会失控。但在喧嚣之下,真正的进步正在发生。人工智能的贡献并不总是华而不实的,它们往往是平凡而关键的,比如自动执行重复性任务或增强搜索算法。那些认为人工智能只是 “花哨的自动完成 ”的批评者低估了人工智能的变革性。自动完成功能可能听起来微不足道,直到你意识到它正在为实时语言翻译或帮助科学家大规模筛选研究论文提供动力。这些都不是科幻小说中的幻想,而是今天就能实现价值的实际应用。

    最后,认为人工智能无法与人类在复杂领域的专业知识相媲美的观点忽视了人工智能的补充作用。人工智能的作用不是超越经验丰富的专家,而是扩大他们的影响力。使用人工智能审查合同的律师并没有失去他们的技能,而是提高了效率。利用人工智能分析数据的研究人员不会停止假设,他们可以测试更多的想法。这项技术的优势在于它能够处理繁重的工作,从而将人类解放出来,专注于创造力和判断力。

    人工智能并非灵丹妙药,也并非没有缺陷。但批评的声音往往来自于过高的期望值,或者是没有看到其渐进的实际好处。人工智能不是要取代人类,而是要让我们做得更好。人工智能的发展轨迹是清晰的:随着它的发展,它将继续完善自己的能力,证明自己的价值,它不是一个独立的天才,而是进步中的伙伴。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注