【外评】为什么似乎没有人在意人工智能给出了错误的答案?
如果有一段代码或软件有时会产生完全错误的输出,我们会认为这是一个错误。
然而,对于人工智能,所有的投资者/创始人/PM 似乎都不太在意,反正就是推出一款坏掉的产品。
看到所有人工智能产品的输出结果都是错的,我都快疯了。
这就像一个巨大的集体错觉,我们只是忽略它,或者挥挥手,认为它最终会神奇地得到修复。
你也许感兴趣的:
- 我受够了维护 AI 生成的代码
- 【外评】作为全栈开发人员如何跟上 AI/ML 的发展?
- 大模型集体失智!9.11和9.9哪个大,几乎全翻车了
- 【程序员搞笑图片】AI 编程
- 【外评】黑客工具可提取 Windows 全新人工智能 Recall 功能收集到的所有数据
- 【外评】如果人工智能能胜任你的工作,也许它还能取代你的首席执行官
- 【外评】人工智能提供假冒的 Facebook 客户服务电话导致一男子陷入骗局
- 【外评】训练与聊天不同:ChatGPT 和其他 LLM 不会记住你说的每一句话
- 【外评】让Windows完全回忆(Recall)用户所做的一切是一个隐私雷区
- 【外评】披萨上的胶水?两只脚的大象?谷歌人工智被媒体嘲讽
我的研究生研究就在这个领域。我的实验小组开发了用于各种地面和太空探索任务的蜂群机器人。我花了很多时间探究为什么我们的蜂群机器人会出现病态行为障碍–从建筑项目中逃跑、互相掩埋等等。这个问题对我们的机器学习方法至关重要,以至于在我离开之前,我们从未找到可靠的方法来解决这个问题。无论我们如何重新配置神经网络、训练、惩罚、剥夺、强制遗忘或微调,似乎都无法消除灾难性的行为边缘案例–除了大幅简化神经网络。
当我开始在我们的机器人身上看到这些行为后,每次深入研究拟议的 ML 系统(自动驾驶汽车、机器人助手、聊天机器人和 LLM)时,这些行为就会变得更加明显。
当我有时间反思我们所面临的挑战时,我认为神经网络很快就会趋于过拟合,而深度神经网络的过拟合程度更是无与伦比。这种情况使它们对隐藏吸引子非常敏感,当系统接近这些区域时就会崩溃–灾难性的崩溃。
如何定义 “近”?这必须使用某种拓扑方法来确定。但这些系统非常复杂,我们无法分析其网络拓扑结构,甚至无法对其激活进行粗暴的探测。此外,网络越大、越深、连接性越强,找到这些隐藏吸引子就越有难度。
十年前,我就被这个问题困扰过,而今天我所看到的一切都没有减轻我的担忧。我们正在构建更大、更深、连接更多的网络,前提是我们最终会达到一种难以想象的过度拟合状态,从而重新变得稳定。我对这种想法感到不安,也对大量资金不顾一切地流向这个方向感到不安。
我相信我在一部纪录片或其他电影中看到过这项研究。我是不是记错了。
我不知道我们出演过什么电影。我们为各种合作拍摄了很多机器人试验,但没有拍摄纪录片。我离开后不久,我们团队的 “月球方舟 “项目获得了一些赞誉(这真的很酷)。但是,那时我已经离开好几年了。如果他们拍摄纪录片,很可能就是为了那个项目。
就我个人而言,我和与我交谈过的人越来越少使用 LLM,因为它们经常出错。有一天,我向 ChatGPT 询问 Java 中一个特定的内置方法,它告诉我这个方法不能做一件特定的事情。我当时已经在使用这个方法了,所以我推了回去,它说:”哦,是的,你是对的,对不起”。
我觉得我不能相信它说的任何话。我主要是用它来解析我不明白的东西,然后自己验证它是否正确。
说了这么多,从我的角度来看,他们正在失去一小块阵地。另一方面,运营它们的大公司不希望自己的金鸡母被煮熟。因此,他们不断地把它们推向市场,不必要地把它们塞进所有东西里,而我们只能吃。
因此,我认为这是一个观念问题。公司希望我们认为它超级有用,这样他们就能继续获得创纪录的利润。而我们其他人则慢慢意识到,如果他们自信地告诉我们错误的答案,那么他们是多么无用,并开始远离它。
所以,你可能只是看到了狡猾的营销在起作用。
> 我已经在这种情况下使用它了,所以我推回去,它说:”哦,是的,你是对的,对不起”。
同样的事情也发生在我身上。我询问乌克兰语名词的所有情况,它列出并描述了六种。
我回答说有七个。”哦,对”。然后它又列出并描述了第七个。
这不比我参加考试好多少,我为什么要依赖它,或者使用它呢?
如果你觉得绝对有必要只和那些不会犯错的同事一起工作,我想你可能是一个人工作吧?
事实上,我大部分时间都是一个人工作,我是一名卡车司机。但这与我的怀疑态度无关。
同事会学习,chatgpt 不会。
如果你的同事犯错的速度和 ChatGPT 一样快,那么你不想和这个同事共事可能是完全合理的。
人无完人。但 “会犯一些错误 “和 “自信满满地频繁出错 “是不一样的。区别很重要。
炒作正在消退,因此使用率也在下降。
但你必须承认,它仍然有用,使用率不会降为零。
因此,如果你和一个人打交道,他知道与某个领域相关的所有词汇,能就该领域造出结构严谨的句子,而且听起来很自信,这几乎总是意味着他花了很多时间研究该领域。这往往意味着,尽管他们偶尔会犯错误,但通常都是正确的。人们把同样的直觉用在法学硕士身上,但因为法学硕士不是人(也不聪明),所以这种直觉有很大偏差。
此外,没有简单(甚至中等难度)的方法来解决法律硕士这方面的问题,这意味着我们要么选择 2)承认这是一个利基产品,在某些情况下有用,但对大多数情况并不适用。
方案 1 意味着你会得到一大笔钱(至少在一段时间内)。方案 2 则不然。
是的。我认为这是正确的。他们的行为和问题描述中的拟人化是有缺陷的。
这正是我们在学习神经网络的早期所学到的类比:层分析曲线、直线段、边缘、大小、形状等。但是,当我们观察激活模式时,我们会发现它们并没有做任何类似的事情。它们看起来像是随机相关,而激活模式几乎完全是随机的。
同样的事情也在这里发生,只不过规模大得难以理解,而且人们的财富都沉入了希望之中。
即使是人类说话者,这也不是一个完全安全的假设,某种类型的欺诈者在很大程度上依赖于人们做出这种假设(特别是像 L Ron Hubbard 这样的人,喜欢以一种无意义的方式使用不同领域的专业语言,这对某种人来说极具说服力)。但法学硕士几乎就是为了利用这种特殊的认知偏差而设计的;这里确实存在很大的危险。
同意。乐观的设想是,在接触了这么多 “产生幻觉 “的法律硕士之后,人们会变得更善于发现人类身上的相同之处。不过,我承认这只是乐观的设想。
我发现,”智力 “本来就是一个不可靠的概念,但法学硕士们却把这个概念彻底扔进了垃圾桶。当有人说 “法学硕士不聪明 “时,我认为这是一个信号,表明我不应该过多地关注他们的其他观点,因为如果你还没有意识到你对聪明没有一个很好的定义,那么你还有什么没有意识到的呢?
> 当有人说 “法学硕士不聪明 “时,我认为这是一个信号,表明我不应该过多地关注他们的其他观点,因为如果你还没有意识到你对聪明没有一个好的定义,你还有什么没有意识到呢?
那么,你对 “智能 “有一个很好的定义,而且适用于法律硕士?请告诉我们!并解释一下这个定义是如何无懈可击,以至于你知道所有说法学硕士不聪明的人都是错的?
> 所以你对 “聪明 “有一个很好的定义,而且适用于法律硕士?
不,我觉得这就是我要说的重点。
我相信还有很多我没有意识到的问题,但值得指出法学硕士并不聪明的原因是,他们的助推者经常把他们称为 “人工智能”,而其中的 “I “代表 “智能”,所以指出他们贴的标签并不准确是很重要的。
既然如此,你觉得这个标签可以贴在哪个人工智能系统上?
我觉得没有。许多研究人员曾试图让这个领域改用 “ML”,因为它是一个更准确的标签,但它的炒作效果并不好,这似乎是决定性因素。
十五年前,我读硕士时的专业是 “机器学习”。当时,人工智能还只是外行人的叫法。
如果你的论点是 “这不是 AGI”,我想没有人会反对,但这有点同义反复。
在这种情况下,”LLMs “比 “AI “更合适。
LLMs 不是事实数据库。它们没有接受过检索或生成事实陈述的训练。
LLMs 会在一些先验词之后给出最有可能的词。它们在估计下一个单词的概率方面准确度令人难以置信。
使用自动回归下一个单词预测来制作聊天机器人是一个奇怪的意外。更奇怪的是,你可以向聊天机器人提问,向它提出请求,而它似乎也能做出连贯的回答和回应。
最好将 LLM 视为语言生成器(或 “作家”),而不是知识和事实的存储库。
LLM 聊天机器人是一个令人愉悦和着迷(对某些人来说非常有用)的意外。但它们并不是被设计成 “事实正确 “的,而是被设计成预测词语的。
人们并不关心(或愿意接受)”错误答案”,因为有足够多的 “写作 “用例并不需要事实的准确性。(例如,小说写作的整个流派)。
我想说的是,正是 LLM 能够摆脱 CS 其他部分对准确性的严格要求,而只是撰写/幻想一些虚构的内容,才是这项技术迷人和独特新颖之处。
> LLM 聊天机器人……不是为了 “事实正确 “而设计的,而是为了预测单词而设计的。
对于这个问题,我认为 LLM 的设计目的不如它们的宣传目的重要,例如:”获取答案。
“获取答案。寻找灵感。提高效率。免费使用。轻松试用。只要提出要求,ChatGPT 就能在写作、学习、头脑风暴等方面提供帮助。” https://openai.com/chatgpt/
未提及预测词。
> 最好将 LLM 视为语言生成器(或 “作家”),而不是知识和事实的存储库。
没有可靠知识或事实的 “语言生成器 “的效用极其有限。这种语言的专业术语是 “胡说八道”。
> 人们并不关心(或愿意接受)”错误答案”,因为有足够多的 “写作 “案例并不需要事实的准确性。(例如,小说写作的整个类型)。
小说,或者至少是好的小说,需要事实的准确性,但不是你从百科全书中回忆东西的那种事实准确性。例如:关于在某个时间或地点生活在这个世界上是什么样子的事实准确性,这样你才能创造出可信的环境;或者关于人类心理的事实准确性,这样你才能创造出可信的人物。
我认为,你在小说中谈论的是连贯性(内部一致性),而不是事实准确性(与外部可验证的基本事实的一致性)。
我还认为,连贯的废话的经济价值……相当高。许多人都以制造连贯的废话为职业(有些人甚至制造不连贯的废话:-)。
当然,从长远来看,事实的准确性比胡说八道更具经济价值。
> 我想说的是,你在小说中谈论的是连贯性(内部一致性),而不是事实准确性(与外部可验证的基本事实的一致性)。
不,我说的是 “事实准确性(与外部可验证的基本事实保持一致)”。仅有内部一致性是不够的:在一个虚构的世界里,每个人在看到闪光灯时都会自残,这样的世界是一致的,但缺乏事实准确性,因此是垃圾小说。
> 我还认为,连贯的废话的经济价值……相当高。许多人都以创作连贯的废话为职业(有些人甚至创作不连贯的废话:-)。
我同意连贯的废话有(贪婪自私的)”经济价值”,但它也有负面的社会价值。这基本上是一种骗局。
在我看来,法学硕士的一些最佳应用领域是垃圾邮件和骗局,而不是他们所宣传的乌托邦式的胡说八道(例如,某些法学硕士会比医生更好、更快、更便宜地诊断出你的疾病)。
我也没有找到一个人类能正确回答每一个问题。你知道该向谁提问,这取决于这个人的专业领域。人工智能的专业领域无所不包(据说)。
困难的是评估回答,但我们不要假装这在与人类互动时更容易做到。专家总是给出错误的答案。一般都是其他专家指出同行提供的错误答案。
我的解决方案是什么?查询多个 LLM。我希望有三位,这样我就能确定答案的法定人数,但我只有两位。如果他们同意,我就有理由相信答案是正确的。如果他们不同意,那就需要深入调查了。
对于你的观点,没有人期望这些系统是无懈可击的,因为我认为我们直观地了解到,没有什么是无所不知的。如果有人就这个话题写了一篇论文,我们也不会感到惊讶。
这是支持使用 LLM 的常见论据: “嗯,人类也会这么做”。
我们有许多与人类打交道的规则、条例、策略、模式以及管理者和管理哲学。
对人类而言,这些规则、策略和模式有时是不正确的,是的,我们会积极规避它们的失误。
我们期望人类随着时间的推移不断发展。我们希望他们加入一个行业,并经常给出糟糕的答案。随着时间的推移,我们希望他们能提供更好的答案,如果他们不能提供更好的答案,我们会采取补救措施,限制他们对我们业务流程的负面影响。我们会解雇他们。我们建议他们转到其他学科。我们建议他们去上大学。
将法律硕士的成败与人类相提并论是愚蠢的。我们早就把他们全部开除了。
最大的区别在于,计算机可以答对每一道题。他们比人类强。法律硕士是我们从计算机中获益的一大退步。
此外,人类可以说 “我不知道”,而这对于法学硕士来说似乎是不可能的。
对我来说,更有用的是 “我不确定 “或 “我非常确定”,但法学硕士无法向你提供确定程度。他们对任何事情都非常确定,包括他们编造的事情。
> 最大的区别在于,计算机可以答对每一道题。
我坚决不同意这一点。从目前来看,还没有人能够证明,哪怕是在原则上,在一个足够复杂和微妙的领域里,无所不知是可能的。我的直觉告诉我,这与哥德尔不完备性定理有关。
我觉得这是一个有用的参考框架:不要假设任何人、任何事都是正确的。要学会利用现有的东西,而不是可能的东西。人工智能对我很有帮助,只要我不抱有不切实际的期望。
a) 如果你问我关于手术的问题,我会说 “我不知道”。法学硕士不会这么做。
b) 专家可能会给出错误的答案,但这只会发生一次。而法学硕士则会一错再错。
>b) 专家可能会给出错误答案,但这种情况只会发生一次。法学硕士们会一次又一次地这样做。
嗯… 有时 “专家 “会反复给出错误答案。
假设他们不认为自己是错的–多种意见可以是有效的,也可以是不同的。世界并非总是非黑即白。人工智能永远不可能永远确信自己是错的,有时也会暂时无法确信自己是错的,这取决于模型。
虽然新模型会得到训练并取代旧模型,但从用户的角度来看,它们并不是永远不会改变对事物的回答。随着时间的推移,我们已经看到了改进,所以虽然单个模型相对固定,但法律硕士行业本身却更加动态。
> 投资人/创始人/PM并不关心
YC 的 Garry Tan 就是一个很好的例子。
他并不是不在乎。只是他相信,下一个模式会解决这个问题。而现在加入的公司只需更新其车型,就能占据有利位置。就像特斯拉的 FSD 离完美总是只有两周的距离,而一旦实现,他们就会主宰市场。
由于公司正在尝试如何应用人工智能,这些初创公司正在赚钱。因此,投资者在乐观情绪的驱使下跃跃欲试。
问题是,对于许多使用案例,如人工智能代理、协助、搜索、流程自动化等,他们非常在意准确性。他们开始对空洞的承诺失去耐心。因此,在未来一两年内,人工智能将迎来一场残酷的清算。尤其是在目前的筹资环境下。
> 他并不是不在乎。只是他相信下一款车型会解决这个问题。
不,他所做的是希望他们能炒作足够长的时间,然后套现,再去炒作下一个。不仅是陈家强,大多数风险投资人都是如此。这就是风险投资的基本商业模式。这也是为什么特斯拉的 FSD 总是在两周之后。彩虹尽头的黄金。
当我还是个孩子的时候,有一种新东西叫维基百科。但我无法说服任何人相信它有用,因为他们有时会指出它的错误。但最终他们还是明白了。
人工智能现在就是这样。它有时是对的。你需要做出判断。不过还是有用的。
我觉得这个失败的前提是模型可以改进到可靠的程度。我不知道这是否成立。让一个系统变得更复杂从而使其更可靠的情况极为罕见。
在极少数情况下,更复杂的系统会更可靠,但这种复杂性总是渐进的,而不是突然的。
我们目前采用的深度神经网络和 LLM 方法,错过了渐进的一步,一跃达到了啮齿类动物大脑的复杂程度。现在,我们希望能通过改进达到稳定。
我不知道发生过这样的例子,所以我对这种可能性并不乐观。
现在不同的是,很多人都在为此付费。为可能给出错误答案的东西付费,感觉很奇怪。
如果你认为 LLM/Generative AI 是确定性的,那么你的观点是正确的;但它不是。它是基于推理的,因此即使有时输入相同的信息,它也会给出不同的答案。
那么问题就变成了:”它能错到什么程度却仍然有用?这取决于用例。对于需要高确定性输出的应用来说,这一点要难得多,但对于那些不需要高确定性输出的应用来说,这一点就不那么重要了。因此,是的,它确实会提供错误的输出,但这取决于输出是什么以及对变化的容忍度。在只有一个正确答案的问答题中,它可能看起来是错误的,但也可能以三种不同的方式提供正确答案。因此,在我看来,了解自己对变化的容忍度是最重要的。
> 如果你认为 LLM/Generative AI 是确定性的,那么你的观点是正确的;但事实并非如此。它是基于推理的,因此即使有时输入相同的信息,它也会给出不同的答案。
推理不是不一致的借口。推理可以是确定性的,因此可以提供一致性。
是啊。几乎所有法律硕士的 “杀手级应用 “都围绕着生成内容、图片或视频展开。我的问题始终如一:”平庸的内容真的有如此巨大的市场吗?”
很多人在乎。
从编码的角度来看,适当的技术系统已经有了检查和平衡(如测试用例)来捕捉不良代码,无论是否使用生成式人工智能,这一点都很重要。
从创意/信息的角度来看,每天都有关于幻觉的故事发生,科技公司也因此被正确地扣分。这与其说是人工智能的错误,不如说是产品管理的错误。
人工智能的幻觉并不是一个令人望而却步的问题,它只是需要被解决。
每家基于人工智能的公司都会因为幻觉而被扣分,这多少说明幻觉是一个令人望而却步的问题,事实上无法绕过。
我个人同意。如今,我在大多数事情上都不使用法律硕士,因为我已经被咬得够呛了(不管是真正的后果还是我能够证明法律硕士是错的),我根本不相信他们。对我来说,这是一个障碍,因为即使是最简单的解释,它也会错得离谱,而这对我毫无用处。
这些天,我还是会先用它们而不是谷歌,但我通常只用它们来搜索代码或奇怪的单词变换,而且任何信息都会经过双重检查。作为一个答题机器人,它们非常没用。
“showstopper “问题是一个质量保证术语,表示只要存在就不能将项目推向生产的问题。人工智能项目经理经过计算认为,幻觉问题(及其后果)的比例在可接受范围之内。
关于这是否是一个好的商业权衡,最近才出现了转机。
只要你的质量控制足够差,没有什么是不能阻止的。在拥有高质量产品管理的行业中,人工智能的价值与人类投入的质量成反比。在大多数高薪职业中,人工智能从一开始就已经过时了。
其中 “可接受的界限 “等于当前的比例。
没有什么 “幻觉”。这个词不过是公关人员用来掩饰错误输出的花言巧语。
他们之所以不在乎,是因为典型的用户不会注意到。他向机器人提出的问题都是他不知道答案的,因此当机器人的答案出错时,他根本无法察觉。
对于任何需要推理或帮助解决实际问题的事情来说,LLM 基本上毫无用处,但最大的用例是 LLM 正在与谷歌搜索竞争。谷歌搜索被低质量的广告至上的 SEO 垃圾污染得如此严重,以至于可能会产生幻觉的 LLM 是找到某些信息的更有效方法,而不是手动在垃圾中苦苦寻找,而且无论如何都可能得到错误的答案。
我想,随着更多的精力/计算投入到训练中,幻觉问题也有望得到缓解。不过可能需要进行范式转换,目前基于概率生成令牌的结构似乎将永远是一个 “回流器”。
我在一家大公司从事人工智能产品工作。诚实的回答是,通过良好的 RAG 和少量提示,我们可以将实际的错误输出视为严重的、可重现的错误。这意味着,当我们在生产中调用 LLM 时,我们得到的错误回答率与任何其他类型的产品工程 bug 都差不多。
将其视为搜索后返回复杂结果的系统。把它想象成一个合成的搜索结果。把它想象成一个你仍然需要评估来源可靠性的结果。把它想象成初级工程师在犯错误。把它想象成复杂任务的工作保障,因为简单任务可以由更笨的项目经理完成。把它想象成你现在是一名高级工程师,而初级工程师在做一些琐碎的事情。
在学校/大学/新兵训练营里做琐碎的事情。在工作中做很酷的事情。
> 把它想象成初级工程师犯错误。
一个初级工程师即使在改正错误后仍重复同样的错误,也永远学不会……很快就会被解雇。
看来你对初级工程师没什么经验,现在试着体验一下那些永远不会成长为高级工程师的初级工程师吧。
1942 年,原子弹根本不起作用。这是否意味着 “曼哈顿计划 “中没有人关心此事?在我看来,当我听到地球上没有人实现了某项目标,但却有一大群人在为之疯狂努力时,我的结论是很多人都非常关心。从你的帖子措辞来看,我猜你是在用人工智能来指法律硕士。你注意到了吗,在研究实验室和商业企业中,100% 的 LLM,每一个都会产生幻觉,当被问及与训练数据截然不同的问题时,他们会给出错误的答案。成千上万的人都是这样。没有一个人是这样的。这是整个技术的一个非常奇特的特性。但你的结论并不是说这是 LLM(一种统计机器)的固有属性,也不是说我们需要超越 LLM 才能实现 AGI。你的结论并不是说 LLM 在其训练的狭窄范围内有很多强大的用途。你的结论是,在整个地球上,无一例外,”投资者/创始人/管理者并不真正关心”。对不起,我没听懂–也许如果你能详细说明你得出这一结论的每一个逻辑步骤,我们就能更清楚地了解你遗漏了什么。
> 1942 年,原子弹根本不起作用。这是否意味着 “曼哈顿计划 “中没有人关心这个问题?
1942 年,原子弹并不存在。它并不是一种被过度夸大的、会产生错误反应的现存炸弹!草包 草包炸弹?
我对此也很好奇。今天早上,我需要生成新闻文章的摘要,这时我发现必应人工智能插入了源文章中不存在的事实。(完全不正确)如果我必须仔细检查人工智能生成的所有内容,那么它的潜力就会大打折扣。我们不会接受需要用计算器反复检查的电子表格程序,为什么法学硕士就可以?
因为大公司才是幕后操纵者,他们有钱,他们有钱投资,他们想要回报。我想不出其他原因了。你的电子表格例子非常完美。
有了 Excel,你可能需要那个计算器。
相关: https://learn.microsoft.com/en-us/office/troubleshoot/excel/…
Excel 一定是一个令人难以置信的代码库。大量的意大利面条+意大利面条来保持传统的意大利面条行为,这一定会让人大开眼界。
他们做了一些疯狂的事情来隐藏二进制浮点运算中的 0.1 + 0.2 != 0.3 问题,这导致偶尔会出现更奇怪的结果。
疯狂的是,它不受监管。
我毫无根据的推测是,由于有资本的人非常希望这项技术能够成功,而这项技术又 “接近 “实现这一目标,因此出现了前所未有的为这项技术辩护的天马行空的现象。
如果这是正确的,那么与其说是 “人们不在乎”,不如说是 “炒作比他们更响亮”。
话虽如此: 我也对科技界人士在制作软件时大量使用 LLM,同时又不无讽刺地表示他们必须对此保持警惕,因为这可能会产生不正确的作品,感到完全困惑。
炒作。每隔那么多年,就会有一些半新颖的软件被发明/改进,然后有些人在他的惠尔奶昔里放进 100 毫克的 2c-b,并意识到他发明了神格。这家伙总是有做风险投资的朋友。
这也是我们多年来一直听说区块链的原因,尽管它的实际用途几乎为零。
2020 VR/AR 2021 区块链 2022 NFT 2023 人工智能
炒作是真实的。这些技术都没有解决人们需要的任何问题。
我说的是人,而不是 “用户”。
老实说,我觉得 LLM 是一个很好的工具,只要使用得当,并且有足够的技能知道什么时候是错的。对于某些问题,你并不需要百分之百正确的答案。
今天早些时候,我让 ChatGPT 给我一个 Go 脚本来解析一个 Go 代码库(大量使用了我平时从来不用的 Go AST 库),它给了我一个 90% 的好解决方案,节省了我很多时间。说白了,这个解决方案本身并没有什么功能,但它还是让我免去了探索工作,并让我快速了解了我所需要的应用程序接口。
几天前,它使用 aws-sdk-go-v2 帮我生成了一些晦涩难懂的 AWS API 的代码。它又一次几乎完全正常工作,而且比我在网上找到的示例更好用。
我每周都有这样的例子。虽然不像有些人说的那么神奇,但还是很有用的。我一开始拒绝了人工智能的东西,但并不后悔把 LLM 加入我的工具包。
这不就是不切实际的期望吗?很多人都从人工智能中获得了很多价值,但它并不是万能的,很多事情都不能相信它自己。
想一想:上一次 SV 或更广泛的科技行业为消费者带来革命性的创新,改善他们的生活是什么时候?智能手机?视频流媒体?我想不出上一次是什么时候。而那都是十多年前的事了。
科技行业是一个几乎完全由亏损公司组成的环境,亏损是为了证明其可行性(不要觉得这很讽刺),以便从投资者那里筹集更多资金。人工智能只是一系列空洞的炒作中最新的一例,目的是让这辆敛财的列车继续行驶,去年是 VR,而现在看来,整件事都在悬崖边上摇摇欲坠。一群 MBA 正在争先恐后地推销自己。
法学硕士是有用的。但 “对文档进行极度有损压缩,并内置自然语言查询功能 “并不能像 “我们创造了一种思维 “一样,让人无休止地订阅。因此,他们只是在炒作,而这当然是不可能实现的,因为 LLM 并不是思想。
因为每个人都错误地认为有智慧在起作用,还因为人们不愿意批判性地评估答案,因为这需要花费大量时间。
我发现法律硕士相当有用,因此节省下来的时间值得花精力仔细检查答案。
当然,这可能与我使用 LLM 的方式有关。如果你只是盲目地提问,就会增加产生幻觉的几率。如果你提供了一个冗长的输入,而输出又高度依赖于输入,那么你就会得到更好的结果。想想电子邮件的改写、总结和翻译。
今年到目前为止,有以下公司向我要钱来购买他们新的 “人工智能 “功能:
扪心自问 谁会从炒作中受益?谁会从对缺陷的深入了解中受益?
Gitlab 也是如此
因为 99% 的人在遇到这个问题时都只向 LLM 提问。如果你给它加上 RAG,或者让它成为一个可以检索信息的代理,它就会突然变得非常准确。
LLM 是语言模型,而不是神奇的信息模型,世界上所有的信息都不知不觉地装进了几千兆字节。正确使用它们。
如果人们花钱购买他们的产品,他们为什么要在乎呢?
至于人们为什么要为返回错误结果的产品买单,原因可能有很多:
– 人们相信炒作/营销,真的认为人工智能会取代他们工作流程的某些部分
– 人们想做实验,看看它在取代部分工作流程方面做得如何
– 无论人工智能为客户做什么,都不依赖于它的正确性,因此产生错误的输出根本不重要
我公司的企业 IT 人工智能机器人就是一个很好的例子,它实际上是一个非常糟糕的搜索引擎,用于搜索企业内部维基自助文章中与 IT 和人力资源相关的内容。实际的 IT/HR 门户网站有一个传统的搜索,如果你知道要搜索的术语,它就能做得更好。因此,大多数人都忽略了人工智能,但我敢肯定,我们是从别人那里买来的引擎。
我很想知道你为什么省略了
– 人们不知道许多输出是不正确的
它有时会给出错误答案,但仍然有用。此外,在许多任务中,语音识别几乎总是能给出正确答案,现在的文本到语音的功能调用比 2 年前好了 100 倍。而且在某些领域,正确性是一个模糊的概念(创意空间)。
这取决于你如何看待它。创意过程不仅仅是一段代码。它通常包括尝试、调整、测试和调整,然后才能得出最佳解决方案。无论是在现实世界还是在软件开发过程中,一蹴而就的完美结果更多的是例外而非规则。
当然,大多数人都会关心这个问题,但这个问题的价值定位足够高,人们不会在它达到完美之前暂不使用。
尽管如此,就像自动驾驶一样,你不会想用它来代替注意力。正如里根所说,”信任,但要核实”。
可能也是出于同样的原因,技术在很长一段时间内都没有任何进步。
可以忍受的披萨外卖被毁了。现在的互联网就像一个被围墙围起来的荒地。太多不需要存在的 “内容”。一切都是广告。
我们的生活都没有因为软件而得到改善。
阿门。我讨厌现在的科技。感觉就像大公司想方设法把它搞得一团糟。哦,你想快速查看天气吗?先来个广告 我受够了。没有一个节目能正常运行,也没有一个节目能在一半的时间内完成它应该做的事情,但我们就应该把它吃完,并为它支付越来越多的费用。
也许是因为我心甘情愿地为我喜欢的优质内容和服务付费,比如新闻和 YT Premium,但我不认为事情有那么糟糕。LLM 会出错,但它们是新产品,仍有成长的烦恼。我的主要集成开发环境很不错,Windows很烂,但Linux桌面的神话之年似乎已经来临,而且相当可用,游戏(更糟糕),掠夺性更强,大多数社交媒体平台也是如此,但我只是避开这些方面。数据的隐私和权利不是很好,但 GDPR 还算不错。像科学集市(sci-hub)这样令人难以置信的资源已经出现。
不知道,几年前我也这么觉得,但现在感觉好多了。我和其他人一样怀念过去的互联网(尤其怀念去中心化),但现在很多东西都好得多了。
如果你不是所查询领域的专家,那么它的作用就不明显,所以用户相信它的答案,尤其是因为它的回答充满自信(直到你提出质疑)。
不幸的是,这对很多人来说已经足够好了,尤其是当你实际上并不关心,只是需要一个输出结果给别人时(办公室工作等)。
在 LLM 商业化之前,我们就为军方构建了一个由 LLM 生成的 SQL 代码的正确性检查器,它即将在 http://sql.ai 上上线。有些人确实关心这个问题,但它很难解决;即使仅对 SQL 而言,这也需要大量的计算机代数、自动定理证明、定义 “正确 “的含义以及许多其他工作。
用 LLM 是不可能解决这个问题的。你需要不断添加 RAG,直到回到非 LLM 实现。LLM 是概率性的。包括 SQL 在内的大多数程序都需要确定性才能提供价值。
在我的使用中,它经常与谷歌搜索竞争,因为谷歌搜索会带来很多无稽之谈。你必须对其进行过滤。
这是因为尽管人工智能目前还存在局限性,但它已经足够有用了。
开发人员要利用我们现有的技术,而不是多年后可能拥有的技术。
在某些用例中,这并不重要,例如创意写作。此外,我认为人工智能工程师甚至还没有找出让 LLM 不产生幻觉且极其准确的途径。最好是现在就推出一些不完美(甚至不出色)的产品,这样行业就能积累经验,工具也会慢慢但肯定地变得更好。
这种想法是错误的。卡帕奇说幻觉是 LLM 的特殊之处。LLM 更像是压缩,混杂着幻觉,而不是其他。
“给我看激励机制,我就给你看结果”。
无论是否愤世嫉俗,人们都相信人工智能会让(极少数)人变得异常富有。将人工智能融入数字体验的方方面面就反映了这种信念。
老实说,每天都有人告诉我所有这些新的人工智能工具能做什么神奇的事情,我尝试了一下,通常会发现结果毫无用处。
我接触过的每一个人工智能聊天机器人都无法帮助我。我让它们写的东西通常都能通过图灵测试,但却很少比得上我自己写的东西。(我承认,由于长期从事个体经营,我可以避开很多繁忙的工作,而很多人却做不到,所以我可能错过了很多好的用例)。我从来没有发现自己要写的东西不是很好,想一劳永逸。如果你这样做,人工智能可能会很好。)
我一直在尝试使用图像/视频创建功能来做很多其他事情,但我甚至都没有得到任何可用的东西。
我很欣赏其中的某些功能(概括能力、出色的语音转文字功能等),但我发现它的很多功能都不是很有用,而且在目前的形式下被过分夸大了。
(1) 有些问题在理论或实践上都是概率性的。例如,在情感分析问题上,5 年前的技术水平是 67% 的准确率,而有了法学硕士学位后,就很容易达到 85% 的准确率。无论如何,100% 的准确率是不可能的,因为有时你真的无法理解某人的感受。
(2)这是一个很大的话题,可以用不同的方式来讨论,但我想归结为 “人都是马虎的”,很多人在面对复杂的问题时会感到不舒服,因为这些问题的答案关系重大,他们会用正确性来换取好感。
(3) 法学硕士善于诱惑人。举个例子,我知道自己与一位著名的棒球运动员同年同月同日生,而这位棒球运动员又恰好比一位更著名的板球运动员早出生一年。我试着让微软的 Copilot 识别这种情况,但它很难识别,认为他们是同一天出生或相差一天出生,而不是整整一年。当我明确提出这一点以及我的个人联系后,它对我赞不绝口,并说我一定很高兴能与这样的体育传奇人物联系在一起,而我的确是。这种赞美对人很有效果。
(4) 很多人认为整治法律硕士会很容易。例如,我会指出 Copilot 完全无法将项目排序到不太容易的顺序(比如按字母顺序倒序排列美国各州),其他人则会指出 Copilot 只需编写一个 Python 程序就能完成排序。
没错,这也是答案的一部分,但它只是把问题推后了。Copilot 无法排序的真正原因是它不知道自己无法排序,如果你问它按正确顺序对列表排序的概率有多大,它会告诉你这个概率非常高。要知道算法的可能性也不是那么容易,参见
https://en.wikipedia.org/wiki/Collatz_conjecture
证明要完全理解非常简单的程序(实际上)是不可能的。参见本书
https://en.wikipedia.org/wiki/G%C3%B6del,_Escher,_Bach
关于聊天机器人能做什么、不能做什么的有趣思考。我的看法是,我们所知的 LLM 将达到一个渐近线,不会随着投资的增加而有爆炸性的改进,但谁知道呢?
你会认为这是一个错误,因为你可以修复一个错误。看起来技术还不成熟,但也足够好用了。
还有一个问题,为什么没有人关心训练和运行模型所需的巨大而荒谬的能源成本?
行了。如今只有这三个字最重要。
除非我们谈论的是太阳能的每瓦成本,否则线路就会下降。下降下降。
根本没有。这些能源本可以用来给别人的房子降温、过滤水、给汽车充电,但现在却被用来给别人写作业,而煤却在燃烧。
> 为什么没有人关心 ___________ 巨大而荒谬的能源成本?
只要填空,你就描述了人类开始大量挖掘煤炭之后的历史。
除此之外,还可以这样想…
你很有钱,但要想继续拥有新游艇、游乐岛和巨型喷气式飞机,你需要让你周围的平民不断繁衍,然后花 18 年时间把他们训练得不至于完全愚蠢,再花 4 到 10 年时间让他们成为专家,同时希望他们不会被车撞死或自杀。如果你想让自己变得更富有,这可是一笔巨大的资源支出。现在这样想。与其花大力气训练那些肉棒,不如训练一台机器。是的,要花费大量的时间、精力和能量才能让它达到需要的目标。但当你拥有了这台 “通用 “机器后,你就再也不需要其他人了。这将为你统治世界的目标节省多少精力?
如果人工智能的边际效用小于使用它所需的能源成本,那么资本主义大概能解决这个问题吧?
有人知道为什么这个帖子不再出现在 HN 上吗?
它没有被标记。
因为重点往往不在于提供一个可行的解决方案。相反,它只是在推销一种解决方案。看看历史上那么多软件项目就知道了。他们提供了正确可行的解决方案吗?还是产生了大量的计费工作?
“当一个人的英伟达(NVIDIA)股票取决于他是否理解一件事时,很难让他理解这件事”。
你是说皇帝没有穿衣服吗?
盲目乐观
套用厄普顿-辛克莱尔(Upton Sinclair)的话说,当一个人的薪水取决于他是否关心某件事情时,很难让他关心这件事。
大量资金已经涌入人工智能领域,在未来几年内,这些资金可能远远超过投资回报。从投资者到首席执行官,再到开发人员,整个领域都处于一种集体 “难以置信 “的状态。当现实再次出现时,将会有很多人失业。
我认识的所有非科技行业的人都对人工智能助手大声说出错误答案感到失望。投资者很快就会明白的。
在我看来,这是因为在过去的二十年里,我们已经习惯了以谎言和破绽为标准,以至于对大多数人来说,这并不重要。
快速行动,打破东西,不付钱给任何人,但当你这样做的时间足够长,烧掉数十亿风险投资的钱时,你最终会变得富有。为什么会这样?
为什么像特朗普这样的人可以不停地撒谎,因重罪而被定罪,被列入最坏的人名单,而似乎没有人在乎?
没有更多的后果。你破坏了软件,人们不会在乎它是否是围墙花园里唯一可用的东西。你弄坏了游戏,人们也不会在乎你是否会在日后向他们的管道里塞进价值 TB 的更新。只要有人从中获利,他们就会对你赞不绝口。
以前,你会因为这些狗屁行为被人避而远之,赶出村子。现在不会了。我们想方设法为自己的糟糕行为辩解。
于是就出现了这样一种技术,我们几乎不花一分钱就能使用,而且大多数时候效果都很一般。这太不可思议了。过去,我们需要成千上万没有天赋的黑客才能发明出那些平庸的错误玩意,而他们都想要一份薪水。在一个什么都不重要的世界里,这就是进步。
这是骗局。无所谓了。只要以最快的速度在任何东西上打上人工智能,希望没人会注意到,希望别人已经修好了。哦,我提到人工智能了吗?
我认为这是一个反常的社区。我更经常看到的是,”人工智能 “已成为幻觉和泔水的代名词。
起初我并不太在意,因为改进的速度似乎足以掩盖无数的罪恶。但我现在开始在意了,因为 GPT4 的进步显然是碰了壁。如果说从那时起有什么倒退的话。
就在今天,ChatGPT4o 还弄错了一个最基本的算术问题 ( https://i.imgur.com/2jNXPBF.png ) ,而我发誓以前的 GPT4 模式一定能把它做对。
然后就有了这出闹剧: https://news.ycombinator.com/item?id=40894167 到今天早上还在发生,只是现在我以前的所有历史记录都不见了。除了其他人的聊天链接,什么都没留下。如果 OpenAI 还有人关心他们在做什么的话,那就不明显了。