没有大象:图像生成方面的突破

在过去两周里,先是谷歌,然后是 OpenAI 先后推出了多模态图像生成能力。这可是件大事。以前,当大语言模型(LLM) 人工智能生成图像时,其实并不是大语言模型(LLM) 在做这项工作。相反,人工智能会向一个单独的图像生成工具发送文本提示,并向你展示生成的图像。人工智能创建了文本提示,但另一个不那么智能的系统创建了图像。例如,如果提示 “给我看一个没有大象的房间,一定要在图片上加注释,告诉我为什么不可能有大象”,智能程度较低的图像生成系统会多次看到大象一词,并将其添加到图片中。因此,人工智能图像生成系统的效果很一般,文字扭曲,元素随机;有时很有趣,但很少有用。

而多模态图像生成则可以让人工智能直接控制图像的生成。多模态图像生成技术有很多变体(公司会对某些方法保密),但在多模态图像生成技术中,创建图像的方式与 LLM 创建文本的方式相同,每次创建一个标记。人工智能创建图像时,不是将单个单词添加到句子中,而是将图像分成一个个单独的片段,然后组合成一幅完整的图片。这样,人工智能就能创造出更令人印象深刻、更精确的图像。不仅可以保证没有大象,而且这种图像创建过程的最终结果体现了大语言模型(LLM) 的 “思维 ”智慧,以及清晰的书写和精确的控制。

在 Microsoft Copilot 的传统图像生成器(左)和 GPT-4o 的多模态模型(右)中,提示 “给我看一个没有大象的房间,一定要在图像上标注,告诉我为什么没有大象 “的结果。请注意,传统模型不仅显示了多头大象,还显示了扭曲的文字。

虽然这些新图像模型的影响非常广泛(我稍后会谈到一些问题),但让我们先通过一些例子来探讨一下这些系统究竟能做些什么。

提示,但针对图像

在我的书中和许多文章中,我都谈到了提示人工智能的有效方法,那就是像对待人一样对待它,尽管它并不是人。给出明确的指示、迭代过程中的反馈以及做出决定的适当上下文,这些都对人类有帮助,对人工智能也有帮助。以前,这只能通过文字来实现,但现在也可以通过图像来实现。

例如,我提示 GPT-4o “创建一个关于如何制作一个好的棋盘游戏的信息图”。在以前的图像生成器中,这将导致无意义的结果,因为没有智能来指导图像生成,所以文字和图像会失真。现在,我第一次就通过了。但是,我并没有提供有关我正在寻找的内容的上下文,也没有提供任何附加内容,因此人工智能做出了所有的创意选择。如果我想改变它呢?让我们试试看。

首先,我要求它 “让图形看起来更逼真”,你可以看到它是如何从初稿中提取概念并更新它们的外观的。我还想做更多的改动: “我希望颜色不要太土,更像有纹理的金属,其他都保持不变,还要确保小标题的文字更浅一些,这样更容易阅读”。我喜欢这个新外观,但我注意到一个错误,“Define ”变成了 “Definc”–这表明这些系统虽然很好,但还没有达到完美的程度。我提示 “你把 Define 拼成了 Definc,请更正”,结果得到了合理的输出。

但这些模型的迷人之处在于,它们几乎可以生成任何图像: “把这张信息图放在一只站在火山前的水獭手里,它应该看起来像一张照片,而且水獭正拿着这张刻在金属平板上的照片”

为什么要到此为止呢?“现在是晚上,手电筒直接照在石板的中心(无需显示手电筒)”–这样做的结果比想象中更令人印象深刻,因为这是在没有任何基础照明模型的情况下重新做的照明。”制作一个水獭的动作人偶,配上包装,让棋盘游戏成为侧面的配件之一。叫它 “游戏设计水獭”,再配上一些其他配件” “在飞机上用笔记本电脑做一只水獭 他们在一个叫OtterExpress的网站上买一份《水獭游戏设计》” 令人印象深刻,但不太正确:“修复键盘,使其逼真,并移除他手中的水獭动作模型”。

正如您所看到的,这些系统并非完美无瑕……但请记住,下面的图片是两年半前提示 “水獭在飞机上使用 wifi ”的结果。最先进的技术正在飞速发展。

但它有什么用呢?

在过去的几年里,我们一直在努力探索文本人工智能模型的用途,并不断开发出新的使用案例。基于图像的 LLM 也将如此。图像生成可能会以我们现在还不了解的方式产生巨大的颠覆性影响。这一点尤其如此,因为你可以上传大语言模型(LLM)现在可以直接看到和操作的图像。举几个例子,全部使用 GPT-4o 完成(当然你也可以在谷歌的 Gemini Flash 中上传和创建图片):

我可以拿一张手绘图片,要求人工智能 “把它做成 Speedster Energy 饮料的广告,确保包装和标志都很棒,这看起来应该像一张照片”。(这需要两次提示,第一次它在标签上拼错了 Speedster)。这样做的结果虽然比不上专业设计师的设计,但也是令人印象深刻的第一个原型。

我可以给 GPT-4o 提供两张照片,并提示 “您能将图片中蓝色沙发上的茶几换成白色沙发上的茶几吗?”(请注意,新的玻璃桌面显示了图片中原来没有的部分。另一方面,被调换的桌子也不完全一样)。我接着问:”能不能让地毯不那么褪色?同样,有几个细节并不完美,但这种简单明了的图像编辑在以前是不可能实现的。

或者,我也可以为我那个无人机按需为你送鳄梨酱的了不起的创业点子,创建一个即时的网站模型、广告概念和宣传方案(我敢肯定,这个点子一定会火)。你可以看到,这还不能取代人类设计师的洞察力,但它仍然是一个非常有用的第一原型。

除此之外,我和其他人还发现了许多其他用途,包括 可视化食谱、主页、视频游戏纹理、插图诗歌、无厘头独白、照片改进和可视化冒险游戏等等,不一而足。

复杂性

如果你一直关注网上关于这些新图像生成器的讨论,你可能会注意到我还没有演示它们最受欢迎的用途–进行风格转换,即人们要求人工智能将照片转换成看起来像是为辛普森一家或吉卜力工作室制作的图像。这类应用凸显了将人工智能用于艺术创作的复杂性: 使用人工智能复制其他艺术家来之不易的风格可以吗?产生的艺术品归谁所有?谁从中获利?哪些艺术家在人工智能的训练数据中?使用受版权保护的作品进行训练的法律和道德地位如何?在多模态人工智能出现之前,这些问题都很重要,但现在越来越迫切需要找到答案。当然,多模态人工智能还有许多其他潜在风险。至少在过去一年里,深度伪造已经变得微不足道,但多模态人工智能让它变得更加容易,包括增加了制造各种其他视觉幻觉(如假收据)的能力。我们还不了解多模态人工智能会给图像生成带来哪些偏见或其他问题。

但显而易见的是,发生在文字上的事情也会发生在图像上,最终会发生在视频和三维环境上。这些多模态系统正在重塑视觉创作的格局,在提供强大的新功能的同时,也提出了有关创意所有权和真实性的合理问题。人类创作与人工智能创作之间的界限将继续模糊,促使我们重新考虑,在一个任何人都能通过一些提示生成复杂视觉效果的世界里,什么才是原创。一些创意行业将进行调整,另一些可能保持不变,还有一些可能完全转型。与任何重大的技术变革一样,我们需要深思熟虑的框架来驾驭未来的复杂局面。问题不在于这些工具是否会改变视觉媒体,而在于我们是否足够深思熟虑,有意识地塑造这种改变。

本文文字及图片出自 No elephants: Breakthroughs in image generation

你也许感兴趣的:

共有 277 条讨论

  1. 这是图像生成的前/后时刻。一个简单的例子就是大量(平庸的)youtube 音乐频道上的背景图片。它们几乎都使用人工智能生成的图片,但仔细一看,却满是废话。爵士乐频道会介绍咖啡店,菜单上的文字乱七八糟,家具也混在一起。我敢打赌,所有这些都会在未来几个月内消失。

    另外,也许其他人也有类似的感觉,但我发现自己对这些东西(包括法学硕士)的使用率之低感到惊讶。如果十年前,你告诉我可以使用这样的工具,我肯定会有源源不断的想法和兴奋。但现在有了这些工具,我也只是在上面戳一下,然后继续我的工作。

    也许是因为各方面都不可靠吧,我也不知道。我问了很多编程方面的问题,也很欣赏 vscode 中的一些自动完成功能,但我知道我还远远没有充分利用这些系统的功能。

    1. 我喜欢用 LLM 生成图片。我觉得自己很有创造力,但在艺术方面却一无是处。现在,我可以随心所欲地描述我所能想象到的任何图片,并获得 90% 的准确结果,这对于我举办的演讲、在线宠物项目(创建了一个以松鼠为主题的在线数学学习游戏,以前我需要一个设计师来创建以松鼠为主题的高中图像)和备忘录来说已经足够好了。对于很多网站来说,这已经足够了。

      1. > 对于许多网站来说,这已经足够好了。

        不过,这基本上是一个已经解决的问题。公司似乎并不反对使用库存照片。我现在公司的网站上就有很多。

        对于商业用例来说,在人工智能图像生成之前,这些图库就已经非常广泛了,你想要的东西几乎总是在那里。它们似乎在查看人们的搜索查询,并添加与之前失败查询相匹配的图片。即使是你认为不会有照片的东西,比如 “穿着商务套装的男人一边尖叫一边跳起来踢一个人”,也有大量的结果。

        1. 真的吗?有哪家图片库会精选出在高中环境中做各种数学或其他学科相关事情的松鼠?

          认为任何/所有综合股票服务都是万能的,这是不现实的。当然,有人可能只是因为厌倦了滚动(就像流媒体视频服务一样)而选择了某些内容,但这并不意味着他们对自己的选择感到满意。这并不意味着他们对自己的选择感到满意,而只是对完成选择感到高兴。

          现在,有了生成式人工智能,他们可以让松鼠在他们能描述的任何环境中做任何事情。如果他们不喜欢,只需调整描述,直到满意为止。对他们来说,这是显而易见的好处。

          我从来没有喝过这种热潮/时尚的迷魂汤,但我也不会固执到拒绝接受一些人认为它非常有用的观点。你可以让那些上过高中的松鼠们随心所欲地创作生成艺术,但你不能告诉我某个股票交易所就能满足一切需求。

          1. 我在 Shutterstock 上搜索了松鼠做数学题。这是一只正在做数学题的松鼠:https://www.shutterstock.com/image-vector/pensive-squirrel-d…

            是的,很明显,如果您的使用案例足够晦涩难懂,或者您需要大量独特的图片,那么这些图片是行不通的,这就是为什么我说 “很大程度上是一个已经解决的问题”。

        2. 人工智能在很多方面都很平庸,但它是图片库照片的升级版。这就是即将被这种技术所取代的艺术,低劣的东西。你只需要一张 X 的图片,因为人们期待的是一张图片。

          代码也是如此。我不认为软件工程师真的会被取代,但小型网络开发公司有充分的理由感到紧张。你为什么要花钱请人来为你的餐厅做一个网站呢?

      2. 我在其中寻找乐趣的问题与我在游戏中使用作弊码时遇到的问题是一样的:做的部分是有趣的部分,到达终点或只是终点的排列组合会变得非常无聊。

        1. 当你没有艺术天赋或经验时,尝试画一只松鼠并不是有趣的部分。

          我过去曾自己制作过音乐录音,也曾雇过乐手来演奏我不会的乐器。让气急败坏的录音工程师们看着我第 5000 次敲打我完全不会演奏的鼓,这并不是乐趣所在。坐在玻璃后面,看着我的构想从一个真正优秀的鼓手手中变成现实,这绝对是最有趣的部分。

          1. > 坐在玻璃后面,看着我的构想从一个真正优秀的鼓手那里变成现实,这绝对是最有趣的部分。

            对你来说,让 ai 吐出一个又一个想法也是同样有趣的事情吗?

            1. 他说的不是用人工智能产生想法,而是用人工智能把想法变成现实。

      3. >我喜欢用 LLM 生成图片。我自称颇有创造力,但在任何艺术领域都毫无建树。现在,我只需描述我所能想象的任何图像,就能得到 90% 的准确结果

        请问你用的是什么?我还不是任何模式的付费用户,因为我的公司提供了一个企业内部订阅的聊天机器人和代码集成,对于我目前所做的工作来说已经足够好用了,但没有图片生成功能。

        我试过在免费层上生成图片,但还没等我高兴就用完了。

        你是怎么付费的?

        1. 我正在为一个小游戏生成图片,这个游戏是我和我六岁和十岁的孩子们一起做的。他们看到我们这么快就从想法变成了现实,非常兴奋,他们笑得很开心,我们也玩得很开心。唯一让我失望的是,我被限制了。我们需要花钱购买 API 图像生成器,才能更快地获得图像。

          我为一个内部产品制作了一个徽标,否则我们公司不会有这个徽标。我还在朋友圈发过很多垃圾信息,在我们都在玩的回合制战争游戏中大放厥词,比如 “制作一个狗人和希腊巨人殴打魔鬼的卡通形象”,它带来的画面既搞笑又完美,就像一部老式的《大力水手》动画片。

          两年前,我花了三个小时使用稳定扩散等局部模型,才得到我想要的效果。我必须进行内喷涂并生成 100 种变化,如果不是用我自己的硬件来驱动,这将是非常昂贵的。

          现在我几分钟内就能得到很好的效果,真的太疯狂了。

          1. 谢谢。请问您使用的是哪种服务?我想试试付费服务,只是想知道大家推荐哪种。

            1. 我用过 Midjourney 和 chatGPT。Midjourney 更适合快速迭代,选项循环更快,而且在很大程度上更 “古怪”。它更容易使用参数进行调整。

              当你想要一些你已经想象过的更具体的东西时,ChatGPT 要优越得多(尤其是现在)。但它的速度较慢,而且与 Midjourney 不同的是,你不能选择四个版本来构建和迭代,而只能得到一张加载时间较长的图片。

          2. 感觉你没有回答问题。我知道你不是被问到的人,但还是要回答。

      4. 如果你使用这种技术,你就是在积极地损害创造性劳动。

        1. 你能详细说明一下,为什么没有可能在不主动伤害艺术家的情况下使用这种技术吗?

          如果一班 14 岁的学生在计算机科学课上制作一款游戏,他们使用人工智能制作占位符图像…… 真正的艺术家受到伤害了吗?

          老师当然付不起为所有学生的游戏提供内容的费用,大多数学生也付不起聘请艺术家的费用,如果艺术家要求签订合同,他们甚至无法合法地这样做……在大多数国家,他们还未成年,无法签订合同。

          与预先包装好的资产库相比,这项技术给了孩子们更多的自由,可以鼓励他们更多地参与课程内容,从而让更多人对创意就业感兴趣。

          因此,我认为这项技术可以培养出新一代的创意人才,至于会不会造成全面伤害的说法,还需斟酌。

            1. * 你不可能在未经同意的情况下使用一种通过侵占数百万人的劳动而生产出来的工具,这是不符合道德规范的。如果你使用它,你就是一个坏人。*

              我不同意。当你发表你的作品时,我不能复制它,但我几乎可以用它做任何我想做的事。我不需要征得你的同意就可以从你的作品中学习。我可以研究成百上千幅画作,从中学习,教自己以类似的风格作画。版权法允许我这样做。

              我不认为人工智能能更好更快地做到这一点,就能改变法律。

              1. 对人工智能进行训练需要你制作一份作品的副本,该副本保存在本地供训练算法阅读。这是否属于合理使用还没有定论。这肯定是不道德的。

              2. 人工智能不是人。我们现在看到的是有人利用算法敲诈艺术家,并声称算法就像人一样从经验中学习,以此为自己辩护。

                如果我写了一个程序,从 1000 张基础图片中随机选择一张,你会同意这个程序没有创造任何新东西。如果我随意添加一些颜色变化,它仍然是衍生程序。我对程序所做的每一次增量改动,都是为了让它变得更复杂,但其输出结果却和改动前一样是衍生的。

              3. 如果人工智能能比人类学得 “更好、更快”,那为什么人工智能公司不像人类一样花钱买几本书来训练人工智能呢?

                也许是因为人工智能归根结底不过是一种复杂的压缩算法,人们真的真的不应该再把它拟人化了。

            2. 关于人工智能损害创造性事业的批评是有道理的。根据定义,人工智能的产出并不特别具有创新性。重复性的人工智能工作充斥着各个空间,可能会淹没真正创新创造的基础。而且,人工智能可能确实会抑制它试图取代的技能的发展。

              挪用的说法有些站不住脚。顾名思义,创造性工作是建立在前人的基础之上的。这与代码、创意写作、绘画、摄影、时装设计、音乐或其他任何创意活动并无区别。创作建立在前人的基础之上,就是这么回事。没有人会因为剧作家写了一部以欧洲为背景的爱情悲剧,就指责他们盗用莎士比亚的作品。

              不过,你这种夸张的论证方式对你很不利。

            3. 稻草人是你的。没有人声称自己有权利。你提供了一个场景,似乎可以反驳你关于使用这种技术会损害创造性劳动的无条件断言。

              你对那些和你不一样强烈反对使用这项技术的人提出了各种疯狂的假设和概括。我不认为你是在回应那些有隐性偏见的人。

              你把偷窃和盗版混为一谈(这太常见了),并先验地假定在公开数据上训练模型就是盗版。你真的以为只要你说得足够有力,人们就会盲目地接受你的意识形态观点吗?

              > 如果创造性劳动可以使用人工智能,那么学生们为什么不能在编程时也使用人工智能呢?

              绝对应该!至少只要它能很好地完成任务。

              除非他们正在上一门以学习编程为目的的课程(即游戏只是达到目的的一种手段)。这就好比在数学课上,你可能被禁止使用某些高级计算器的功能。如果你报了一门艺术课,然后只是提示 GPT,那很可能就失去了意义。

              1. > 你真的指望人们会盲目地接受你的意识形态观点,只要你说得足够有力?

                这是行业外大多数人的观点。

        2. 随你怎么说。我创作和合作创作了十张专辑,我的总收入是 3 美元。

          市场已经饱和,其运作方式意味着每百万艺术家中就有十人发财。我觉得这种情况在历史上一直存在。

          当然也有很多人才被 “浪费 ”了,但我认为情况一直如此。战争、饥荒、疾病让我们失去了多少威廉-莎士比亚?

          几个月前,我为南朝鲜未遂政变创作了一首歌,之后我就决定再也不写音乐了。在新闻真正传到美国之前,我就写好了这首歌。既然我可以让人工智能帮我写歌,为什么还要破坏自己的听力呢?同样的结果是–没人在乎。

          这是 3shot 的混音版,三角形让我非常开心,所以我必须上传 https://soundcloud.com/djoutcold/coup-detat-symphony-remix

          “原版””1-shot “也在我的 soundcloud 页面上。https://soundcloud.com/djoutcold/i-aint-even-writing-music-a…

          这是用 lojban 写的。这就是你听不懂的原因。没错。Lojban. 每次听到这首歌,我都会热泪盈眶。FKIN AI

          [0] 更符合我的风格–我们 PBX 的保持音乐 https://soundcloud.com/djoutcold/bew-hold-music 而且我所有的东西都是 CC 许可的,目前大多是 CC0。

          1. > 战争、饥荒、疾病让我们失去了多少威廉-莎士比亚?

            (这只是一个与其他讨论无关的小评论:)

            也许并不多?可能是因为 “文化关注 ”有限,而且顶部空间也不大。换句话说: 换句话说:总是有少数著名艺术家被人记住,而其他人则被遗忘。就像赢得世界杯一样: 总会有一支球队夺冠,但这并不能普遍说明球队的质量。充其量只能说明相对于竞争对手的质量。

            (我不确定我是否完全支持我在这里提出的论点。但我觉得很有意思)。

            1. 你是否认为,如果披头士从未存在过,其他一些团体就会吸收他们的名气,就像填补了一个权力真空?我以前也这么想过。

              或者,他们真的就是那么棒。

        3. 创造性劳动无权从事父母评论中所描述的工作。我们雇用劳动力是因为它对我们有利,而不仅仅是因为它是一种选择。创造性劳动力的责任是适应不断变化的世界,找到自己的角色,而不是简单地由计算机系统生产或超越自己的劳动。

          实际上,所描述的工作很可能永远不会完成,而不是由艺术家来完成,如果这是唯一的选择的话–雇用艺术家来帮助完成与副项目等相关的附带任务是不常见的。

        4. 创造性劳动正在走体力劳动的老路。

          1. 有趣的哲学,这是基于什么?你的意思是说,人们不应该为生活而工作,即劳动与娱乐?

            1. 这难道不言自明吗?当人们为了任务本身而从事劳动时(而不是为了不想挨饿而从事抽象化了的劳动),我们通常称之为爱好。

              因此,说人们不需要担心挨饿(比喻或其他方式)大致等同于此。

              1. 这一点并不总是很明显,尤其是像 HN 这样一个以资本积累为主题的网站,更多是因为它与风险投资公司有关联。

                1. 据统计,简街可能至少雇用了一些共产党员。

          2. 同意。我坚定地站在资本一边。

          3. 我们还没有进入全自动豪华同性恋太空共产主义阶段,所以劳动力是必要之恶。

            1. 我不相信法律硕士是通往明德之路,而且我很确定文化人会认为我们有点乱(我很确定他们在最后一本书中真的这么说了),但谁知道呢,也许我错了!

        5. 只有当你有任何机会雇佣一些人来完成这项任务时,你才会这么做。

    2. 我以前从未使用过图片库网站,所以我想我对 “按需生成任何图片 “没有真正的用处也就不足为奇了。

      1. 我偶尔会使用图片库网站,但我每周都会多次使用矢量艺术和图标网站。即使是今天,我在 Canva 上设计一些东西时也使用了几个不同的网站。

        我不使用人工智能的原因是,它给我提供的结果远没有在有限的人类艺术列表中搜索的结果可靠,而且无法指定。

        今天,由于一些不为人知的原因,我需要花生的矢量图。我在几秒钟内就从搜索引擎上找到了不完美但可用的人类艺术作品。然后,我花了大约 15 到 25 分钟,试图用 ChatGPT 得到更接近我设想的东西,并把找到的不完美的艺术作品作为风格指南。我得到了很多 “人工智能能做的事真酷 ”的评价,但没有任何有用的东西。与我一开始的设想相比,没有任何东西更接近我的设想。

        巧合的是,这是我一年来第一次尝试用人工智能制作艺术品,但那时我买了一个 Midjourney 账户,花了一个月时间制作了大量艺术品,然后在笔记本电脑上安装了 SD,又花了几周时间玩这个。所以我并不缺乏经验。到目前为止,我发现人工智能艺术生成器非常适合生成像这样的文章。它们确实能制作出一些非常酷的图片,电脑现在能做到这一点真是让我大吃一惊。

        只是当我坐下来处理一项有具体要求的现实任务时…… 我发现它们毫无用处。

      2. >因此,我想我对 “按需生成任何图片 “没有真正的用处也就不足为奇了。

        除了图片库,色情图片才是这方面的杀手级应用,但大多数人工智能公司都不允许这样做。

      3. 它们的主要应用似乎是把博客文章和内部备忘录加长三倍,使用十倍的带宽,却不能传递更多的信息。这正是人工智能 “擅长 ”的应用。

        1. 如果说图片库网站在这方面比人工智能更糟糕的话。使用人工智能时,你要想出一个图像创意,然后尝试让人工智能制作出与之相近的图像。而对于图片库,你要想出一个图片创意,然后希望某个摄影师也有类似的创意,并将其上传到图片库网站。

    3. 我的手机上有 “双子座 ”应用程序,你可以只用语音与它互动,我当时想,哦,这真的很酷,我可以在开车时使用它,而不是听音乐。

      我从来没想过要和人工智能谈什么。我也在本地运行 LM

      1. 让它就你的专长对你进行面试(就像求职面试一样)。锻炼你的面试技巧。

        让它教你一门语言。

        DnD 的效果非常好(大语言模型(LLM) 是游戏的主人)。

    4. 这是一个非常有趣的观点,我们大多数人日常很少使用人工智能,尽管它似乎潜藏着潜在的效用。我认为,人类和经济适应新技术需要时间。

      即使今天人工智能的技术进步停止了,2030 年的最佳模型还是我们现在拥有的模型,但随着人们和公司找出如何利用新技术的方法,社会和经济仍会发生多年的变化。

      1. 除非我在做一些简单的事情,比如写出一些基本的 shell 脚本或 python 程序,否则我往往更愿意自己做一些事情,而不是花时间向一个大语言模型(LLM) 解释我想要什么。花时间提前制定清晰的计划是有道理的,但对于很多问题来说,花时间写出来并不值得。

        1. 我发现,如果一个问题不需要规划,那么它可能足够简单,大语言模型(LLM)只需要很少的输入就能处理。如果它需要规划,我还不如把它作为另一个评估者丢给大语言模型(LLM),然后再驱动实现。

    5. 图像生成仍然非常缓慢。如果它能像谷歌的图片搜索一样即时生成许多图片,使用起来会更有趣,我们也能通过练习更有效地使用它。

      1. >图像生成速度仍然很慢。

        只是因为免费的速度太慢了。

    6. 我觉得这些图像生成器和大语言模型(LLM)总体上相当像玩具。对严肃的工作没有用,但你可以创建情绪板和创意生成器。这有点像当你遇到写作瓶颈时的随机单词生成器。只要你分析一下这些软件的输出结果,就会发现它们产生的都是废话。正如我们现在从克劳德最近发表的论文中了解到的,这些东西远非推理。

        1. 令人印象深刻。这将导致专业工作室的内容创作出现爆炸式增长,就像 CG 与渲染器一样。与目前低成本的 CG 3D 模型相比,我更喜欢手绘+AI tweened 的效果。

          1. 是的,它将比动漫中的低预算 3D 模型好得多,希望能有一种能在足够高分辨率下工作的现成产品,工作室可能会采用它,而不是使用廉价劳动力。

          2. 这个行业的大多数专业人士都主动鄙视这项技术。

            1. 确实如此,但使用这种技术的很可能是拥有年轻专业人员的新工作室,就像宫崎骏也不喜欢 CGI,但它现在却广泛应用于动画片一样。年轻人推动着进步,而年长者则避之唯恐不及,这就是人类进步的一般规律。

              1. 我甚至不认为新的电影制片厂会采用这种技术,可能知名的电影制片厂会在提出制作就绪的解决方案并经过实战测试后采用这种技术,我怀疑很多电影制片厂会抱怨无法制作中间帧。预算较少的新工作室可能会先进行测试。

            2. 考虑到价格差异,我怀疑他们是否有选择的余地。

              这可以说是一件好事,因为如果制作成本降低,就意味着质量提高或内容增多。

              1. 使用人工智能的作品的生产成本会下降,而生产更高质量作品–不使用人工智能的作品–的成本将保持不变。我们将得到的只是更多的人工智能泔水。

    7. > 它们几乎都使用人工智能生成的图像,而这些图像越仔细看就越是满篇废话。爵士乐频道会介绍咖啡店,菜单上的文字乱七八糟,家具也混在一起。

      我注意到了。

      也许是我的算法问题,但现在 YouTube 上似乎到处都是这样的视频。

      1. 可能是你的算法问题,因为我的算法很好,不会向我展示那些低强度的频道。查看 PocketTube、SponsorBlock 和 DeArrow 等扩展,更好地管理你的 YouTube feeds。

      2. 出于某些奇怪的原因,他们坚持向我提供人工智能生成的关于 “HOA Karens “的视频。

        诚然,我确实喜欢看 LawTubers,有时他们也会谈论 HOA,但这与有人在 reddit 上发帖并通过机器人洗帖的做法相去甚远。

      3. Youtube Studio 内置人工智能缩略图功能。谷歌积极鼓励使用人工智能进行点击诱饵,并自动生成人工智能回复评论(如 onlyfaps),让观众在不阅读评论的情况下也能感受到互动。

      4. 我所有的音乐封面图片都是人工智能生成的。同时,我拒绝听人工智能音乐。在这一点上,我们都将孤独沉沦。

        令我沮丧的是,如果我告诉 Youtube algo “不推荐 ”人工智能音乐视频频道,它就不会再给我提供任何音乐视频频道。这不是我想要的,我只是不想要人工智能。他们需要将两者分开。当然,人工智能封面图像也不能这样做,否则会对我造成伤害。)

    8. 不可靠和无法调试是我认为这些工具对任何严肃工作都是负担的原因。

    9. > 我发现自己竟然很少用到这些东西

      我认为随着更多实用案例的出现,这种情况会有所改变,因为这一切都是全新的。例如,你用智能手机拍摄的照片可以讲述一个故事,或者为照片添加注释,这样你就可以在照片中看到一些你没有想到但你的个人资料认为你可能会看到的东西。事情很快就会变得更加复杂。

  2. 有间接证据表明,4o 图像处理并不是在 4o 图像生成器中一次性完成的,而是由代理系统完成的工作流程。也就是说,用户输入提示语 “创建一张房间里没有大象的图像”> 提示语进入大语言模型(LLM),大语言模型(LLM)对人类提示语进行预处理> 输出一个提示语,它知道这个提示语能很好地与图像生成器配合使用> 创建一张房间的图像> 然后将经过大语言模型(LLM)处理的提示语发送给图像生成器。编辑也是如此,但要复杂得多,这意味着需要调用函数工具,并在幕后进行多层编辑。你可以自己试一试,拍摄一张图片,发送给 4o 并让它以某种方式为你编辑,然后要求它再编辑一次,再编辑一次,如此反复。你会发现每次编辑都会应用明显的棕褐色滤镜,而且随着编辑次数的增加,图片最终会呈现出越来越多的棕褐色调。这是因为在工作流程中,其中一个步骤被天真地应用,而没有考虑到多重编辑的可能性。如果这是一个在 4o 图像模型内完成编辑的一次性解决方案,棕褐色问题就不会出现。

    1. >这是因为在工作流程中,这是在没有考虑多重编辑可能性的情况下天真地应用的步骤之一。如果这是一个在 4o 图像模型内完成编辑的一次性解决方案,棕褐色问题就不会出现。

      在 chatgpt 中我并没有看到这种情况,我看到的是它在运行相同的基本查询时,每次都会对你说的内容进行不同的处理,而不是修改现有图像。比如你说 “生成一张女人的照片”,然后得到一张照片,接着说 “把她的头发变成金色”,那么新的图片很可能也会有不同的面部特征。

    2. 你的观察结果都没有说明这些图像是如何以这种或那种方式生成的。

      我们目前唯一可以依据的是 OpenAI 自己的说法,它声称这些图像是由一个单一的多模态模型自回归生成的,我不认为他们在撒谎。

      1. 自回归生成和一次生成是不一样的。这里可能存在一个反馈回路。就我个人而言,如果有一个小的反馈回路,我也不会感到惊讶,但并不像 OP 所想的那样是一个复杂的代理工作流程。

    3. 作为一个在一年前就尝试过使用 YOLO 构建部分遮罩以通过内画、动态控制网和其他一系列方式进行调整的多模态稳定扩散聊天代理的人,我非常怀疑代理过程是否如此简单。

      使用提示来检测和选择最合适的模型检查点和 LoRa,同时重写提示以最合适地适应所选模型,这在很早以前就已经是标准配置了。

      1. > 使用提示来检测和选择最合适的模型检查点和 LoRa,同时改写提示以最恰当地适应所选模型,这在很早以前就已经是非常普通的标准了。

        哪些玩家在这样做?我完全没听说过这种方法。

        大多数艺术界面都希望您能直观地选择一种样式(LoRA、Midjourney sref 等),并在引擎盖下加载这些样式。但这是由用户控制的明确行为。

    4. > 有间接证据表明,4O 图像处理并不是在 4O 图像生成器中一次性完成的

      我以为这是显而易见的?至少从我第一次(也是唯一一次)使用它的时候,你就可以清楚地看到它并不只是根据提示创建一张图片,而是先创建一个画布,让所有内容都能融入其中,然后再逐个生成,由一些协调者决定工作流程。

      我们不认为需要证据来证明这一点,因为使用它以及在生成 “拼贴 ”图像时所看到的一切都很明显。

    5. > 这是因为在工作流程中,这是在没有考虑多重编辑可能性的情况下天真地应用的步骤之一。

      我不相信这种说法。这可能只是编码器/解码器或模型本身的偏差,许多图像生成模型都显示出类似的行为。另外,如果是工作流程的话,不知道为什么总是要应用棕褐色滤镜,这样做有什么意义?

      我个人认为这不仅仅是一个代理工作流。代理工作流程并不能真正做到人类无法手动完成的事情,它们只是让流程变得更快而已。我花了两年时间研究图像模型,特别是围绕输出的可控性,普通的扩散模型根本无法通过更智能的提示或其他技巧实现这种编辑。因此,我看不出代理工作流程会有什么帮助。

      我认为只有通过真正的多模态模型才能实现这一目标。

    6. 嗯,我也是根据它的外观觉得它也在做图层处理。模糊的背景和前面鲜明的卡通人物让我觉得他们就是这么做的。

    7. 提示丰富的东西是非常标准的。每个人都会这么做,不过有些人会让用户看到。在 Grok 上,它是通过图片上的下载名称填充到前端的。图像编辑很有趣。

      1. 我使用过的所有稳定的扩散软件都会以某种形式的提示来命名文件,可能是因为 SD 对第一个标记的权重高于最后一个标记,这可能是 CLIP/BLIP 工作方式的副作用。

        我怀疑这些公司中是否有任何一家推出了自己的稳定扩散/转换器接口。这都是从 huggingface 复制粘贴过来的。

        我仍在等待一个经过确认的扩散语言模型以 gguf 的形式发布,它可以与 llama.cpp

        1. Auto1111 和其他公司在文件名中使用提示符是因为它很方便,而不是因为某些固有的 CLIP 机制。

          如果你认为像 OpenAI 这样的公司(尽管他们理应受到批评)不使用自己的推理工具和图像模型,我倒是有一座桥可以卖给你。

          1. 我对你的意见比我自己的意见更不重视。我不知道你是如何误解我对 clip/blip 的看法的。我是在回答关于 “用文件名填充前端 ”的评论–在生成的图像中,第一个标记的权重高于后面的标记。因此,如果提示正确,文件名将是对图像非常准确的描述。特别是 danbooru 风格,你可以直接在空格处分割,并将它们用作标签,以达到所有实际目的。

            我猜这种 “方便 “只是碰巧从 “Auto1111 “移植过来的,或者是巧合,或者是

  3. 看了这个交换茶几的例子,我注意到每次重新处理图像时,它都会根据上一次的迭代发生变异,而且每次对象都会变得更加怪异,就像中国的耳语。

    * 桌子上那个奇怪的篮子装饰,原本是一些大链环(也许是锚链,以保持与海滩画的主题)。到了第三个版本,它们变成了皮革质地,与篮子融为一体。

    * 墙上带有树枝装饰的烛台灯变成了一个瘦小的极简风格的金色鹿头,然后又变成了一根树枝。

    * 背景中的小桌子逐渐失去了三条腿中的一条,最终违背了地心引力。

    * 橱窗里怪异的绿色灯具开始变得更有规律,后来变成了树枝。

    * 让地毯的褪色程度降低,其他东西的饱和度也随之升高,包括桌子的木头。

    1. 很明显,对于每一个请求,它都会生成一个全新的图像。有人猜测是扩散解码器,但我认为更可能是 VAR – https://arxiv.org/abs/2404.02905 的实现。

      因此,它不是立即预测目标分辨率下的每个补丁,而是以非常小的分辨率开始生成图像(作为补丁),然后逐渐放大。我想这可能会让模型很难学会像编辑文本那样复制和粘贴图像标记。

      1. 不过,它在复制以前的场景方面做得比以前更好了,令人惊叹。刚才我让它自拍内华达州高速公路上的两个摩托车手,但一个是狴犴,一个是鬣羚。它照做了。然后,我又要求在午后的光线下拍摄同一张照片,它在保留背景方面做得相当出色,而就在几个月前,它还完全不知道自己之前做了什么。

        另外,天哪,在经历了一年多令人捧腹的挫折之后,它现在知道鼯鼠是一种真正的动物,而不仅仅是长着蝴蝶翅膀的树松鼠。

        1. 我同意。我并不是说生成图像的模型不同。4o 显然是自己在生成图像,而不是向其他模型发送提示。我只是在猜测模型本身的生成机制。

          1. 哦,不,我并不是对你的话有意见,我只是想说,是的,它并不是在编辑同一幅图像,而是每次都从头开始重新绘制,但它在这方面做得更好,它对上一幅图像的上下文有一定的了解,因此它可以对其进行调整,即使它永远不会一点一点地完全相同。

    2. 是的,在我看来,这是当前 GPT 4o 图像生成技术的最大局限:它无法只编辑图像的一部分。我想它每次做的都是对源图像进行标记化,然后根据提示进行转换,最后给出最终结果。在某些情况下,这样做还可以,但如果你真的只想进行小幅编辑,同时保持图像的其他部分完好无损,那你就不走运了。

      1. 值得一提的是,pixlr 与 GPT 4o 是很好的搭配。使用 4o 生成图像,然后使用 pixlr AI 工具进行编辑。尤其是在删除方面,pixlr(我相信还有其他工具)要快得多,而且相当可靠。

        1. 是的,我不确定选择刷的实际作用。它只是大语言模型(LLM) 的提示吗?

      2. 它只是意味着你要手动将其组合在一起。这总比设置一些内画管道之类的要好得多。

        1. 手工合成真的会比内绘制更简单(更不用说会有更好的效果了)吗?我可以想象它在简单的情况下是可行的,但对于任何涉及 3D 几何图形的情况,你很可能会遇到第一张图片和第二张图片不完全对齐的问题。

        2. 100%. 多模态图像超越了 ComfyUI 和 Inpainting(暂时)。这是对图像生成功能的一步改进。

          我希望我们能尽快看到具有这些功能的开放权重或开源模型,因为好的工具需要开放的模型。

          就像过去发生的那样,一旦 DallE 或其他模型的开放实现问世,开源社区就会通过编写大量的训练、扩展和管道来进一步推动其功能。结果看起来比封闭的 SaaS 模型要好得多。

      1. 事实上,几乎所有的东西都会发生细微的变化–椅子的数量、形状和图案,枕头的数量和图案,窗帘的图案,窗外的景色,桌子的木质部分,地毯的图案…… 蓝色沙发基本保持不变,只是失去了一些细节…

      2. 是的,先是静物和印象派的东西,然后是一团又一团,然后是涂抹又涂抹。玻璃桌面的反光和透明度又是怎么回事?变得非常模糊。继续处理同一幅图像,看起来你会得到一些 “深梦 ”般的怪异效果。

        我觉得壁炉可能会变成通往下面的小楼梯。)

        1. 只有水手才知道如何离开。

    3. 在使用这种图片的大多数情况下,绝大多数人都不会注意到这些。

  4. > 使用人工智能复制其他艺术家来之不易的风格可以吗?产生的艺术品归谁所有?谁从中获利?哪些艺术家在人工智能的训练数据中?使用受版权保护的作品进行训练的法律和道德地位如何?在多模态人工智能出现之前,这些问题都很重要,但现在越来越迫切需要找到答案。

    我不同意这个结论。这在两三年前是一个重要的讨论话题,后来我们在网上进行了讨论,然后我们或多或少都认为,艺术家的作品被吸走却没有追索权是不公平的。

    帖子应该说的是 “我们知道这对艺术家不公平,但科技公司从他们身上赚了太多钱,我们没有办法迫使他们改变”。

    1. 我不认为这个观点已经达成共识。很多人(包括我自己在内)都认为,版权问题已经远远超出了范围,而人工智能代表着社会艺术普及的进步(今天的人工智能是垃圾,但数码相机在2007年也是垃圾,看看现在的情况)。

      举例来说,吉卜力工作室的艺术风格被贴满互联网,这是否是他们的损失也不清楚。那一周我回家看了一部吉卜力的电影,我相信很多人也是这样做的。他们现在的收入可能增加了不少吧?

      “我们如何才能让艺术货币化 ”仍然是社会的一个未决问题,但我当然不认为不加限制的人工智能会导致从事艺术工作的人减少。

      1. > 例如,吉卜力工作室的艺术风格被贴满互联网,这是否是他们的损失也不清楚。那一周我回家看了一部吉卜力的电影,我相信很多人也是这样做的。他们现在的收入可能增加了不少吧?

        这听起来像是 “你不会得到报酬,但这对你来说是个很好的机会,因为你会得到曝光 ”的改写。

        1. 我做自由平面设计的时候,有人对我说过这句话。那一周我没吃多少东西。

        2. 曝光是有价值的!用曝光率来支付艺术家的报酬之所以成为流行语,是因为有些人认为他们的 “曝光率 ”有意义,因为他们提供的是向 100 人曝光艺术家的机会,而其中 99 人甚至可能都不是艺术家的目标客户。

          另一方面,吉卜力工作室的曝光率高达数百万人(也许是数亿人),其中可能有超过 5% 的人是潜在客户。

          因此,以曝光率为报酬是有道理的,如果曝光率的价值与艺术品的价值相当的话。但是,大多数提出以曝光量付费的人都将他们的曝光量高估了 100 倍或更多。

      2. 吉卜力的风格是人类花了几十年时间提炼和创造出来的。所有这些对工艺和艺术家的尊重和崇拜,以及所花费的时间,现在都在一瞬间化为乌有,使其成为一件肤浅的小事。更糟糕的是,另一家公司对其加以利用,全然不顾那些帮助将其变为现实的人。

        人工智能创造艺术的威胁将永远贬低人类的艺术能力。现实情况是:既然可以更快、更便宜地完成艺术创作,为什么还要费心呢?下一代将利用它,而这些技能将非常稀有。这就是技术的本质。

        大发888/2/mdependable

        吉卜力工作室可能还没有受到影响,但这只是因为技术还不成熟。如果有人只需一个提示就能制作出与他们风格相媲美的电影,那将会发生什么?难道因为吉卜力工作室已经赚了足够多的钱,我们就应该接受吗?

        如果创作所需的努力可以直接被机器摄取并复制而不产生任何后果,那么如何能让人证明这种投资是合理的?艺术形式的下一次进化从何而来?即使有公司花时间利用人工智能创造出了令人惊叹的作品,而这确实需要投资,但先例是它可以被摄取和复制而不会产生任何后果。

        我认为,除了法律问题,我们还需要思考我们想要生活在一个什么样的世界。我们已经可以清楚地看到社交媒体给世界带来了什么。老实说,你认为一旦这一切发生,世界会变成什么样?

        1. > 如果有人只需一个提示就能拍出一部与他们风格相媲美的电影,那会发生什么?

          什么都没有?就像今天的某些工作室投资数百万工时,以吉卜力工作室的美学风格(但不包括任何吉卜力工作室的角色、品牌等)制作一部竞争电影一样。- 但不包括吉卜力工作室的任何角色、品牌等,基本上不包括可受版权保护或可注册商标的东西),不会有任何出格的事情发生。

          我的意思是,艺术风格是不可受版权保护的,对吗?

          1. 你完全没有抓住重点。如果你只需要一个提示就能拍出一部电影,那么谁还会去投资制作像吉卜力电影这样的作品,而只是为了被抄袭呢?相反,人们只会抄袭已经做过的东西,一切都会停滞不前。

      3. 我想更进一步说,版权和知识产权是一种法律虚构,最终受益的是富人[那些能够花钱合法实施版权的人],而不是小艺术家。

        小艺术家创作艺术是有报酬的,而公司则从独占性中获益。

      4. > “我们怎样才能使艺术货币化 “仍然是社会的一个未决问题

        然而,在我看来,许多最好的艺术品都是在野外的元素中,而在家里的某个随意的地方。也可能是在某个人的收藏中被遗忘而流离失所。艺术的价值永远是个未解之谜。

      5. 吉卜力工作室这样的公司不会受到人工智能的伤害,而小型自由艺术家才会。

        1. 我认为,吉卜力工作室也会受到影响,因为他们的 “标志性风格”(我们过去常说的)–以前是一种受欢迎的景象,代表着某种讲故事的方式–将被贬低为庸俗的指标。(就像我们把肥皂剧与某些形象特征联系在一起,并认为它们是低价值作品的标志一样)。

          1. 我对此表示怀疑。“泔水属于哪部电影?” “哦,都不是?好吧 “是一个非常简单的搜索词

            1. 我很怀疑,当你面对一个你已经学会与大量低质量/低成本制作联系在一起的图片时,你会首先搜索可能的来源。

              (毕竟,这又是一个 “人工智能风格 ”的昙花一现的图像,显然没有经过深思熟虑,充其量只是一些名称的堆砌。或者是一些生成的、毫无意义的故事,你会很高兴,算法没有把你的孩子对准这些故事。你为什么要这样做呢?)

      6. >举例来说,吉卜力工作室的艺术风格被贴满互联网,这是否是吉卜力工作室的损失还不清楚。

        也许吉卜力工作室不仅仅是一种风格。也许人们看他们的作品并不仅仅是为了风格。

        大多数人不喜欢穿假衣服,不喜欢戴假手表或假首饰。因为这不仅仅是风格的问题。

        1. >大多数人不喜欢穿假衣服,不喜欢戴假手表或假首饰

          我不同意。大多数人不喜欢买了 “真的 ”东西后发现是假的。更多的人不介意假货,只要它质量高或价格低。

          1. 是啊,我有一些假冒名牌的东西,是别人送我的,我很喜欢,尤其喜欢它是假的。这让我觉得我在欺骗那些在乎东西真假的人,但我仍然可以享受我那件狂野的 LV 大衣,没人会检查衬里上的缝线以确保它是真的。我可以预见自己将来会买更多的假货,但我永远不会买真货。

      7. 几乎所有与我交谈过的艺术家或看到过谈论这种技术的人都说它是邪恶的,所以至少在这种企业滥用创意社区的受害者中,大家普遍认为它是不好的。

        > 但我不认为人工智能不加限制就会导致从事艺术工作的人减少。

        你能这么想很好,但实际上很多艺术家都说他们最近的工作越来越少了。也许这是经济不景气的结果,但我很难相信这项技术不会主动抢走人们的工作。

        1. >实际上,很多艺术家都说他们最近的工作越来越少了

          好。这意味着我们作为一个社会能以更便宜的价格获得更多的艺术作品。我早就厌倦了为艺术家的贪婪提供赞助。

      8. 版权是产权的必然结果。我同意财产权阻碍了工业和贸易的发展,但如果你想废除财产权,你首先必须取消食品、住房、公共基础设施和医疗保健等必需品的商品化,因为当市场控制了所有这些东西时,放开市场会产生一些非常不良的后果。

        1. 版权不是产权。产权是竞争性的。如果你拥有一个三明治,而其他一千个人都想吃你的三明治,那么只有一个人可以吃,所以产权的存在就是为了界定谁可以选择谁来吃三明治。著作和发现是非竞争性的。引用美国专利局第一任局长的一句话:

          > 从我这里得到思想的人,他自己得到了教益,而我的教益并没有减少;正如在我这里点燃火把的人,他得到了光明,而我的光明并没有变暗。

          知识产权 “一词试图混淆这些东西,为追溯性延长版权期限等净破坏性敛财行为辩护,因为传统产权不会过期,但版权却明确有意过期。

          1. 资本主义的定义是一种制度,在这种制度中,各种不是财产的东西被人为地变成财产,并被赋予可以交易的人为财产权。

            1. 当人们想把资本主义这个词用于一些糟糕的事情时,他们使用的就是资本主义的定义。

              在没有版权或专利的情况下,让人们拥有作为商业库存或生产设备的实体物品,并相互竞争以获得客户的美元是完全可能的。这样一来,你就可以依靠开源、慈善捐款和赞助、行业合资、个人痒痒挠等方式来创造著作和发明,但书籍和轮子在专利和版权出现之前就已经被创造出来了。

              1. > 那么,您将依靠…

                更有可能的是商业机密、NDA、非竞争协议,以及入侵性越来越强的 DRM。除了直接的经济激励外,知识产权法背后的部分逻辑是促进市场更加开放,因为这将在多个方面造福整个社会。

                例如,专利可以确保至少一些最基本的工艺描述得以公布,供他人借鉴。

                1. > 更有可能是商业秘密、NDA、非竞争协议,以及日益侵入性的 DRM。

                  这些也都是法律的产物。如果没有版权,就不会有《数字千年版权法案》。在许多情况下,它们无法发挥作用,例如,因为存在模拟漏洞,或者因为其运行机制是任何购买产品的人都可以观察到的。

                  在现代,由于世界的连通性,揭露这些事情的动机也要强烈得多。如果你所在的小镇上有两个车轮匠,其中一个拥有秘密工艺,那么除了另一个,其他人都不会用到它,如果他们发现了,他们甚至没有其他人可以告诉他们。

                  如果今天有人拥有秘密的视频编码策略,一些业余爱好者就会对其进行逆向工程,并将其发布到互联网上。

                  > 例如,专利可以确保至少有一些最基本的过程描述被公布出来,供他人借鉴。

                  你读过现代专利吗?它们难以捉摸,在允许的最大范围内,它们试图宣称做某件事情的整体概念,而不是描述具体的实现过程。

                  1. > 在许多情况下,它们无法工作,例如,因为模拟孔

                    小心不要把非法和无法混淆。

                    > 不能工作是因为]操作机制是任何购买产品的人都能观察到的。

                    这就是我对入侵性越来越强的 DRM 的看法。如果没有知识产权法,各行各业要想维持生存,唯一的办法就是只在有广泛安全保障的平台上交易。试想一下,所有付费服务(软件、流媒体和其他一切)都只能在只有一个或少数几个播放器的硬件验证设备上使用。

                    在假设的情况下,复制任何二进制文件都是明确合法的(即版权不存在),我想这就是我们会看到的情况。

                    > 如果今天有人掌握了秘密的视频编码策略,一些业余爱好者就会对其进行逆向工程,并将其发布到互联网上。

                    这就是专利存在的原因。当公司决定投资多少时,也会考虑到这一点。

                    值得注意的是,由于受专利限制的视频和音频标准不受欢迎(因此也不被采用),任何想直接获利的人几年前就已经放弃了。在这一点上,驱动它的是那些能节省大量下游成本的巨头。

                    > 你读过现代专利吗?它们高深莫测

                    是的,我知道。想想看,情况可能会更糟。没有任何提示,所有参与研发的员工都要遵守保密协议和非竞争协议。试想一下,在这种情况下,如果政府不出面阻止霸王条款的出现,劳动力市场会变得多么难以驾驭。想想这一切会给市场效率带来什么影响吧。

                    我的观点从来都不是不同意你的笼统说法(即在没有知识产权法的情况下,自由市场完全能够运作)。相反,我想指出的是,尽管有种种弊端,但知识产权法显然能提供一些集体利益,因为它大大减少了促使贪婪的个人违背共同利益的动机。

                    1. > 试想一下,所有付费服务(软件、流媒体和其他一切服务)都只能通过根植于一个或几个播放器的硬件设备提供。

                      我们已经有一些内容在尝试这样做了。这些内容都在盗版网站上。而这时候,破解 DRM 和盗版网站都是非法的。

                      他们根本不会采用先制作,然后再向用户收费的商业模式。取而代之的可能是订阅服务,但订阅是一种赞助,即你希望他们继续制作内容,如果有足够多的人有同样的想法,他们就能赚到足够的钱继续做下去。但他们发布的内容对所有人都开放。

                      >根据保密协议和非竞争协议参与制作的每一位员工。试想一下,如果政府不进行干预,防止在这种情况下出现霸王条款,劳动力市场将变得多么难以驾驭。想想这一切会给市场效率带来什么影响。

                      假设是这种 NDA 可以强制执行。如果不能呢?

                      > 这并不是要指出知识产权法的所有缺点,而是要指出,尽管有这些缺点,但知识产权法显然提供了一些集体利益,因为它大大减少了促使贪婪的个人违背共同利益的动机。

                      贪婪的个人可以通过禁止他们通过暴徒行为重组版权的企图来解决。真正的问题是,如果没有版权,有些东西就不会被创造出来,我们的生活会更好吗?

                      最理想的平衡可能是接近最初的版权条款,即你可以获得14年的版权,而且没有任何反规避的废话,实际上这些废话在其表面目的上是无效的,只是用来垄断消费设备,试图排斥与主要现有者竞争的作品。但现有的制度已经严重失灵,不知道这样做是否比什么都不做更好。

    2. > 艺术家的作品被吸走是不公平的

      我从不认为别人看了自己的作品并进行模仿对艺术家不公平。在我看来,自从第二个穴居人看到洞壁上的手绘作品,心想’嗯,真漂亮’,艺术家们就一直在这么做!我也想试试!”

      1. 你不觉得人工智能所能看到的图像数量和模仿速度的巨大差异是人工智能和人类复制作品或风格的根本区别吗?

        对人类来说,这需要大量的练习、时间和精力。但现在几乎不需要任何时间和精力。

        1. >对于人类来说,这需要大量的练习以及大量的时间和精力。但现在几乎不需要任何时间和精力。

          为什么这不是一件好事呢?

        2. 是的,但版权侵权并不取决于你查看和创作作品的速度。

          版权的目的是确保你创作的作品得到传播。它不是用来阻止别人创作艺术作品的工具,因为它看起来像你的艺术作品。这种情况已经存在了几个世纪,我们甚至根据艺术风格对艺术进行分类。试想一下,动漫必须遵守 “这是我的风格!”的版权解释。

          1. 当前的版权是对的。

            但你就没想过,现行法律和规则的制定方式是因为复制作品有多么困难和耗时吗?

            仅仅因为 “一直以来都是这样”,并不意味着当执行行为的手段发生了如此巨大的变化时,保持这种方式是可以接受的。

            1. 我不认为规则的存在是为了个人的利益,而是为了集体的利益。如果技艺高超的艺术家无法靠自己的作品维持生计,他们就不会存在。历史上没有其他选择。

              当机器可以做某件事情时,通常没有(对集体有利的)理由去保护与之竞争的个人。对反铲挖掘机进行管制并不是为了保护挖沟机。

        3. 建立人工智能系统确实花费了人类大量的时间和精力。运行这些人工智能系统也需要大量能源。

          我认为,由人类、计算机和图像语料库组成的系统产生新的图像,与由人类、画笔、画架、画布和图像语料库组成的系统产生新的图像,两者之间没有任何有意义的区别。强调 “新”–复制仍然是复制,仍然受版权控制。

          1. >建立人工智能系统确实花费了人类大量的时间和精力。运行这些人工智能系统也需要大量的能源。

            这些人和精力与制作和使用艺术品的人完全无关。

            在过去,每个人都必须单独研究艺术和某种风格,并进行多年的练习,才能真正很好地复制它。而每制作一件艺术品,他们可能要花上好几天的时间。

            我认为,这就是为什么复制别人的作品或风格并没有什么问题。因为即使这样做,每个人所花费的时间和精力也非常多。

            但现在,个人花费的时间和精力几乎为零。

            1. 我确实想知道,如果一个模型只对真正无版权的作品进行训练,并在此基础上进行衍生,结果会怎样。我不是人工智能专家,但据我所知,他们会使用一些模型来生成数据,并以此训练更多的模型。我对输出结果很感兴趣,无论如何,它最终是否会与我们现在所拥有的相匹配,因此版权问题最终可能会变得毫无意义。我想知道到那时,争论会如何转移?

              我认为,实际上,这可能为时已晚,因为现在互联网已经被人工智能生成的图像污染,无论如何,任何 “道德 ”模型都会消耗掉这些图像。

              1. 我预计它需要更多的人力来训练(即不再是完全无监督的)。我认为这种限制会导致大量的额外研究,以提高训练过程的效率,并开发出新的方法。

                换句话说,我认为这会在几年内耗费大量资金,然后我们又会回到现在的状态。

          2. 你不觉得一个人花数年时间学习手工艺术创作的技巧,花数月或数年时间学习和练习一些著名艺术家的风格,然后花数天时间手工绘制一幅具有原作风格和质量的作品,这两者之间有什么区别吗?

            这与一个人随便输入一个提示,就能创作出某种风格的图画之间的差别是巨大的。

            模型所看到的艺术品数量级比一个人一生所能看到和研究的数量级要多得多。

            在我看来,这两者有着明显的区别。

            我只是说,由于完成作品所需的时间和精力发生了巨大变化,也许规则应该改变。

            1. 因此,我们应该放弃所有重型设备,所有沟渠都应该用勺子挖。

              有时,技术会发生变化,过去几乎不可能完成的工作变得微不足道。

            2. 规则的确会改变,但作为一个功利的社会,只需决定是否继续前进。不会有什么艺术家集团来决定规则如何改变。它将是有机的。就像从洞穴壁画到印象派一样。

      2. 没错,不同的是,这是一家大公司在研究它,然后复制并转售它而不注明出处,如果没有模型的间接作用,基本上每个人都会认为这是坏事。

        编辑:这里的关键词是 “公司 ”和 “转售”

        1. 但这不是复制和转售,而是模仿。

          复制受版权控制。而模仿不受任何控制。

          至于公司:公司就是一群人一起行动。

          1. #1,强迫直接复制模型是非常容易的,艺术家如果画了模型就会被追究侵权责任,但转售受版权保护的艺术品的公司却不会受到任何处罚

            #2,是的,这是一群人,他们一起建立了一种算法,学会从其他人制作的图像中提取特征,以便在高维空间中生成介于这些图像之间的图像。他们出售这些图像,却不给被 “插值 ”的图像任何信用或现金。请注意,这并不包括开源,商业方面才是盗窃。

            现实情况是,法律不是根据其文字而是根据其精神来解释的。人工智能的存在离不开其训练的艰苦工作,而输出结果往往与输入结果相似,近似于复制,因此出售这些输出结果而不对训练集中的艺术家进行补偿应该是非法的。不会违法,但应该违法。

            1. > 如果艺术家绘制了模型,他们可能会被追究侵权责任,但转售受版权保护的艺术品的公司却不会受到任何处罚

              模型的目的不是为了制作精确的复制品。这就好比说你可以利用互联网来侵犯版权。你可以,但选择使用的是用户,那么是 AT&T 和微软的责任,还是侵权用户的责任?

              > 他们出售这些图片,却不给被 “插值 ”的图片任何信用或现金。

              问题的很大一部分在于机器没有资格当法官。

              假设你要求的图片是咕噜,但他要的不是魔戒,而是 PewDiePie。如果你是 PewDiePie,你想在你的频道广告中使用这张图片,你可能就有麻烦了。

              但华纳兄弟却因为付钱给 YouTubers 推广《中土世界》而陷入丑闻: Shadow of Mordor》,但却没有公开酬劳。如果你制作图片是为了批评该公司的行为,这很可能是合理使用。

              该服务无法知道你为什么想要这张图片,那么它应该怎么做呢?在第二种情况下,法律要求他们拒绝你的要求就是限制公众的权利。但这是同一张图片。

              同时,在第一种情况下,你并不需要生成该形象的公司做什么,因为华纳兄弟公司可以起诉 PewDiePie 未经许可在商业广告中使用该角色。

              > 注意,这并不包括开放源代码,商业方面才是盗窃。

              我们也不太清楚这到底是怎么一回事。例如,《稳定扩散》已经发布。你可以在本地运行它。如果你购买了 Nvidia 或 AMD 的 GPU 来运行它,这算不算商业使用?GPU 制造商会有麻烦吗?如果你付钱给像 AWS 这样的云服务提供商,让他们使用你的 GPU 来运行呢?您也可以付费使用 Stable Diffusion 的制造商 Stability AI 提供的云服务。这种情况与其他情况有什么不同吗?有什么不同?

              1. >这就好比说你可以利用互联网侵犯版权。

                我认为,可以将其与搜索引擎进行比较,以帮助阐明这里的问题。与图像基因一样,图像搜索也是使用基础架构+算法,在特定空间(无论是索引图像空间还是模型的潜在空间)内返回与文本输入最匹配的图像。不过,两者之间马上就会出现质的区别。搜索公司作为一个实体,并不以任何方式为作品邀功;它将自己标榜为并作为一种机制来运作,将用户与他人的作品联系起来,为了实现这一目标,它在技术限制(网址)的情况下,合理地提供了最多的归属。

                对我来说,这就是区别所在。图像基因公司,至少我所知道的所有图像基因公司,更多地把自己定位为一种你可以委托的伪艺术家。他们不提供归属方式,而是故意混淆被搜索到的源材料。你是否愿意将生成过程等同于一种出于法律目的的搜索,这才是真正的核心分歧所在,除了直觉之外,我觉得我无法证明这一点。

                那么,有什么解决方案,有什么商业模式能让我觉得争议较少呢?如果一家人工智能公司开发出一种方法,例如将激活模式与源材料索引相关联(或者干脆在输出数据与训练数据之间提供有效的相似性搜索),作为一种善意的归因方案,并公开所使用的训练集,在营销中直言不讳地说明它对源材料的依赖性,那么我将很难对它产生同样的问题。在道德方面,它将远远领先于目前的公司。不过要说明的是,我不是律师。我不能说图像基因如何融入当前的法律体系,也不能说它是或不是。我的论点是道德方面的;我认为,营利性图像基因公司的不道德行为应该受到法律的约束,必要时可以通过新的法律。我觉得这应该也能回答你的其他问题,但如果我遗漏了什么,请告诉我。

            2. 我想我不明白你说转售受版权保护的艺术品的公司不会受到惩罚是什么意思。为什么不会呢?如果我复制吉卜力工作室的电影并出售,如果被抓到,我绝对会面临处罚。

              1. 一个常见的笑话是,输入一些企业知识产权的描述,然后让 ChatGPT 生成,而不用直接说出来。很多人都付费订阅了这样的服务,生成的企业 IP 可能会被艺术家起诉,但如果我没记错的话,我相信 OpenAI 并没有面临任何法律问题,只是举个例子而已。

          2. 你需要复制作品才能用于人工智能训练。

            1. 我认为这对非商业使用没有问题;一旦人工智能输出被出售,问题就来了。

    3. “公平 ”并不重要。唯一重要的共识是什么是合法和有利可图的。前者似乎已基本确定有利于人工智能,但对于大型媒体公司是否享有小型艺术家所没有的保护,还存在一些悬而未决的问题。(当某个人工智能公司最终决定让他们的模型模仿迪斯尼的东西时,这场法律战将是史诗级的)。能否盈利还有待观察,但在投资者资金充裕的情况下,这并不重要。

      1. > 前者的判决似乎基本有利于人工智能

        目前,针对人工智能公司的案件还没有判决。有很多诉讼正在进行中。

        > 但在投资者资金充裕的情况下,这并不重要。

        每天都有越来越多的人意识到这是多么浪费。

    4. > 这在两三年前是一个很重要的讨论,后来我们在网上进行了讨论,然后大家或多或少都认为,艺术家的作品被吸走,却没有任何追索权,这对他们是不公平的。

      你自己说吧,网上并没有达成共识。我们当中有很多人认为,大幅扩大版权的权力是一个巨大的错误,这将主要有利于大公司,而对保护或资助小艺术家没有什么帮助。

      1. >我们当中有很多人认为,大幅扩大版权权力将是一个巨大的错误,这将主要有利于大公司,而对保护或资助小艺术家几乎没有帮助。

        现状也主要有利于大公司,而对保护或资助小艺术家几乎没有任何作用(如果我们是认真的,那就是完全没有作用)。

        持有以下两种观点都是合理的: 1)艺术家没有得到补偿,即使他们的作品被这些工具使用;2)大规模扩大版权并不是对 1)的适当回应。

    5. > 这篇帖子应该说的是 “我们知道这对艺术家不公平,但科技公司从他们身上赚了太多的钱,我们没有办法迫使他们改变”。

      公司会按照自己的喜好滥用你的个人数据,他们可以对收集到的你的信息为所欲为,因为 “如果它是免费的,你就是产品”(即使你付了钱,“你也应该知道得更清楚 ”等等),这似乎是一个不争的事实。后来,GDPR 及其国际衍生品的出现改变了这一状况。

      技术上没有实际市场垄断地位的公司可以在其垂直整合的围墙内为所欲为,这似乎已是不争的事实,因为竞争对手可以创建自己的垂直整合围墙来与之竞争,而市场规则并不适用于围墙。后来,DSA 和 DMA 的出现改变了这一状况。

      我不明白为什么立法也不能改变这一点。当然,就像 GDPR、DSA 和 DMA 一样,我们会听到自由主义者、巨型企业和天马行空的运动说这一切对母婴初创企业有多么不公平,以及这将如何毁掉经济,但我认为,鉴于美国目前对本国经济(以及全球经济,因为我们都是相互联系的)所采取的角度,我认为这在政治上不再是一个有效的论据。

    6. >> 艺术家的作品被吸走是不公平的

      我们可以用什么框架来决定一件事是否公平?

      风格不应该受到版权保护。我可以用 X 画家的风格作画,我可以用 Y 作家的风格写作,我可以用 Z 作曲家的风格作曲。

      万物皆有风格。穿衣有风格。说话也有风格。甚至写数学证明也有风格。

      抄袭别人的风格可能反映出判断力差、品味低和缺乏原创性,但这不应该是违法的。

      任何从事艺术创作的人都不应该只有一种风格。他应该有独创性的想法,有远见,有讲故事的方式,有让人们自问自答的方式。

      风格只是一种工具。如果一个人只有风格,那么祝他好运!

      1. 它已经比 “风格 “走得更远了。https://www.404media.co/listen-to-the-ai-generated-ripoff-so…

      2. 在音乐领域,有人可以唱出与他人相同的风格,但如果模仿到了品牌混淆的地步,让消费者认为产品来自 X,而实际上来自 Y,这显然就越界了。

        1. 这是否真的越界了?我相信有些消费者会认为火箭联盟与国际足联有关,或者吉卜力工作室的电影是迪士尼制作的。但这些问题并不普遍,因为我们有一套健全的商标制度,它划出了一条明确的界限:你不能以造成混淆的方式使用商标名称或图标。但如果有些人在听奥利维亚-罗德里戈的 “good 4 you “时以为自己在听帕拉莫尔的歌,因为他们的风格相似,这从来就不违法

          1. vanilla ice vs queen一案并不支持你的说法。

            1. vanilla ice 完全抄袭了 queen 的基线,而不仅仅是 queen 的风格。(更何况它从未上过法庭)

  5. 吉卜力潮流完全错过了真正的突破–这就是。紧跟文本、理解输入图像并保持已有图像上下文的能力是图像生成技术的巨大飞跃。虽然 Midjourney 带来了令人惊叹的视觉效果,但我始终难以从中获得任何具体信息,这使得它在实际工作流程中几乎毫无用处。

    4o 是第一个真正有用的图像生成模型,而不仅仅是漂亮的东西。它可以生成漫画、应用设计、用户界面模型、故事板、营销资产等等。我还看到有人用它制作了人物一致的多格漫画。显然,它并不完美。但只要能达到 90%,就能改变游戏规则。

    1. 我曾让 chatgpt 用美人鱼 js 生成一个工作流程图,然后写一本斯科特-麦克劳德风格的漫画书来详细解释,虽然有些细节有点错误,但看起来非常有说服力。就差一点就能制作出完全可用的图形了。

  6. 听到人们站在艺术家一边是很有趣的,因为在这个论坛以前的讨论中,我认为版权时间太长,得到了很多人的赞同/同意。

    正如我在过去所主张的那样,我认为版权应该持续五年左右:在这个现代时代,作品的货币化(通常)并不需要花费很长时间。我很乐意同意通过某种续展程序来延长这一期限,尤其是在某些货币化方法正在实施的情况下。或者某种机械版权程序来取代早期的 “公有领域 ”阶段。或者别的什么–我还没有想得那么深。

    在这个过程中,我想到了:每个人都在 “吉卜力化”。吉卜力工作室已经存在了将近 40 年,他们的 “风格 ”早在 35 年前就已经确立。对我来说,这(应该)使其成为公平的游戏。

    我认为,潜在的假设是所有 “挨饿 ”的艺术家都被剥削了,但他们真的被剥削了吗?让我们考虑一下数字–有少数大型艺术家的作品显然是可以复制的: 吉卜力、辛普森一家、皮克斯等等。他们中没有人会因为机器模型可以按照他们的风格渲染一张舞会照片而饿肚子。然后是其他 99.999% 的艺术家,他们的所有作品都是通过模型完成的。他们会受到伤害,但并不是因为他们的风格被吸收,人们想要复制他们的风格。

    相反,他们会受到伤害,因为没有人了解他们的风格,也没有人关心他们的风格;人们只是想说,比如 “给我这张照片做一幅炭笔插图,但要让我坐在山里的马上”。

    这很像过去关于盗版的争论:99.99% 的人永远不会花钱请艺术家创作炭笔素描。0.01%的人可能会因为没有使用艺术家的作品而对他们造成伤害,但其他人从一开始就不会付钱。

    这一切都很复杂,而且很明显,情况正在发生巨大的变化,但如果没有一个合理的计划来说明如何做到这一点,也没有一个更好的论据来说明为什么,就很难提出 “艺术家的作品被用来训练模型,他们需要得到补偿 ”的论点。

    1. 我同意限制版权,但会根据赚取的金钱而不是时间来限制版权,比如当你赚到 X 万美元时,作品就会成为公共领域的作品。

      举个具体的例子–《权力的游戏》于 1996 年上映。它很早就获得了各种奖项,但直到 2011 年才成为《纽约时报》的畅销书,当时电视剧刚刚播出。

      如果作者因为自己的作品 “慢热 ”而失去了所有版权,而 5 年过去了,他们却几乎没赚到什么钱,这对作者来说是很残酷的。

      1. 这是一个超级有趣的想法,但《GoT》似乎是高度挑剔的作品:如果要求作品哪怕只挣到1000美元,绝大多数作品都不会脱离版权。

    2. 嗯。

      在我看来,那些希望版权是终身+70 的论调总是让人觉得他们有权这么做。他们声称自己的孩子可以继承遗产,而中位数的人无论如何都不可能继承很多遗产,而且 70 年不仅仅是下一代的事,而是下两代半人的事。

      我不知道确切的版权期限是否合理,因为世界变化太大,不同媒体的表现也不尽相同。我觉得任何人都无权以版权为由阻止重制 C64 游戏,但对于同年出版的书籍,我就不一定这么说了。

      从我所看到的具体图书销售分布情况来看,即使是排名前 100 位的畅销书,其销售额也往往不足以证明所花费的时间是值得的。我认为,艺术经济方面最大的问题之一是(1)复制成本低,以及(2)所有其他艺术家。

      就前者而言: 一个世纪前,曾有政治运动警告说,当电影院从现场乐队转为录制音乐时,文化将会流失[0];如今,如果我愿意,我可以花很少的钱聆听(我听说)1 亿场音乐演出中的任何一场,观看 124 万部电影或电视节目中的任何一部。即使在 GenAI 之前,图形艺术的数量也似乎无穷无尽。

      就后者而言: 对于查理-斯特罗斯(Charlie Stross,他有时会出现在这里)等在世作家的每一本新书,我有限的时间也会用来阅读,以及柯南-道尔(Conan Doyle)、拉里-尼文(Larry Niven)或特里-普拉切特(Terry Pratchett)全集等大量经典老书。

      [0] https://www.smithsonianmag.com/history/musicians-wage-war-ag

    3. 作为一个非常关注吉卜力的人,我不敢说他们的风格在 35-40 年前就已经确立了……从《直树》到后来的作品,他们的风格在艺术风格和哲学内涵上都有了相当大的演变和完善。

      我认为,如果允许公平竞争,就会毁掉我 40 年来所看到的相当美丽的东西,我希望看到它自然而然地结束,而不会因为人工智能化而困扰他的作品。

      1. 是的,他们的风格当然不是一成不变的,但我是把《琪琪的快递服务》(1989 年)作为一个节点,在这个节点上,他们的大部分视觉风格都已相当成熟。

        1. 我同意,当时他的一些主要元素已经相对固定,但其他元素还在继续演变。我个人觉得,他的作品在他死后是完全公平的,我的意思是说,在他倾注了全部心血的旅程结束后,从对人类的价值和对他这种价值的尊重来说,我认为尊重他生前的意愿是合理的。

    4. 我觉得,一个愿意花钱请艺术家画炭笔素描的人,不太可能对人工智能的替代品感到满意。

      你购买艺术品不仅仅是为了它的艺术性,你购买它还有很多原因,而人工智能并不能给你带来同样的满足感。

      1. 我支持为艺术家的作品支付报酬。不幸的是,和纹身艺术家一样,有些艺术家的作品效果平平,但收费却很高(我自己也做过纹身,对艺术也略知一二)。比如,对不起,如果你想靠艺术赚钱,请你一定要精通艺术……

        1. > 有些人只是以平庸的效果严重超额收费

          如果人们付钱,那么他们就不是 “超额收费”

          1. 在纹身行业,人们没有其他地方可去。半个袖子要价超过 1 000 欧元是非常高的。如果人们付钱,他们往往没有足够的其他选择。

            1. 考虑到所需的时间投入和基本的生物学、解剖学和健康知识网络,我认为这并不是一个疯狂的价格,前提是艺术家能够创作出所要求的艺术作品。

              1. 说实话,你几乎什么都不需要知道,最重要的是如何深入针头和消毒。其他的都不太重要。

                1. 一位浓墨重彩的朋友向我详细讲述了对皮肤弹性的理解–特别是它在人的一生中是如何变化的–以及关节和肌肉的变化方式和视觉线条的扭曲等。在我看来,这确实是一门技术活。

                  而且,我不知道,针刺入肉体的深度和卫生条件在我看来都不是小事。

                  1. 人们喜欢把事情说得比实际更难。我给人纹身,我了解皮肤类型,通常这不是大问题,除非有严重的疤痕。纹身机的质量最重要,我在 eBay 上买的那台 70 欧元的临时纹身机还不如一台正规的纹身机。墨水量、针的深度、皮肤类型、汗水也很重要。但这些都是你在第 20 次纹身后才知道的。这就像编程中的数据类型知识。经过一段时间的练习,你就会知道了。

                    1. > 人们喜欢把事情说得比实际更难。

                      根据我的经验,人们往往会低估或淡化某件事情的难度或复杂程度。这种情况不仅会发生在对某件事情知之甚少的人身上,也会发生在经验丰富的人身上,因为这对他们来说已经习以为常、轻而易举了,他们可以迅速评估情况,知道哪些因素不适用。

                    2. > 但这些都是你在第 20 次纹身后才想明白的。

                      所以……在花了数百甚至数千小时学习一项技能之后?

                      我以前也纹过身,还特意去找了一个排里的人说不错的人,因为他曾在杂志上发表过文章什么的。在我看来,在第一次而不是第 20 次尝试时就把它做好是一件很重要的事情。

                    3. 20 个纹身几百个小时?笑死我了。

                  2. 穿透是练习,卫生基本上是使用手套和高压灭菌器。

                    1. 还得换针头,用点药膏,人们真的高估了纹身的难度

        2. > 比如,对不起,如果你想靠艺术赚钱,请你一定要擅长它……

          根据定义,几乎一半的艺术家都比中位数差。难道这一半人就不应该得到报酬吗?

          1. 是的。他们应该找一份真正能维持生活的工作,而不是哭诉人工智能抢了他们的饭碗。

            他们总能投入更多时间,变得更好。反正我也想象不出他们有多少付费客户。

            1. 我一直在等待实物再次变得重要。人工智能不会为陶瓷人而来。

              1. > 人工智能不会为陶瓷人而来。

                *看着桌上显然可以处理陶瓷纤维的 3D 打印机,想着超市里出售的所有批量生产的陶瓷*

              2. 我觉得那会很棒。传统艺术市场远没有数字艺术市场那么大。我很希望人们重新重视传统艺术,因为我只做传统艺术。

                1. 取决于利基市场。交易卡游戏或漫画的原创实体艺术是典型艺术家收入的重要组成部分。而数字艺术在这些利基市场中则没有这样的收入来源。不过,数字艺术也有其他利基市场,在这些市场中,实际佣金率足够高,不会出现这种问题。

            2. 那剩下的一半低于新中位数的艺术家怎么办?

              1. 应该已经有了一些客户,已经足够好了。

                1. 这方面的问题在于,人们并不是要求像来自托皮卡的 Raven 那样,通过 Etsy 商店用人工智能生成图像。他们要的是吉卜力。因此,生计受到最直接影响的是(假设他们还没死几个世纪)那些著名的、有才华的、引领潮流的艺术家,而不是那些制作糟糕的 “珍贵时刻 ”山寨版的低层艺术家。社会的问题在于,人们不愿意为劣质的《珍贵时刻》山寨版付费是理性的,而不愿意为高质量的专业创作付费(比如吉卜力工作室)则是疯狂的。

                  1. 就好像吉卜力的风潮不是一个短暂的风潮,人们在四周内就会忘记它一样…… 我也不在乎什么大制片厂,反正他们都是印钞票的。

                  2. 难道吉卜力的风潮就不能让他们通过发行新片或在电影院放映《龙猫》大赚一笔吗?

                    1. 这就是规模宏大的 “艺术家应该感谢为曝光而工作”。

                    2. 只不过他们并没有为曝光率做任何工作。如果是一家营销公司来执行 Ghiblify 一切模式作为公关噱头,我们会称其为十年来最天才的创意活动

                    3. 但他们确实这么做了。除了具体的创意作品之外,该工作室还参与了大量的工作,并创造了良好的意愿。他们的视觉风格与这种善意息息相关。未经同意使用视觉风格牟利,至少在道德上是盗用他人的价值。而 “我使用了你的创意作品,你应该感到高兴,因为现在会有更多人知道你,你也会因此赚大钱!”则是盗用创意最古老的辩护词之一。

                      我一点也不生气。我们的社会在重视艺术家和创意人士方面做得很糟糕,在解释无形事物的价值方面也做得很糟糕,尤其是像善意这样的东西。几十年来,人们一直在盗用字体、剪贴画和屏幕截图来制作演示文稿和海报什么的,复制巧妙的品牌理念和他人的创造性努力,等等,所有这些都没有恶意。这是我们需要解决的问题,而且永远不会解决。但当这成为另一个人直接获利的渠道时,它就开始脱离了无害性。

    5. >在本论坛以前的讨论中,我曾得到过很多人的支持,认为版权太长了。

      从广义上讲,这是因为大多数关于版权(长度/范围)的争论都是针对企业攻击艺术家个人的,而关于版权(人工智能/范围)的争论则是针对企业攻击艺术家个人的。

    6. > 我认为版权应该持续五年左右:在这个现代时代,作品货币化(通常)不需要花很长时间。我

      有趣的是,说这种话的人从来都不是内容创作者(货币化意义上的)。

      1. 这个平台上有很多程序员(包括我自己),我喜欢我的工作能对他人产生影响。

        我有很多公共仓库,也从其他公共仓库中受益匪浅。我希望法律硕士们能利用我的代码。

        我写了多年博客,但没有任何盈利。我希望我的想法能影响到一些人,如果能对法律硕士的推理产生一些影响,我会很高兴。

        我知道专利流氓,也认识一些有亲身经历的人。

        因此,我产生的内容比一般人要多得多,我仍然支持更加宽松的知识产权,因为我认为他们已经做得太过分了,而对于我这个内容创作者来说,能够访问他人的作品并使用像法律硕士在他们的作品上培训过的工具,净收益要大得多。

        1. 免费发布内容与出售内容是不同的。

      2. 我个人的偏好是(比如说)15-20 年。

        而且,作为一名内容创作者,我言行一致–至少在我的诗歌方面是这样:https://rikverse2020.rikweb.org.uk/blog/copyrights

      3. 这并不影响我的论点的正确性,但我过去曾出售过商业软件,而在 21 世纪的大部分时间里,这些软件都将受到版权保护,这实在是太荒谬了。

      4. 我的意思是,这就像说反奴隶制的人应该成为奴隶主,这样他们就能理解赚钱的艰辛一样有用。

        我的例子极端荒唐,不如用

        >当一个人的薪水取决于他是否理解某件事情时,很难让他理解这件事。

      5. 如果你在博客上发表一些不错的原创长篇文章,可能需要更长的时间才能获得关注。用 “自己 ”的措辞复制内容很快就会变得模糊不清。

        我喜欢实用的角度。任何需要监控每个人都在做什么的公式都不值得考虑。诉诸传统不应适用。

    7. 认为版权条款应该缩短是一回事,而接受少数公司应该能够完全按照自己的条款强行缩短某些行为者的版权条款又是另一回事。

    8. 随着年龄的增长,经历了更多普遍观点的循环,你会意识到几乎每个人都是为了自己,为了什么对自己最有利,并支持与之相一致的说法。

      2007: 版权是垃圾,必须废除(这样我就能免费获得音乐/电影)

      2025: 版权需要加强(这样我的艺术能力才能保值)

      1. 正确。这就是为什么施蒂尔纳是最好的哲学家。https://en.wikipedia.org/wiki/The_Ego_and_Its_Own

        除了利己主义,别无其他。

      2. 你忘了:

        2024: 你说我不能对人工智能生成的艺术品进行版权保护是什么意思?

    9. 这听起来更像是你没有看到艺术价值的问题。你为什么希望激励机制对它们不利?

    10. 我以为美国现在就想重新工业化?那么5年的时间对于保护你的投资来说实在是太短了。

    11. 吉卜力之争与纳斯达克之争如出一辙。也就是说,有一套大家都认为固定不变的既定规则,现在却被彻底打破了。无论是创意产业还是一般的商业行业,都在试图弄清楚,在一套完全不同的、多变的法规(无论是版权法还是关税)下,生活会变成什么样。

      难怪萨马和特朗普如此亲密无间。他们都看到了同样的遗产。

  7. 目前的图像生成器给我留下了深刻印象,如 4o / Leonardo 等,但我迫不及待地想让它们加入一些实际 “检查其工作 ”的步骤。让它生成一块时间为 6:37 的手表。每次都会失败,因为几乎所有的手表照片都设置了特定的时间,而最初的 “我这样做对吗 ”检查似乎可以确认这一点。时间的例子很琐碎,但 “考虑到用户的要求,这样的输出是否合理 ”的一般检查将非常有价值。

  8. 我对 “老 “方法的工作原理有了合理的直觉,但我仍然不了解这种新方法。

    “在多模态图像生成中,创建图像的方式与 LLM 创建文本的方式相同,一次创建一个标记”

    是否有某种方法可以将这些 “图像标记 “可视化,就像我可以查看标记化文本一样?

    1. 想象一下,你将图像切割成 32×32 像素的块。然后,对于每个块,你可以从 128,000 种变化中选择 1 种。然后进行后期处理,平滑块与块之间的边界,调整小细节。这就是转换器图像生成模型的基本工作原理。

      因此,这一过程与古老的固定字体 ASCII 艺术极为相似。只是现代人工智能的字母表更大,因此可供选择的字符形状也更多。

      1. 我不明白这怎么能产生一致的图像。在文章中,文字可能是在网格上,但窗户、门口和沙发似乎并没有在网格上对齐。(或者文字是叠加的?)

        1. 该模型向前看,就像 LLM 向前看一样。大语言模型(LLM)会逐个标记输出,但仍能输出一个完全连贯一致的故事。这种新的自动回归图像模型也是如此。

    2. 我没有看到任何关于 OpenAI 模型如何工作的细节,但它生成的标记并没有直接转化为像素–这些标记可能被输入到一个扩散过程中,从而生成实际的图像。代币是实际图像生成过程的潜在空间或条件。

      1. > 我还没有看到任何关于 OpenAI 的模型如何工作的细节

        没错。人们只是自信地胡编乱造。可能的方法有很多,没有细节,“原生生成 ”只是一个没有明确定义的营销术语。这是一个专有系统,没有代码发布,没有出版物。我们根本不知道它到底是如何实现的。

        1. Open AI 都说它是原生图像生成和自回归。它也有这样的迹象。

          它可能是 VAR (https://arxiv.org/abs/2404.02905) 的一种实现方式–自回归图像生成,但有一点小变化。它不是直接预测目标分辨率下的每个标记,而是从小分辨率开始预测,然后不断提高,直到达到所需的分辨率。

  9. 我一直在等待,什么时候我能提供《银河系漫游指南》(或任何书籍)中的一个场景片段,它就能为我画出来。黄金星球、在海滩上醒来、全视角漩涡等等。

    我很喜欢这本书,但其中有不少场景很难可视化,也很难理解。如果有一个图像生成器能跟上这些语言和细节,那就太棒了。如果能在后续版本中保持一致,那就更棒了。

    1. 我以前也看到过类似的内容,但我不得不说,我完全不理解这种愿望。我为什么需要一台电脑来向我展示书中的内容?我已经有了想象力!

      从根本上说,书籍是作者和读者之间合作的艺术形式。作者提供蓝图,但要靠读者在自己的头脑中构建场景。每个读者都会根据自己对书中事件的想象做出略有不同的解释。这种想象和重新插入的行为是我喜欢读书的原因之一。

      让电脑为你做视觉化处理,完全破坏了书籍的吸引力和趣味性。如果你不想自己把书视觉化,我不得不怀疑你为什么要看书。

      如果你需要视觉元素,那就看电影或漫画书什么的吧。这并不是对电影或漫画的轻视!它们是神奇的媒介,能够利用视觉元素来传达思想,而书籍却很难做到这一点。而且,这些视觉效果会形成比人工智能输出的更有凝聚力的艺术视觉,因为它们是作品中有意整合的一部分。

      1. 你把这说成是一个不公平的愿望,我觉得这本身就是不公平的。我喜欢这本书,我喜欢在脑海中想象它,我幻想着场景的样子。人工智能不会生成真实的视觉效果。无论如何,这都是幻想,而人工智能可以按照我脑海中的方式来实现。它将巩固这种想法。

        特别是这本书,我读过漫画版,我不太喜欢它的视觉效果。我对巴别鱼有不同的理解。沃贡人看起来也不一样。我很想在纸上看到我脑海中的视觉效果。

    2. 我很喜欢这个想法,但我觉得我必须说,我已经很清楚受到全透视漩涡影响的人会是什么样子。当我第一次读这些书的时候,我立刻就有了一个直观的印象,而且当我再次读这些书的时候,这个印象从未改变过(一次又一次……)。

      我不知道这对我们两个人有什么影响,但我想说的是,你的 “很难想象 ”的定论在很大程度上是主观的。

      1. 漩涡也许不那么难想象,但还有其他很难想象的东西。我已经读到第三册了,但我不知道 Beeblebrox 的两个头是什么样子。第二个头经常被顺带提及。有时提到它时它总是在那里,有时感觉它只是从某个地方冒出来,否则就像它不存在一样。

        他们第一次被船救起时,在海滩上看到自己的那一幕。这一点很难把握。还有飞船内部、舰桥、面板等等。还有他们偷的那艘黑船。

        但可能只是我对这些概念难以理解。

        这不仅仅是场景难以可视化的问题,即使我可以在脑海中看到它们,我也想在纸上看到它们,因为这些东西让我兴奋。

        1. 我们有图片的alt文本,你也想要文本的alt图像。

          你可以通过观看 BBC HHGTTG 节目(Mark Wing-Davey)或电影(Sam Rockwell)等其他版本,了解其他人对 Zaphod 两颗头的解释,这些版本提供了完全不同的解释,没有一个是正统的(其中最重要的原因是,根据 DA 的说法,HHGTTG 没有正统的版本)。我确信 deviantart 上有大量 HHGTTG 的粉丝作品。让人工智能生成图像并不能提供更 “官方 ”的可视化效果。

          Zaphod 的第二个头被提到也是理所应当的。如果一个角色跛了脚或剪了个疯狂的发型,也不会每次都被提及,因为这与正在发生的事情无关。而且书中提到,一个头经常分心/睡觉,所以听起来你确实能很直观地看到他的两个头是什么样的。

          虽然我理解人们的思维方式不同,有些人更倾向于形象思维,但通过文字表达的概念有相当一部分是难以用视觉表达的思维定势。一张图片可能胜过千言万语,但写作的精髓通常不是概念的视觉表达。这就是写作的好处:你可以自己填充视觉效果,这也是粉丝们讨论的素材。

          (顺便说一句,Hotblack Desiato 的飞船只会是黑色的。你的眼睛无法聚焦在上面。就连控制按钮也是黑底黑标。除了黑色之外,这里没有任何可视化的东西)。

          1. >Hotblack Desiato’s ship would just be black

            如今,我们有了这么黑的油漆,虽然我们无法在显示器上重现这种效果。

            这些超级黑色真的会扰乱你的思绪。就像是虚空的剪影。

          2. 我同意,人们对事物的理解和想象是不同的,这就是我的观点。我希望以一种坚实的视觉形式看到我脑海中的概念。有些概念并不清晰,比如我提到的那些难以理解的概念,我希望看到任何形式的视觉呈现。我可能会不喜欢其中的一些,但这些工具可以帮助我生成一堆专门为我定制的变体。我可以选择其中一种,然后继续使用。随着阅读的深入,我还可以了解更多细节。

            如果有人能准确地告诉我我在想什么,那岂不是太棒了。

        2. 我再次表示不同意–我想这也加强了整个主观性的角度。我很肯定 Zaphod 的两个头是并排的,以至于在最近的电影改编中,这让我非常生气(让我们面对现实吧,还有很多其他候选者)。

          我不知道书中是否提到了头颅的 “布局”–我得回去查查–但当一本书变成电影,却与我内心的想法不一致时,往往会让人感到非常刺耳(而且他们的考虑也太不周全了)。

  10. > 结果虽然比不上专业设计师的设计,但也是令人印象深刻的第一个原型。

    我喜欢看看我们从早期的稳定扩散到现在已经走了多远。那时候玩它很有趣,但很快就发现它很 “普通”,不适合 “实际工作”,因为它缺乏一致性、文本功能、手指!等等…… 现在看到这些结果,我对其质量、一致性和易用性感到惊讶。在文字上进行炼金术,并在提示语末尾添加一大堆 “采用鲁特科夫斯基风格、金色时光、高清、4K、漂亮请…… ”的日子一去不复返了。

  11. > 问题不在于这些工具是否会改变视觉媒体,而在于我们是否有足够的思想来有意识地塑造这种改变。

    遗憾的是,我认为这个问题的答案是响亮的 “否”。

    深思熟虑地进行塑造的时机是几年前。现在的感觉是,我们正急速走向一个只能收拾残局、评估损失的未来。

    这些工具令人印象深刻,无疑将为现有的艺术家和无法进行艺术创作的人们带来新的可能性。

    但我认为,这将是一个艰难的过程,无论我们达到什么样的新平衡,都将是许多动荡的结果。

    艺术家的就业机会不会消失,但市场的某些部分会使用人工智能,因为它更快、更便宜,而且不需要耗时的迭代和愿景沟通。对许多人来说,这样的结果已经 “足够好 ”了。

    我是作为一个发现这些工具对思考有极大帮助的人说这番话的。我患有幻觉症,通过人工智能进行视觉化的能力非常出色。但我无法让自己真正发布这些可视化成果。越来越多的博客和 YouTube 频道并不赞同我的观点,每次在野外遇到它们,我都会感到 “恶心”。看看是否会有更多人产生这种感觉会很有趣。

    1. >但我认为,这将是一段艰难的旅程,无论我们达到什么样的新平衡,都将是许多动荡的结果。

      老实说,视觉媒体似乎只是一个开始。在过去两年里,我们看到的机器人技术进步与过去 20 年差不多。如果这种势头保持下去,那么我们谈论的就不仅仅是艺术家的问题了。

      1. 老实说,我对立法机构和组织在划清界限方面的所有项目和努力感到非常鼓舞–比如通过水印来明确标注某件东西是否是人工智能生成的–以及各行业为保护生计所做的努力,特别是在创意领域,人类的意向性和感觉仍然是最重要的。我们已经看到、正在看到并将看到文化和社会对这样或那样事物的接受和反弹,但我相信我们会适应的。归根结底,由于网络本身的存在,艺术家甚至其他人工智能研究人员在很多方面的反弹已经相当巨大–主要由于缺乏网络,对互联网的监管在指数级规模上的实现要慢得多。我仍然乐观地认为,我们会找到哪些领域需要人工智能,哪些领域不需要人工智能,哪些领域人工智能是有害的。

  12. “如何构建一个棋盘游戏 “信息图表现在看起来就像我在 Linkedin 上的一半 “feed”,只不过是一个棋盘游戏,而不是随机的基础编程/招聘/销售话题。

    Feed “用引号是因为我的 ”Feed “似乎有 90% 都是推荐文章。

  13. 我通常同意加里-马库斯的大部分观点,但我真的很想听听他对此的看法。他举的一个例子是 “系统无法生成一匹骑在宇航员身上的马”,事实上,我以前也试过很多次,但总是把宇航员画在马的上面。现在的结果是:https://postimg.cc/QFtRjbHM

    1. 每当这些众所周知的 “陷阱 “提示被 “解决 “时,人们总是会问,他们是否真的解决了以前失败的根本原因,还是他们只是让一群第三世界的工人标记了马和宇航员的图片,直到模型开始更可靠地处理这个特定的例子。俗话说,凡是成为目标的措施都是坏措施。

  14. 我在 Reddit 上看到过一些 YouTube 上生成缩略图的示例(我正在度假,所以不会去搜索链接),这些示例展示了多模态与内嵌文本的具体说明。这给我留下了深刻的印象,我已经两年没有接触过 LLM 了,IE 不仅仅是在已有的功能上做得更好,而是一种全新的、直观的生成式人工智能工作方式。

    我的理解是,这是一种元语言模型(meta-LLM)方法,使用多个模型并让它们相互作用。我觉得这也证明了 OpenAI 并不是在认真追求 AGI(这只是我的看法,我知道这里有些人会极力反对),而是在追求市场用例。这感觉就像是一种认可,即任何给定的模型,至少现在,都有其自身的局限性,但结合起来会变得更加有用。

  15. 4o 仍然表现出 “粉红象效应”,只是……更微妙了,而且往往会在复杂或混乱的提示下显现出来。否定句也仍然没有得到正确处理,它们往往会使模型略显混乱,并降低答案或生成图片的准确性。其他任何大语言模型(LLM)也是如此。此外,作者要求模型合理化他已经做出的决定(“告诉我为什么不可能有大象”),这可能相当于 CoT 步骤。

    这 “只是 ”一个更大、更好的训练有素的模型。毫无疑问,这本身就是一种品质。但从根本上说,问题依然存在,只是不那么突出而已。这也是有道理的–试想一下 “不是绿色 ”的提示,那是什么?它很可能略微超出了分布范围,而且需要表示一个更复杂的抽象概念,因此准确性必然比直接说明颜色范围要差。结果可能是准确的,直到模型被其他东西混淆/误导,突然就不准确了。

    我认为,最终除了缩放之外,架构上的差异都不重要。更重要的是数据多样性和训练质量。

    1. 但从字面上看,它是一种不同的架构(自动回归,可能基于序列与扩散)。在我的实验中,它在一致性、连贯性和及时性方面有明显的压倒性优势。我以前需要控制网络的事情,它就……做到了。即使放大到细微之处,它们也是有意义的。

      下面是一个包含大量否定的例子: https://i.imgur.com/P8G5ICs.png

      1. 当然,这是一个很小的专门模型与一个很大的通用模型的对比。不过,它们在规模/质量上绝对不可同日而语,尤其是文本部分。这其中有多少是因为编码器不佳和其他模型的训练效果较差,又有多少是因为架构上的差异?我并不是说它在某种程度上不比现有的图像基因模型好,但由于两者都存在,所以很难将两者区分开来。目前所有的 SotA LLM,包括 4o 本身,在文本中都存在否定不准确的问题(你需要的是一个非常复杂的提示,或者一个有成千上万词组的长提示,而不是一个玩具提示),我不明白为什么这个模型在类似条件下会有不同的表现。特别是考虑到它也存在与其他图像模型几乎相同的缺陷,只是要少得多(手指、多余的肢体、透视/光照问题、过度拟合、与分布外生成的斗争等)

      2. 有意思的是,在所有可以使用的水生动物中,它选择了一种可能看起来最像大象的动物。

          1. 我不相信。我试了一下,它显示了一只游泳的河马,比乌龟更像大象。我又试了一次,它给我的是一只鹈鹕,一般来说,鹈鹕不太像大象,但这只鹈鹕的身体是灰色的,纹理很像大象的皮肤。

  16. 4o,尽管 OpenAI 的内容政策几乎是苛刻的,但这是一个相当大的飞跃。我对一些最具竞争力的生成模型(Imagen、4o、Flux 和 MJ7)进行了比较,其中我优先考虑了难度越来越高的提示遵守问题。如果 Imagen 3 具有 4o 的多模态功能(能够通过提示对生成的图像进行不断调整),我会说它几乎与 4o 不相上下。

    https://genai-showdown.specr.net

  17. Wha- wha- what? 不久前的公告发布后,我试着在 ChatGPT 中生成了一张图片,图片还不错,但上面的文字(数字)都是废话。(模拟仪表上的数字都是乱码,而不是 10、20、30、40 等)

    现在我又试了一次,明确指出了这些数字。好吧,数字是改进了,但不知道这样的结果有多大用处(数字之间的间距有点偏差,而且仍然有一些奇怪的计数现象。也许这些数字看起来像是事后粘贴上去的?

    1. 这些图像仍使用旧版本制作。共享链接上写着 “使用旧版图像生成器制作。新图片即将发布。”在第一张图片下方。

  18. 有没有使用这种新方法生成图像的本地模型?

    1. GPT-4o 似乎是唯一一个在文本-图像联合空间中工作到这种程度的模型,即使是具有原生图像支持的 Gemini Flash 2.0 也差强人意,因此可能还需要一段时间才能出现一个好的开源替代方案(在人工智能开发的背景下还需要一段时间)。

      1. 取决于使用情况。

        我曾使用 GPT-4o 对人物图片进行编辑(添加或删除内容),每次编辑后人物的外观都会扭曲,但(双子座 Flash + 图像输出)的效果要好得多。

        主要问题是几乎无法控制。例如,我要求在滑雪胜地的图像上添加一架直升机,但我必须写一整段文字来描述我想让直升机停在哪里,这比用鼠标拖动东西更麻烦。

      1. 这只是一个扩散文本到图像的模型,就像许多其他模型一样,与支持原生图像的大语言模型(LLM)完全不同。

  19. 第一张 “没有大象 “的图片非常搞笑。这里的另一个关键点是,生成式人工智能的 “备忘录 ”游戏正变得相当强大。

    这可不是一件小事,幽默是一种高级软技能。

    1. “游戏设计水獭 “行动人偶似乎还配有一对手电筒。我猜这一定是之前用手电筒照亮平板电脑的提示残留下来的。

    2. 在你的训练集中有成千上万张拷贝的图片根本算不上什么技能。

      1. AI 的 “meme game is going strong “与我试图论证埃隆-马斯克的meme game是 “meme game is going strong “的标准是一样的。

        不过,我不会说这是个好标准。

  20. 任何坚持认为人工智能没有用处的人都知道,人工智能现在可以做很多有用的事情。通过有意义的文本,你可以为下一次野餐生成邀请函。这在几周前是不可能实现的。

    能活着见证人类能力的阶跃变化,真是太棒了。

  21. 图表仍然是一个尚未解决的大问题。为演讲或论文制作图表是一个极其乏味的过程,我仍在等待一个很好的多语言模型(LLM) 解决方案。它应该能处理您想要的草图和/或文字描述,经过几次迭代就能得到您想要的结果。GPT4o 虽然很努力,但结果还是很糟糕。

    1. 在让它像 mermaid 或 plantuml 一样生成代码图方面,我的运气最好。

      1. 我知道,但这些图表往往不能充分表达我想要的东西。想想漂亮的技术讲座或论文中的图表吧。我甚至试过让大语言模型(Claude)生成 SVG。它们都不尽如人意。

  22. 读到这样的帖子总是很有趣:他们说 “看看它画的这个神奇的东西”,而图片却完全是垃圾。

  23. > ” 图像生成很可能会以我们现在无法理解的方式产生巨大的破坏性影响。”有人厌倦了这些说法吗?当一项技术具有颠覆性时,我们马上就会知道。Uber 就是颠覆性的。AirBnB、Gmail、亚马逊,甚至一度连 Facebook 都是。你一看就知道,没人会写长篇大论来证明这些产品的合理性。机器人生成统计中值图像令人印象深刻,但根本不具有颠覆性。如果某样东西 “有可能 ”是 ‘颠覆性的’,但其方式 “我们还不了解”,那么这种说法又是如何产生的呢?它的依据是什么?如果我们还不了解它,又怎么能知道它是否 “可能具有破坏性 ”呢?

  24. 嗯,稳定扩散不是已经这样做了吗?

    1. SD 有一个非常原始的概念模型。基本上就是 “一袋词在像素周围晃悠一会儿”。彼此靠近的文字会相互影响。但它几乎不懂语法。

      Midjourney 与文本提示类似。但是,对于图片提示,它能够将内容与风格分开理解。你可以给它一张两个人的照片,它就能返回许多可识别的近似于这两个人不同姿势的图片。

      SD 只能从像素出发,对这些像素进行模糊和去毛刺处理。

      MJ 图像提示可能是通过在文本到标记到图像的基础上添加图像到标记来实现的。

  25. 问:你怎么知道床底下藏着一头大象?

    答:你的脸贴着天花板!

  26. 之前 “的图片这次以一种 ”图像背叛 “的方式通过了测试。

  27. 在大象生命的最初 9 年里,它可以轻松地走进那个房间。我不认为这是一个突破。我觉得这只是点击率的诱饵。

  28. 戴上维特根斯坦的帽子: 888/0/ge96

    > we guac you covered

  29. 啊,这个茶几让我想起了那些廉价的网络零售商,他们把衣服清晰地(糟糕地)PS到相同的两三张模特图片上。如果你以前觉得网上购物很糟糕,那现在就更糟糕了。

  30. 这张图片注释了为什么不可能有大象,非常有趣。

    对我来说,这种生成图像的方式对于创建最终产品来说并不有趣,但对于在大型创意项目中与他人合作时传达设计意图却非常有用。在此之前,我使用的是粗糙的 “ms paint ”草图,这要繁琐得多,效果也差得多。

  31. 每一代都比上一代更好一些,但我看不到任何革命。手指还是乱糟糟的,眼睛还是歪歪扭扭的,腿有时还是岔成两半。从根本上说,它还是同样的扩散技术,有着同样的局限性。

  32. 这项技术不能更快普及的首要原因是,人类是一群笨蛋!

    我们得到了稳定扩散 V1.5 和 SDXL,社区又能用它做什么呢?请看 civit.ai,它有成千上万的 NSFW 萝拉。现在该网站上最受欢迎的模型是 SDXL 的 NSFW 动漫版,名为 “Pony Diffusion”(这可不是我瞎编的,是一群布朗尼制作的模型!)

    想象一下,一个能以这种质量自动生成代币的开源图像生成器发布了。

    这个世界还根本无法承受即将产生的大量色情内容(尤其是未经同意的内容)。看来,男性的性欲真的是世界上大多数坏事的原因。我们真是 “历史的恶棍”。

  33. 阿竹  这篇文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注