三月,我们看到了两个主要的图像生成工具的发布(Google,OpenAI),这些工具与我们以往熟悉的图像生成工具大不相同。
- 连续性 - 你现在可以继续用生成的图片进行修改了(比如,可以多次使用同一个角色)。
- 与之前的in-paint等方法不同,现在你可以让模型重新着色或修改图片中的细节了。
- 再不会有那些不存在的语言中的假文字了。
- 还记得“不能有大象在图片里”那句梗吗?这个问题现在已经解决了 :)
以前,图像生成主要依赖扩散模型。这就是Midjourney、Flux、DALL-E和Stable Diffusion等工具的工作原理。每次输入提示时,它们只生成一次图像,没有聊天机器人中常见的对话或上下文。生成图像的聊天机器人通常依赖外部扩散模型来生成图像。相比之下,聊天机器人和大规模语言模型则主要依赖解码器独占的自回归Transformer模型。
再次强调,自2021-2022年的Gen AI兴起以来,我们已经看到了两种具有不同领域的技术概念,分别是:
- Transformer 模型主导了大型语言模型领域。它们依赖于逐个预测标记,从而生成标记序列。
- 扩散模型在图像生成方面占据主导。它们通过加噪和去噪一次性生成所有像素。
在 Gemini 2 Flash 和 4o 图像生成的发布中,这两家公司都说它们是原生实现的版本。OpenAI 也已经声明他们的模型是使用自回归模型的。虽然没有分享太多细节,但合理推测这些新技术是基于我们之前熟悉的变压器模型构建的。我们已经看到这些模型是如何被重新用于图像输入的所谓的多模态大型语言模型中。
如果我们倒退到一年前的2025年2月,那时就有两个值得关注的发布。
- Inception Labs 推出了他们的 Mercury Coder Small LLM,在性能上与 GPT-4o Mini 相当,比如它的智能水平,但生成速度是它的 10 倍,每秒能生成 800 个 token。
- 来自中国的一个团队推出了 LLaDA——一个开源的 80 亿参数量的模型,与 Llama 3 80 亿参数量的模型相当。
这些模型特别在什么地方?它们采用了扩散的概念,这个概念之前主要用于图像生成领域。
即这两个模型将扩散模型(显然做了一些调整和巧妙的修改)引入了语言模型。而且它们在匹配小型LLM的表现的同时,还带来了新的功能,比如生成速度显著加快!
三月,我们看到相反的情况,LLM开始涉足图像生成领域。让我们看看这种跨界会怎样发展!
P.S.我从去年二月开始就对扩散模型非常兴奋——这似乎是一个非常新且不寻常的概念,将扩散应用于大型语言模型,并构建聊天模型,在这方面以前都是由变压器独领风骚。应用于聊天机器人的另一个重要架构概念是[Mamba架构](https://en.wikipedia.org/wiki/Mamba_\(deep_learning_architecture), which just like the diffusion models promised way better speed. We've seen some models released, such as [Jamba 1.5](https://huggingface.co/ai21labs/AI21-Jamba-Large-1.5) from 2024年8月,这是一款混合的变压器-Mamba模型)。它和扩散模型一样,承诺了更快的速度。我们已经看到了一些模型的发布,例如来自2024年8月的[Jamba 1.5],这是一个混合的变压器-Mamba模型。然而,Mamba模型似乎并没有像其变压器竞品那样获得太多关注。希望最好的结果,并期待更多的关注转向新的大型语言模型架构。
共同學習,寫下你的評論
評論加載中...
作者其他優質文章