照片由 DAVIS VARGAS 在 Unsplash 提供
生成式AI领域现在如火如荼,一方面我们有望得到一个具备博士级智能的大型语言模型(如OpenAI-o1),另一方面则是像Llama 3.2 Vision这样的开源模型引起了广泛关注。因此,备受期待的Llama 3.1的视觉版本Llama 3.2现已发布,并且正如承诺的那样,它也是由Meta开源并免费使用的。
订阅 datasciencepocket 在 Gumroad 上,致力于向每个人教授 AI!datasciencepocket.gumroad.com 多模态能力Llama 3.2 标志着向多模态的重大转变,特别是其11B和90B模型可以处理文本和图像。这些模型设计用于解释视觉数据,如图表和图形,并能执行图像描述和视觉问答等任务。例如,它们可以分析公园地图来回答关于地形变化或距离的问题。
模型变体这真是太好了!!
Llama 3.2 系列包含几个针对不同用例定制的模型:
- 90B 视觉模型 : 最先进的模型,适合需要复杂推理和图像理解的企业应用。
- 11B 视觉模型 : 适合内容创作和对话式AI的紧凑版本。
- 1B 和 3B 文本模型 : 优化了边缘设备的轻量级模型,能够完成摘要和重写等任务。由于体积小,任何人都可以在硬件要求极低的情况下本地运行这些模型。
- 每个版本都有基础版和指令调优版。
如果你不知道
架构基础模型: 这些是经过大量在线数据训练的基础大型语言模型。它们具有强大的通用知识和语言理解能力。它们更偏向于文本生成模型,而不是问答模型。
指令微调模型: 这些模型通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术进一步微调。这使模型更好地遵循指令,并生成更有帮助和安全的输出。因此更适合直接问答。
我们常用的聊天机器人界面,如ChatGPT、Perplexity,通常都是经过指令微调的。
Llama 1B 和 3B 模型不是视觉模型,只是文本模型
Llama 3.2 Vision 模型是在 Llama 3.1 语言模型的基础上构建的。具体来说:
Llama 3.2 11B 视觉模型使用 Llama 3.1 8B 文本模型作为基础。
Llama 3.2 90B 视觉模型使用更大的 Llama 3.1 70B 文本模型。
这些文本模型与视觉塔和图像适配器结合,以实现多模态功能。在训练视觉模型的过程中,底层文本模型被冻结。这种方法有助于保持原始Llama 3.1模型在纯文本任务上的强大性能,同时添加图像处理能力。
什么是图像适配器?什么是视觉塔?适配器是添加到预训练语言模型(LLM)中的一组小型的可训练参数,用于在不修改原始模型参数的情况下,实现特定任务的高效微调。
适配器包括一系列交叉注意力层,这些层促进了图像表示向语言模型的流动,使其能够同时处理视觉和文本数据。
评判标准和指标视觉塔是整体架构的一部分,其中包括图像适配器。虽然视觉塔负责处理视觉信息,图像适配器则促进了将这些视觉数据整合到语言模型中。
视觉塔负责从图像中提取特征,使用预训练的图像编码器。它处理这些特征,并为与语言模型的交互做好准备。
另一方面,图像适配器由交叉注意力层组成,将这些图像表示输入到核心语言模型中。
Meta 的评估表明,Llama 3.2 视觉模型在图像识别和各种视觉理解任务中与顶级基础模型(如 Claude 3 Haiku 和 GPT4o-mini)具有竞争力。3B 模型在遵循指令、摘要、提示重写和工具使用等领域超越了 Gemma 2 2.6B 和 Phi 3.5-mini 模型的表现,而 1B 模型仍然与 Gemma 具有竞争力。
Llama 守则在哪里访问? 如何本地运行?Llama Guardrail 用作保护措施,用于在与模型交互期间对输入和输出进行分类和评估。其目的是防止生成有害或不适当的内容。
现在推出了一种新的小型版本的 Llama Guard,名为 Llama Guard 3 1B,它可以与 Llama 模型一起使用。此版本评估多轮对话中最新的用户或助手响应,并具有可自定义的预定义类别,开发人员可以根据具体用例进行修改或排除。
希望这对你有所帮助,你很快就能试用 Llama3.2 了!!
共同學習,寫下你的評論
評論加載中...
作者其他優質文章