首頁手記 Llama 3.2 Vision，Meta...

Llama 3.2 Vision，Meta 新推出的多模態大語言模型

標簽：

機器學習人工智能計算機視覺

如何使用Llama 3.2及其新功能详解

生成式AI领域现在如火如荼，一方面我们有望得到一个具备博士级智能的大型语言模型（如OpenAI-o1），另一方面则是像Llama 3.2 Vision这样的开源模型引起了广泛关注。因此，备受期待的Llama 3.1的视觉版本Llama 3.2现已发布，并且正如承诺的那样，它也是由Meta开源并免费使用的。

订阅 datasciencepocket 在 Gumroad 上，致力于向每个人教授 AI！datasciencepocket.gumroad.com

多模态能力

Llama 3.2 标志着向多模态的重大转变，特别是其11B和90B模型可以处理文本和图像。这些模型设计用于解释视觉数据，如图表和图形，并能执行图像描述和视觉问答等任务。例如，它们可以分析公园地图来回答关于地形变化或距离的问题。

这真是太好了！！

模型变体

Llama 3.2 系列包含几个针对不同用例定制的模型：

90B 视觉模型 : 最先进的模型，适合需要复杂推理和图像理解的企业应用。
11B 视觉模型 : 适合内容创作和对话式AI的紧凑版本。
1B 和 3B 文本模型 : 优化了边缘设备的轻量级模型，能够完成摘要和重写等任务。由于体积小，任何人都可以在硬件要求极低的情况下本地运行这些模型。
每个版本都有基础版和指令调优版。

如果你不知道

基础模型: 这些是经过大量在线数据训练的基础大型语言模型。它们具有强大的通用知识和语言理解能力。它们更偏向于文本生成模型，而不是问答模型。

指令微调模型: 这些模型通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术进一步微调。这使模型更好地遵循指令，并生成更有帮助和安全的输出。因此更适合直接问答。

我们常用的聊天机器人界面，如ChatGPT、Perplexity，通常都是经过指令微调的。

Llama 1B 和 3B 模型不是视觉模型，只是文本模型

架构

Llama 3.2 Vision 模型是在 Llama 3.1 语言模型的基础上构建的。具体来说：

Llama 3.2 11B 视觉模型使用 Llama 3.1 8B 文本模型作为基础。

Llama 3.2 90B 视觉模型使用更大的 Llama 3.1 70B 文本模型。

这些文本模型与视觉塔和图像适配器结合，以实现多模态功能。在训练视觉模型的过程中，底层文本模型被冻结。这种方法有助于保持原始Llama 3.1模型在纯文本任务上的强大性能，同时添加图像处理能力。

什么是图像适配器？

适配器是添加到预训练语言模型（LLM）中的一组小型的可训练参数，用于在不修改原始模型参数的情况下，实现特定任务的高效微调。

适配器包括一系列交叉注意力层，这些层促进了图像表示向语言模型的流动，使其能够同时处理视觉和文本数据。

什么是视觉塔？

视觉塔是整体架构的一部分，其中包括图像适配器。虽然视觉塔负责处理视觉信息，图像适配器则促进了将这些视觉数据整合到语言模型中。

视觉塔负责从图像中提取特征，使用预训练的图像编码器。它处理这些特征，并为与语言模型的交互做好准备。

另一方面，图像适配器由交叉注意力层组成，将这些图像表示输入到核心语言模型中。

评判标准和指标

Meta 的评估表明，Llama 3.2 视觉模型在图像识别和各种视觉理解任务中与顶级基础模型（如 Claude 3 Haiku 和 GPT4o-mini）具有竞争力。3B 模型在遵循指令、摘要、提示重写和工具使用等领域超越了 Gemma 2 2.6B 和 Phi 3.5-mini 模型的表现，而 1B 模型仍然与 Gemma 具有竞争力。

Llama 守则

Llama Guardrail 用作保护措施，用于在与模型交互期间对输入和输出进行分类和评估。其目的是防止生成有害或不适当的内容。

现在推出了一种新的小型版本的 Llama Guard，名为 Llama Guard 3 1B，它可以与 Llama 模型一起使用。此版本评估多轮对话中最新的用户或助手响应，并具有可自定义的预定义类别，开发人员可以根据具体用例进行修改或排除。

在哪里访问？

如何本地运行？

希望这对你有所帮助，你很快就能试用 Llama3.2 了!!

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

牧羊人nacy

手記
篇

粉絲

6

獲贊與收藏

26

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32253 360

網絡編程入門教程

20個小節 13299 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Llama 3.2 Vision，Meta 新推出的多模態大語言模型

閱讀免費教程

Llama 3.2 Vision，Meta 新推出的多模態大語言模型