亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

CVPR 2024亮點速覽:具身AI、生成式AI、基礎模型與視頻理解不容錯過!

我们现场为您带来CVPR 2024的重要收获和亮点!

埃里克·江从1X网站介绍了世界建模大赛,旨在推动具身人工智能的发展。

在这篇帖子中,我们将与您分享CVPR 2024的最重要亮点。让我们开始吧!🚀

🔥 了解更多关于 Segment Anything Model 2 (SAM 2) 的

  • SAM 2 + GPT-4o — 通过视觉提示实现基础模型的级联 — 第一部分

目录如下

  1. 具身AI
  2. 生成AI
  3. 基础模型
  4. 视频分析
  5. 下一步会是什么?
1. 实体AI.

图1. Chris Paxton 认为,大型语言模型(LLMs)在对任何物体进行长时间操控时,尤其是在长时段操控方面,比传统方法和比如模仿学习等复杂方法更为优秀。

这说的是啥

具身AI是一种专注于通过直接与环境互动来学习和解决问题,从而创造能够学习和解决复杂任务的智能体(例如机器人,智能家居系统)的人工智能方法。

正如主旨演讲者 Joshua Bongard 所提到的:“对不同的人来说,具身AI可能有不同的含义。这种技术经过这些年经历了一系列的转变”,但一个共同的特点是,具身AI是指能够感知周围环境(通过视觉和其他感官)、用自然语言交流、理解音频信息、导航和操控环境达成目标、并能进行长期规划和推理的系统。

主要想法

1. 当前的AI系统因为缺乏真正的实体存在或实体化,容易受到对抗性攻击。

在邦加尔的主旨演讲中,他认为仅仅将深度学习系统放入机器人中是不够的,无法实现真正的具身人工智能。他认为具身化本质上就是关于内外变化的。为了确保人工智能的安全性,我们需要的技术能够经历重大内部物理变化。“形态预训练”[1] 通过内部变化能够帮助AI系统更好地应对新任务和对抗性攻击。

2 通往真正“通用型机器人”的道路是扩大模拟范围。

Aniruddha Kembhavi,作为西雅图艾伦人工智能研究所(AI2)的计算机视觉高级主管,认为无需任何适应或微调,增加模拟数据可以让代理能够在真实世界中熟练地导航和操作物品。在他的工作 Robothor [2] 中,他研究了如何有效地将模拟训练的模型推广到真实世界的场景这一关键问题,这是一个长期以来尚未解决的问题。

3. 相比之前的模仿学习或更传统的方法,如任务和运动规划,LLM更适用于长时间操控任何对象。

克里斯·帕克斯顿(Chris Paxton,AI研究员及Hello Robot中嵌入式AI负责人)认为,(1)传统任务和运动规划缺乏关于现实世界中物体的知识,并且在部分可观测性方面遇到困难,(2)现代行为克隆技术,如模仿学习[3],在未知环境中的泛化能力较差。相反,大型语言模型[4]可以用于对任何环境中的任何物体进行长期操控

  • 训练 transformer 来预测物体应该如何移动
  • 使用像 GPT-4 这样的大型语言模型来进行常见情境推理和理解用户
  • 将大型语言模型的输出与规划器结合,确保满足这些条件
  • 使用空间抽象表达来训练低级运动技能
空间领域的领航者与建设者
2. 生成式人工智能

图2:OpenAI研究员蒂姆·布鲁克斯在Sora的GenAI主题演讲中[11]

这说的是什么

除非你这两年一直在岩洞里,否则你现在可能每天都在使用生成式AI。生成式AI指的是可以生成类似人类创作内容(如文本、图像、音频或视频)的系统,例如 Google 的 Imagen。

注:为了保持原文格式,此处保留英文。若需完全汉化,可改为:除非你这两年一直在岩洞里,否则你现在可能每天都在使用生成式AI。生成式AI指的是可以生成类似人类创作内容(如文本、图像、音频或视频)的系统,例如谷歌的 Imagen。

生成AI(GenAI)在2024年的CVPR会议上是非常火的话题🔥。会议举办了以下这些GenAI相关的研讨会:

  • SyntaGen: 用于合成视觉数据集的生成模型 🔗
  • 视觉艺术生成的未来 🔗
  • 负责生成AI研讨会 🔗
  • 用于计算机视觉的生成模型 🔗
  • 生成基础模型评估 🔗
主要想法

1. 创建多模态数据集(图像和文本的配对示例)可以通过严谨的数据集开发过程来实现,从而使创建过程变得透明。

在他在AI2的工作研讨会上的主旨演讲中,研究员Ludwig Schmidt表示,通过采用以数据为中心的方法,可以加速多模态模型训练。他介绍了一个名为DATACOMP [8]的基准,该基准旨在帮助工程化多模态数据集。该基准由38个分类和检索任务类型组成,其主要理念是在保持训练代码和GPU预算不变的前提下,建议使用不同的数据集。

2. 在丰富而详细的生成图像描述中训练文本到图像的模型,能够显著提升它们根据提示生成图像的能力。

Tim Brooks来自OpenAI表示,通常生成式人工智能模型在理解详细的描述时会遇到困难,经常忽略关键词或误解提示。这个问题源自训练数据集中通常存在的嘈杂和不准确的描述。通过训练一个专门的图像描述生成器来重新标注数据,创建了一个更可靠和详细的训练数据集。基于这些见解,开发出了DALL-E 3 [9]。

3. 没有视觉数据也能学习视觉知识...

在麻省理工学院的菲利普·伊索拉(Phillip Isola)所做的题为“利用零视觉数据学习视觉”(“Learning Vision with Zero Visual Data”)的精彩演讲中,他认为可以利用非视觉数据,例如噪音(例如:[10])、语言和/或代码来训练视觉模型。特别是,比如GPT-4这样的语言模型可以正确分类人类的画作,但在识别这些概念类别时却会遇到困难。

空间领域的领军人物和建设者
3. 基础模型

图3. Wayve的Alex Kendall介绍一种用于自动驾驶车辆的基础模型[13]

这是什么?

基础模型(Foundation Model)是经过大规模和多样化的数据集训练而成的人工智能系统,作为各种AI应用的基础。这些模型具有其规模、训练数据的广度以及在最少的额外训练下适应各种任务的灵活性的特点。

🔎 有关正在改变计算机视觉领域的前沿基础模型的更多详情,请查看我们关于此主题的文章 ⭐️。

关键点
  1. 基础模型可以作为模拟现实世界的工具。

谷歌的研究员Sherry Yang认为,一个关键的用例是基础模型可以充当现实世界的模拟器。在自主系统中的基础模型研讨会Foundation Models for Autonomous Systems workshop的主旨演讲中,他在演讲中提到,已有两项关键要求得到满足,使基础模型能够作为现实世界的模拟器。

  • 1) 互联网的数据(文本和视频形式)为一个“世界模型”提供了一个统一的表示和任务接口
  • 2) 强化学习已经足够先进(进行决策),可以在这一“世界模型”中进行规划 [12]

所以,缺少了什么?两个方面:1)这些模型中幻觉现象仍然很常见,2)更好的评估和反馈系统。

2. 基础模型(Foundation Models)在机器人中的真正好处在于它们作为通用决策模型。

在他的演讲“通用机器人导航模型”中,伯克利计算机科学教授和AI研究员 Sergey Levine 认为,像计算机视觉这样的领域的基础模型并不是预训练用来做出决策的。目前,预训练与决策任务之间的联系并不紧密。然而,如果基础模型被预训练直接用于做出重要且有用的决策,这将对机器人学及其他领域都有很大帮助,因为下游的机器学习任务最终都涉及到决策。

3. 我们不会实现一个以机器人为先的基础模型,直到我们解决了三个关键组成部分:数据规模、可编程性与可引导性、以及可扩展的评估。

谢德,一位在谷歌从事机器人研究的研究员,认为要构建真正以机器人为核心的基石模型还缺少三个关键要素。在他的报告中,他解释了这三个部分:

  • 1) 数据扩增对LLM和VLM非常有效,但对于机器人数据还没有等效的方法。然而,如果通过将机器人动作视为另一种数据模态来增加数据互操作性,那么我们还是抱有希望,但这也需要时间。
  • 2) 目前还没有类似大规模语言模型的通用机器人,部分原因是上下文窗口较大,以及缺乏机器人数据使得实现起来更加困难。
  • 3) 能做任何事情的通用模型需要在所有方面进行评估 🤔:大规模语言模型直接由人类评估,因为它们面向人类数据分布。相比之下,机器人则针对物理数据分布,这可能需要我们目前还不具备能力的真实世界测试。
空间领域的领头人和建设者
  • Sergey Levin: 伯克利大学计算机科学教授。
  • Alex Kendall: Wayve 的联合创始人之一。
  • Sanja Fidler: NVIDIA 的 AI 研究员,同时也是多伦多大学的计算机科学教授。
  • Ted Xiao: 谷歌资深研究员。
4 视频理解篇

图4:用于将长视频内容转化为音频描述文字的多模态模型(Multimodal Model)

这是什么?

zh: 这是什么?

视频理解是指人工智能领域中专注于开发能够理解并分析视频序列中的内容、情境和事件的技术。它超越了简单的对象识别或场景分类,致力于解释视频数据中的复杂时空关系、动作及其叙事。

主要想法
  1. 多模态上下文学习有望改变这一音频描述(AD)。

刘自诚(https://zicliu.wixsite.com/mysite),一名AMD的AI研究员,介绍了如何使用多模态模型,特别是通过少量样本的在上下文学习(MM-ICL)利用GPT-4,将长视频中的视觉内容转换为音频描述。他声称,这种方法在生成长视频的音频描述时,优于基于微调和大模型的方法。

2. LLM是解决长时间视频字幕问题的关键。

FAIR 的 Lorenzo Torresani 表示,大型语言模型的推理使其成为完成分层视频字幕任务的绝佳帮手 [15]。在专注于 程序化视频和语言 的工作坊上,他在 keynote 中讲解了为什么大型语言模型对这些任务如此强大:

  • 1) 基于短期片段字幕,大型语言模型(LMs,大型语言模型)可以成功生成描述和长视频总结
  • 2) 大型语言模型(LMs,大型语言模型)可以用于增强训练数据,有效补充人工标注的数据,从而提高字幕生成的性能
空间领域的领军人物与建设者
  • 李春园: 微软研究院首席研究员。
  • Dima Damen: 布里斯托大学计算机视觉教授,同时也是谷歌的研究科学家。
  • 夏非: 谷歌高级研究员。
  • 陈龙: Wayve的AI研究员。
  • 刘子诚: AMD公司GenAI高级总监。
  • Lorenzo Torresani: Facebook AI Research (FAIR) 的AI研究员。
5. 下一步会是啥?

才过去不到一周的时间,我们已经开始想念CV现场的热情了。

Tenyks 在 2024 CVPR:我们帮助 ML 团队处理大量视觉数据以提取实用的洞察!免费试用我们的[sandbox]!快来试试吧!🚀

👉 敬请关注更多CVPR 2024的相关帖子!

参考文献

[1] Josh Bongard 的演讲视频,EI’23 大会第二天的演讲

[2] 机器人Thor:一个开放的从仿真到现实的具身AI平台

[3] 模仿学习综述文章:算法及其最新发展与挑战

[4] 语言模型可以少样本学习(来源:[SOURCE])

[5] 注意力,就够了

[6] 关于生成式AI在视觉领域的综述:模型、指标和标准与应用

[7] Imagen(图像生成模型)

[8] DATACOMP:寻找下一代多模态数据集之旅

[9] 使用更好的描述来提高图像生成

[10,] 通过看噪声来学习

[11] Sora 在 CVPR 2024

注:原文中的"Sora"在中文翻译中应根据具体上下文进行调整。如果"Sora"是人名,则应保持不变或使用其对应的中文译名。此处假设"Sora"为专有名词未作转换。如需更准确翻译,请提供"Sora"的具体含义或背景信息。

[12] UniSim:学习交互式的现实世界模拟器

[13] Wayve的PRISM-1项目

[14] MM-Narrator:一种用多模态上下文学习为长视频配音解说的方法

[15] Video ReCap:长达数小时的视频的递归生成描述

著有:何塞·加布里埃尔·伊拉斯·蒙特尔,德米特里·卡兹丹。

如果你想了解更多关于Tenyks的信息,可以探索这个sandbox

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消