亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

2024年CVPR關鍵趨勢

即使在大型语言模型(LLM)的时代,基于扩散模型的计算机视觉需求依然稳定。近年来,基于扩散模型的图像/视频生成模型、使用NeRF的3D重建以及多模态学习发展迅速。CVPR 2024于6月17日至21日在西雅图举行,许多CV领域的AI专家和研究人员齐聚一堂,分享他们的知识和愿景。我们VESSL AI团队也参加了CVPR 2024,亲身体验了这些趋势。

这里是一些我们在CVPR上注意到的亮点。

1. 会议规模扩大

自2016年以来,CVPR经历了显著的增长,尽管在COVID疫情期间出现了一定程度的下降。然而,CVPR 2024终于超过了疫情前(面对面)的参会人数,创下了CVPR历史上的新纪录。

此外,与2023年相比,研究论文的提交数量增加了25.96%(总共有11,532篇)。这些令人印象深刻的统计数据进一步表明了人们对AI日益增长的兴趣。

2. 图像/视频合成

图像/视频的合成与生成是CVPR 2024中最受欢迎的投稿主题之一。

由于扩散模型在图像生成方面取得了令人印象深刻的结果,许多研究人员致力于增强它们。这在CVPR 2024上尤为明显,有多份提交专门针对扩散模型的局限性以及生成模型的新可能性进行了探讨。

InstanceDiffusion 为扩散模型增加了更多的可控性。它不仅能够从提示中生成图像,还允许用户对图像中的每个实例进行精确控制:用户可以使用边界框、掩码、点或涂鸦来标识特定位置。这得益于UniFusion模块,该模块将每个实例的位置和文本提示映射到特征空间,并将其整合为视觉令牌;ScaleU,它重新缩放主要特征和低频成分以保持布局完整性;以及多实例采样器模块,它提供了对多个实例的增强控制。

DeepCache 是一种改进扩散模型的方法,使其能够更快地生成几乎无损的结果。这通过U-Net实现,U-Net包含两个分支:一个主分支用于计算高层次特征,一个跳跃分支用于获取低层次特征。此外,相邻去噪步骤的高层次特征非常相似。DeepCache 利用这一点,在特定点缓存主分支的结果,并利用这些缓存的结果来加速去噪过程。因此,在Stable Diffusion V1.5中,图像生成速度提高了2.3倍,在LDM-4-G中,图像生成速度提高了4.1倍。

BIVDiff 是一个无需训练的通用视频合成框架。它结合了特定的图像扩散模型和通用的文本到视频模型,从而能够有效创建视频。

首先,BIVDiff 使用图像扩散模型逐帧生成视频。然后,它将 Mix Inversion 应用于视频模型,以获得更一致的结果。最后,它执行时间平滑处理,以确保过渡平滑。

这种方法允许根据特定需求选择性地使用图像模型,确保了额外的灵活性和高效率。BIVDiff 可以处理各种视频任务,包括生成、编辑、修复和扩展——展示了其多样性和广泛适用性。

3. 三维视觉

自从神经辐射场(Neural Radiance Field)和3D高斯点喷射(3D Gaussian Splatting)出现以来,从2D视图创建3D视图的研究一直很活跃。然而,为了重现如运动合成等物理动作,需要从高斯点喷射生成的视图创建网格,然后再用所需的运动进行渲染。为了解决这个问题,提出了PhysGaussian。它可以直接从3D高斯生成包含物理动作的3D视图。PhysGaussian还利用了连续介质力学原理,并使用了无需网格渲染的自定义材料点方法(MPM)。此外,它支持通过材料参数控制基本运动和动态的灵活控制。

值得注意的是,不仅在3D视角领域,而且在3D网格生成领域也出现了重要的研究。Wonder3D 是一种解决从单张图像高效生成3D模型问题的方法。现有的网格生成方法产生的网格质量较差,几何细节有限。在这项研究中,通过跨域技术生成了与多视图法线图对应的彩色图像。然后,通过一种几何感知的法线融合算法,利用这些信息生成高质量的网格。结果,仅需2-3分钟即可从单张图像生成高保真网格。

4. 多模态模型

随着大型语言模型(LLMs)成为主流趋势,多模态语言模型也引起了广泛关注。特别是,许多视觉语言模型(VLMs)的发布凸显了对适当评估的需求。为此,Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark 被发布。MMMU benchmark 包含了包括艺术与设计、商业、工程等在内的30个主题和183个子领域。此外,它还涵盖了30种异构图像类型,如图表、表格和化学结构。与现有基准不同,MMMU旨在评估更复杂的感知和推理方面。

如前所述,尽管视觉语言模型(VLM)与大规模语言模型(LLM)的快速发展同步受到广泛关注,但VLM的改进并没有LLM那么显著。InternVL认为造成这种情况的原因有几点:视觉编码器的规模没有足够扩大,LLM和视觉编码器之间的表示不一致,以及两者之间的连接效率低下。为了解决这些问题,InternVL将视觉编码器的规模扩大到60亿参数,使用对比损失与现有的LLM进行联合训练,并将其与大型语言中间件(如QLLaMA)集成。结果,该方法在32个视觉-语言基准测试中取得了最先进的性能。

VESSL for Academic

我们的免费学术计划旨在帮助研究生和教职员工零维护地建立一个SLURM替代作业调度器。立即申请获取访问权限↗

  • 立即运行基于GPU的训练任务和笔记本服务器
  • 使用单个命令集成整个实验室的云和本地集群
  • 监控每个节点的GPU使用情况

在VESSL AI,我们理解计算机视觉和机器学习领域中不断演变的挑战。通过提供强大的工具和一个支持性的环境,我们旨在赋能研究人员克服这些障碍,加速他们的实验,并推进AI研究的前沿。

李 Sanghyk, 机器学习工程师

凯莉·奥, 增长经理

TJ Park, 成长实习生

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消