英伟达(NVIDIA)在视觉生成式人工智能(GenAI)领域取得了快速进展。该公司的研究人员正在探索创造和解释视觉内容的新技术,如图像、视频和3D模型。
使用机器学习模型和先进的图像处理技术,GenAI可以生成与人类创建的内容无法区分的新视觉数据。在6月17日至21日于华盛顿州西雅图举行的2024年计算机视觉和模式识别(CVPR)会议上,NVIDIA展示了其50多个视觉GenAI项目。
CVPR由IEEE(电气和电子工程师协会)组织,被认为是计算机视觉和模式识别领域最重要和最负盛名的会议之一。
NVIDIA的可视化GenAI研究涵盖了广泛的应用,包括针对医疗保健、自动驾驶汽车和机器人等行业的特定领域创新。NVIDIA的两个项目,一个专注于扩散模型的训练动态,另一个专注于自动驾驶汽车的高清映射,已被选为CVPR最佳论文奖的决赛选手。
“人工智能,尤其是生成式人工智能,代表了一项关键的技术进步。”NVIDIA学习和感知研究副总裁Jan Kautz说,“在CVPR上,NVIDIA研究院将与大家分享我们如何突破各种可能性的界限——从强大的图像生成模型,为专业创作者提供强大的动力,到帮助实现下一代自动驾驶汽车的自动驾驶软件。”
在去年赢得3D占用率预测的基础上,NVIDIA在今年的CVPR端到端自动驾驶大挑战赛中胜出,超越了来自全球450多家参赛公司。这一里程碑展示了NVIDIA在利用人工智能开发自动驾驶汽车模型方面的开创性工作。NVIDIA在这个项目中的成就为它赢得了CVPR创新奖。
在CVPR上,NVIDIA还推出了NVIDIA Omniverse Cloud Sensor RTX,这是一组微服务,可以实现物理上精确的传感器模拟,从而加速各种全自动机器的开发。
NVIDIA的杰出论文之一JeDI也在此次活动中展出。本文提出了一种新技术,使用户可以在几秒钟内使用参考图像轻松地获得个性化扩散模型的输出。来自约翰霍普金斯大学、丰田技术研究所和NVIDIA的研究人员在这篇论文中合作开发了一个显著优于现有微调模型的模型。这一突破可以帮助用户创建特定的角色描述或产品视觉效果。
NVIDIA的研究人员还展示了FoundationPose,这是一个用于物体姿态估计和跟踪的统一基础模型。该模型可以使用一小组参考图像或物体的3D表示来理解其形状,并预测物体如何在3D中移动和旋转,而无需进行微调。这项研究的发现可能在自主机器人和增强现实应用的进一步发展中发挥关键作用。
由伊利诺伊大学厄巴纳-香槟分校和NVIDIA的研究人员开发的NeRFDeformer也在CVPR上展出。NeRFDeformer使用一种新颖的方法来编辑由NeRF(Neural Radiance Field) 单个2D快照捕获的3D场景,而不必手动重新定义场景如何转换或从头开始重新创建NeRF。这一进步为依赖动态3D建模的应用程序提供了巨大的潜力。
NVIDIA还与麻省理工学院(MIT)合作推出了VILA,这是一种先进的视觉语言模型(VLM),可以理解和处理图像、文本。VILA通过解决几个限制,包括推理速度慢、缺乏上下文学习和仅处理单个图像,从而显著改进了现有的VLM。
NVIDIA还在CVPR上发表了十几篇关于自动驾驶汽车研究的论文。其他一些著名论文包括有史以来最大的人工智能城市挑战赛室内合成数据集,这将有助于智慧城市解决方案和工业自动化的发展。