Publications | Research

214 results found
Artificial Intelligence and Machine Learning
Computer Vision

Clear all

2026

3D-GENERALIST: Vision-Language-Action Models for Crafting 3D Worlds

Fan-Yun Sun, Shengguang Wu, Christian Jacobsen, Thomas Yim, Haoming Zou, Alex Zook, Shangru Li, Yu-Hsin Chou, Ethem Can, Xunlei Wu, Clemens Eppner, Valts Blukis, Jonathan Tremblay, Jiajun Wu, Stan Birchfield, Nick Haber

Alpha-Vision: A Real-Time Always-on Vision Processor with 787µs Face Detection Latency in <5mW

Ben Keller, Rangharajan Venkatesan, Steve Dai, Jason Clemons, Matt Fojtik, Muya Chang, Thierry Tambe, Nathaniel Pinckney, Stephen Tell, Qijing Jenny Huang, Shalini De Mello, Brucek Khailany

2025

Play4D: Accelerated and Interactive Free-viewpoint Video Streaming for Virtual Reality and Light Field Displays

Jonghyun Kim, Michael Stengel, Amrita Mazumdar, Tianye Li, Cheng Sun, David Luebke, Shalini De Mello

SIGGRAPH

Beyond Behavior Cloning in Autonomous Driving: a Survey of Closed-Loop Training Techniques

Peter Karkus, Maximilian Igl, Yuxiao Chen, Kashyap Chitta, Jef Packer, Bertrand Douillard, Thomas Tian, Alexander Naumann, Guillermo Garcia-Cobo, Shuhan Tan, Alperen Degirmenci, Alexander Popov, Nikolai Smolyanskiy, Urs Muller, Boris Ivanovic, Marco Pavone

Attention on the Sphere

Boris Bonev, Max Rietmann, Andrea Paris, Alberto Carpentieri, Thorsten Kurth

NeurIPS

Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation

Riccardo Corvi, Davide Cozzolino, Ekta Prashnani, Shalini De Mello, Koki Nagano, Luisa Verdoliva

NeurIPS

Alpamayo 1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

Marco Pavone, Many other contributors found on Page 33

Task-Oriented Human Grasp Synthesis via Context- and Task-Aware Diffusers

An-Lun Liu, Yu-Wei Chao, Yi-Ting Chen

ICCV

Real-time 3D Visualization of Radiance Fields on Light Field Displays

Jonghyun Kim, Cheng Sun, Michael Stengel, Matthew Chan, Andrew Russell, Jaehyun Jung, Wil Braithewaite, Shalini De Mello, David Luebke

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Xuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-David, Thomas Müller, Alex Keller, Sanja Fidler, Jun Gao

CVPR

Identity-Motion Trade-offs in Text-to-Video Generation

Yuval Atzmon, Rinon Gal, Yoad Tewel, Yoni Kasten, Gal Chechik

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

Eitan Shaar, Ariel Shaulov, Gal Chechik, Lior Wolf

CVPR

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

Uri Gadot, Assaf Shocher, Shie Mannor, Gal Chechik, Assaf Hallak

CVPR

TriTex: Learning Texture from a Single Mesh via Triplane Semantic Features

Dana Cohen-Bar, Daniel Cohen-Or, Gal Chechik, Yoni Kasten

CVPR

BLADE: Single-view Body Mesh Estimation through Accurate Depth Estimation

Shengze Wang, Jiefeng Li, Tianye Li, Ye Yuan, Henry Fuchs, Koki Nagano, Shalini De Mello, Michael Stengel

CVPR

Coherent 3D Portrait Video Reconstruction via Triplane Fusion

Shengze Wang, Xueting Li, Chao Liu, Matthew Chan, Michael Stengel, Henry Fuchs, Shalini De Mello, Koki Nagano

CVPR

SimAvatar: Simulation-Ready Clothed Gaussian Avatars from Text

Xueting Li, Ye Yuan, Shalini De Mello, Gilles Daviet, Jonathan Leaf, Miles Macklin, Jan Kautz, Umar Iqbal

CVPR

GRS: Generating robotic simulation tasks from real-world images

Alex Zook, Josef Spjut, Jonathan Tremblay

CVPR

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Ali Hatamizadeh , Jan Kautz

CVPR

AI 3D Selfie: Real-Time Single-Image 3D Face Reconstruction for Light-Field Displays

Jonghyun Kim, Michael Stengel, Matthew Chan, Koki Nagano, Shalini De Mello, David Luebke

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Yukang Chen, Fuzhao Xue, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu (Jason), Song Han

ICLR

LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

Zhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng

Multi-student Diffusion Distillation for Better One-step Generators

Yanke Song, Jonathan Lorraine, Weili Nie, Karsten Kreis, James Lucas

ICML

Spatio-Temporal Context Prompting for Zero-Shot Action Detection

Wei-Jhe Huang, Min-Hung Chen, Shang-Hong Lai

Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation

Ci-Siang Lin, Chien-Yi Wang, Frank Wang, Min-Hung Chen

CorrFill: Enhancing Faithfulness in Reference-based Inpainting with Correspondence Guidance in Diffusion Models

Kuan-Hung Liu, Cheng-Kun Yang, Min-Hung Chen, Yu-Lun Liu, Yen-Yu Lin

2024

L4GM: Large 4D Gaussian Reconstruction Model

Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling