Publications | Research

2025

VoiceNoNG: Robust High-Quality Speech Editing Model without Hallucinations

Sung-Feng Huang, Heng-Cheng Kuo, Zhehuai Chen, Xuesong Yang, Pin-Jui Ku, Ante Jukić, Huck Yang, Yu Tsao, Frank Wang, Hung-yi Lee, Szu-Wei Fu

Radiance Surfaces: Optimizing Surface Representations with a 5D Radiance Field Loss

Ziyi Zhang, Nicolas Roussel, Thomas Müller, Tizian Zeltner, Merlin Nimier-David, Fabrice Rousselle, Wenzel Jakob

SIGGRAPH

Generative Detail Enhancement for Physically Based Materials

Saeed Hadadan, Benedikt Bitterli, Tizian Zeltner, Jan Novák, Fabrice Rousselle, Jacob Munkberg, Jon Hasselgren, Bart Wronski, Matthias Zwicker

SIGGRAPH

FourCastNet 3: A geometric approach to probabilistic machine-learning weather forecasting at scale

Boris Bonev, Thorsten Kurth, Ankur Mahesh, Mauro Bisson, Jean Kossaifi, Karthik Kashinath, Anima Anandkumar, William D. Collins, Mike Pritchard, Alex Keller

Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding

Nidhi Bhatia, Ankit More, Ritika Borkar, Tiyasa Mitra, Ramon Matas, Ritchie Zhao, Maximilian Golub, Dheevatsa Mudigere, Brian Pharris, Bita Darvish Rouhani

Spec2RTL-Agent: Automated Hardware Code Generation from Complex Specifications Using LLM Agent Systems

Zhongzhi Yu, Mingjie Liu, Michael Zimmer, Yingyan (Celine) Lin, Yong Liu, Haoxing (Mark) Ren

AssertionForge: Enhancing Formal Verification Assertion Generation with Structured Representation of Specifications and RTL

Yunsheng Bai, Ghaith Bany Hamad, Syed Suhaib, Haoxing (Mark) Ren

GauRast: Enhancing GPU Triangle Rasterizers to Accelerate 3D Gaussian Splatting

Georgia Tech, Ben Keller, Yingyan Celine Lin, Brucek Khailany

GEM: GPU-Accelerated Emulator-Inspired RTL Simulation

Zizheng Guo, Yanqing Zhang, Haoxing (Mark) Ren

Best Paper Award Nomination at DAC, 2025

Task-Based Tensor Computations on Modern GPUs

Rohan Yadav, Michael Garland, Alex Aiken, Michael Bauer

PLDI

GRS: Generating robotic simulation tasks from real-world images

Alex Zook, Josef Spjut, Jonathan Tremblay

CVPR

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Ali Hatamizadeh, Jan Kautz

CVPR

Marco: Configurable Graph-Based Task Solving and Multi-AI Agents Framework for Hardware Design

Chia-Tung (Mark) Ho, Jing Gong, Yunsheng Bai, Chenhui Deng, Haoxing (Mark) Ren, Brucek Khailany

Beyond the Buzz: A Pragmatic Take on Inference Disaggregation

Tiyasa Mitra, Ritika Borkar, Nidhi Bhatia, Ramon Matas, Shivam Raj, Dheevatsa Mudigere, Ritchie Zhao, Maximilian Golub, Arpan Dutta, Sailaja Madduri, Dharmesh Jani, Brian Pharris, Bita Darvish Rouhani

SLIM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression

Mohammad Mozaffari , Amir Yazdanbakhsh, Maryam Mehri Dehnavi

ICML

Adaptive Algebraic Reuse of Reordering in Cholesky Factorizations with Dynamic Sparsity Patterns

Behrooz Zarebavani, Danny Kaufman, David Levin, Maryam Mehri Dehnavi

SIGGRAPH

Inference-Time Policy Steering through Human Interactions

Yanwei Wang, Lirui Wang, Yilun Du, Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Pérez D’Arpino , Dieter Fox, Julie Shah

ICRA

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

Jessie Richter-Powell, Antonio Torralba, Jonathan Lorraine

ICML

Fugatto 1 - Foundational Generative Audio Transformer Opus 1

Rafael Valle, Rohan Badlani, Zhifeng Kong, Sang-gil Lee, Arushi Goel, Sungwon Kim, Joao Felipe Santos, Shuqi Dai, Siddharth Gururani, Aya AIJa'fari, Alex Liu, Kevin Shih, Wei Ping, Huck Yang, Bryan Catanzaro

ICLR

Gated Delta Networks: Improving Mamba2 with Delta Rule

Songlin Yang, Jan Kautz, Ali Hatamizadeh

ICLR

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Yukang Chen, Fuzhao Xue, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu (Jason), Song Han

ICLR

Audio Large Language Models Can Be Descriptive Speech Quality Evaluators

Chen Chen, Yuchen Hu, Siyin Wang, Helin Wang, Zhehuai Chen, Chao Zhang, Huck Yang, EngSiong Chng

ICLR

UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation

Alexander H. Liu, Sang-gil Lee, Huck Yang, Yuan Gong, Frank Wang, James R. Glas, Rafael Valle

ICLR

Toward Understanding Display Size for FPS Esports Aiming

Arjun Madhusudan, Josef Spjut, Benjamin Watson, Seth Schneider, Ben Boudaoud, Joohwan Kim

Towards Neural Scaling Laws for Time Series Foundation Models

Qingren Yao, Huck Yang, Renhe Jiang, Ming Jin, Shirui Pan

ICLR

Modeling Visually-Guided Aim-and-Shoot behavior in First-Person Shoters

June-Seop Yoon, Hee-Seung Moon, Ben Boudaoud, Josef Spjut, Iuri Frosio, Byungjoo Lee, Joohwan Kim

Composing Distributed Computations Through Task and Kernel Fusion

Rohan Yadav, Shiv Sundrum, Wonchan Lee, Michael Garland, Michael Bauer, Alex Aiken, Fredrik Kjolstad

Automatic Tracing in Task-Based Runtime Systems

Rohan Yadav, Michael Bauer, David Broman, Michael Garland, Alex Aiken, Fredrik Kjolstad

Pushing the Limits? Frame Rate Benefits to Players for up to 500 Hz in First Person Shooter Games

Samin Shahriar Tokey, Ben Boudaoud, Joohwan Kim, Josef Spjut, Mark Claypool

Cosmos Transfer 1: World-to-World Transfer with Adaptive Multi-Control for Physical AI

Ming-Yu Liu

Cosmos-Reason 1: From Physical AI Common Sense to Embodied Decisions

Tsung-Yi Lin, Ming-Yu Liu

NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid Robots

Yuke Zhu, Linxi "Jim" Fan, NVIDIA GEAR Team

Filters

Research Areas

Events

2025

Filters

Publication Year

Research Areas

Events

2025