Publications | Research

127 results found

Clear all

2024

2024

Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition

Huck Yang, Taejin Park, Yuan Gong, Yuanchao Li, Zhehuai Chen, yen-ting Lin, Chen Chen, Yuchen Hu, Kunal Dhawan, Piotr Zelasko, Chao Zhang, Yun-Nung Chen, Yu Tsao, Jagadeesh Balam, Boris Ginsburg, Shinji Watanabe, Andreas Stolcke

Pretraining codomain attention neural operators for solving multiphysics pdes

Md Ashiqur Rahman, Robert Joseph George, Mogab Elleithy, Daniel Leibovici, Zongyi Li, Boris Bonev, Colin White, Julius Berner, Raymond A. Yeh, Jean Kossaifi, Kamyar Azizzadenesheli, Anima Anandkumar

NeurIPS

Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization

Siyi Gu, Minkai Xu, Alexander Powers, Weili Nie, Tomas Geffner, Karsten Kreis, Jure Leskovec, Arash Vahdat, Stefano Ermon

NeurIPS

Molecule Generation with Fragment Retrieval Augmentation

Seul Lee, Karsten Kreis, Srimukh Prasad Veccham, Meng Liu, Danny Reidenbach, Saee Paliwal, Arash Vahdat, Weili Nie

NeurIPS

L4GM: Large 4D Gaussian Reconstruction Model

Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling

NeurIPS

Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models

Giannis Daras, Weili Nie, Karsten Kreis, Alexandros G. Dimakis, Morteza Mardani, Nikola Kovachki, Arash Vahdat

NeurIPS

FactorSim: Generative Simulation via Factorized Representation

Fan-Yun Sun, S. I. Harini, Angela Yi, Yihan Zhou, Alex Zook, Jonathan Tremblay, Logan Cross, Jiajun Wu, Nick Haber

NeurIPS

QUEEN: QUantized Efficient ENcoding for Streaming Free-viewpoint Videos

Sharath Girish, Tianye Li, Amrita Mazumdar, Abhinav Shrivastava, David Luebke, Shalini De Mello

NeurIPS

CosAE: Learnable Fourier Series for Image Restoration

Sifei Liu, Shalini De Mello, Jan Kautz

NeurIPS

Diffusion-Reward Adversarial Imitation Learning

Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Frank Wang, Min-Hung Chen, Shao-Hua Sun

NeurIPS

Fast Encoder-Based 3D from Casual Videos via Point Track Processing

Yoni Kasten, Wuyue Lu, Haggai Maron

NeurIPS

Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models

Yuchen Hu, Chen Chen, Huck Yang, Chengwei Qin, Pin-Yu Chen, Eng Siong Chng, Chao Zhang

NeurIPS

AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent

Tongzhou Mu, Yijie Guo, Jie Xu, Ankit Goyal, Hao Su, Dieter Fox, Animesh Garg

MaskedMimic: Unified Physics-Based Character Control Through Masked Motion Inpainting

Chen Tessler, Kelly Guo, Ofir Nabati, Gal Chechik, Jason Peng

SIGGRAPH

Large Étendue 3D Holographic Display with Content-adpative Dynamic Fourier Modulation

Brian Chao, Manu Gopakumar, Suyeon Choi, Liang Shi, Jonghyun Kim, Gordon Wetzstein

SIGGRAPH

SpecTrack: Learned Multi-Rotation Tracking via Speckle Imaging

Ziyang Chen, Doğa Doğan, Josef Spjut, Kaan Akşit

SIGGRAPH

Honorable Mention

Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits

Sung-Feng Huang, Heng-Cheng Kuo, Zhehuai Chen, Xuesong Yang, Huck Yang, Yu Tsao, Frank Wang, Hung-yi Lee, Szu-Wei Fu

Experimental Assessment of Human-Robot Teaming for Multi-Step Remote Manipulation with Expert Operators

Claudia Pérez D’Arpino , Rebecca P. Khurshid, Julie A. Shah

Fast Explicit-Input Assistance for Teleoperation in Clutter

Nick Walker, Xuning Yang, Animesh Garg, Maya Cakmak, Dieter Fox, Claudia Pérez D’Arpino

IROS

DRC-Coder: Automated DRC Checker Code Generation Using LLM Autonomous Agent

Chen-Chia Chang, Chia-Tung (Mark) Ho, Yaguang Li, Yiran Chen, Mark Haoxing Ren

Appearance Modeling of Iridescent Feathers with Diverse Nanostructures

Yunchen Yu, Andrea Weidlich, Bruce Walter, Eugene d'Eon, Steve Marschner

SIGGRAPH

SIGGRAPH Asia 2024 Best Paper Award

Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities

Siyin Wang, Huck Yang, Ji Wu, Chao Zhang

From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment

Yusuke Hirota, Ryo Hachiuma, Huck Yang, Yuta Nakashima

FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model

Yichen Lu, Jiaqi Song, Huck Yang, Shinji Watanabe

Differentiable GPU-Parallelized Task and Motion Planning

William Shen, Caelan Garrett, Nishanth Kumar, Ankit Goyal, Tucker Hermans, Leslie Pack Kaelbling, Tomás Lozano-Pérez, Fabio Ramos

SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation

Zihan Zhou, Animesh Garg, Dieter Fox, Caelan Garrett, Ajay Mandlekar

CORL

SkillGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment

Caelan Garrett, Ajay Mandlekar, Bowen Wen, Dieter Fox

CORL

NOD-TAMP: Generalizable Long-Horizon Planning with Neural Object Descriptors

Shuo Cheng, Caelan Garrett, Ajay Mandlekar, Danfei Xu

CORL

Reconstructing Translucent Thin Objects from Photos

Xi Deng, Lifan Wu, Bruce Walter, Eugene d'Eon, Ravi Ramamoorthi, Steve Marschner, Andrea Weidlich

SIGGRAPH

Open-World Task and Motion Planning via Vision-Language Model Inferred Constraints

Nishanth Kumar, William Shen, Fabio Ramos, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Caelan Garrett

CORL

HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation

Yi Li, Yuquan Deng, Jesse Zhang, Joel Jang, Marius Memmel, Caelan Garrett, Fabio Ramos, Dieter Fox, Anqi Li, Abhishek Gupta, Ankit Goyal

Guiding Long-Horizon Task and Motion Planning with Vision Language Models

Zhutian Yang, Caelan Garrett, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling