ICLR2025

COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

FP8 training has emerged as a promising method for improving training efficiency. Existing frameworks accelerate training by applying …

Haocheng Xi, Han Cai, Ligeng Zhu, Yao (Jason) Lu, Kurt Keutzer, Jianfei Chen, Song Han

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

We present Deep Compression Autoencoder (DC-AE), a new family of autoencoder models for accelerating high-resolution diffusion models. …

Junyu Chen, Han Cai, Junsong Chen, Enze Xie, Shang Yang, Haotian Tang, Muyang Li, Yao (Jason) Lu, Song Han

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

Deploying long-context large language models (LLMs) is essential but poses significant computational and memory challenges. Caching all …

Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR) visual generation model capable of directly generating …

Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao (Jason) Lu, Song Han

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer