Fast-SLM: Towards Latency-Optimal Hybrid Small Language Models

Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van Keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov

December 2025

arXiv

Type

Conference paper

Publication

Advances in Neural Information Processing Systems (NeurIPS)