Publications | Research

Filters

11 results found
Speech Processing

Clear all

2021

Mixer-TTS: non-autoregressive, fast and compact text-to-speech model conditioned on language model embeddings

Oktai Tatanov, Stanislav Beliaev, Boris Ginsburg

Mixer-TTS: non-autoregressive, fast and compact text-to-speech model conditioned on language model embeddings

Oktai Tatanov, Stanislav Beliaev, Boris Ginsburg

A Unified Transformer-based Framework for Duplex Text Normalization

Tuan Manh Lai, Yang Zhang, Evelina Bakhturina , Boris Ginsburg, Heng Ji

CarneliNet: Neural Mixture Model for Automatic Speech Recognition

Aleksei Kalinov, Somshubra Majumdar, Jagadeesh Balam, Boris Ginsburg

TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis with Explicit Pitch and Duration Prediction

Stanislav Beliaev, Boris Ginsburg

TalkNet: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis

Stanislav Beliaev, Boris Ginsburg

NeMo Inverse Text Normalization: From Development To Production

Yang Zhang, Evelina Bakhturina, Kyle Gorman, Boris Ginsburg

A Toolbox for Construction and Analysis of Speech Datasets

Evelina Bakhturina, Vitaly Lavrukhin, Boris Ginsburg

SPGISpeech: 5,000 Hours of Transcribed Financial Audio for Fully Formatted End-to-End Speech Recognition

Patrick K. O’Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, Georg Kucsko

Citrinet: Closing the Gap between Non-Autoregressive and Autoregressive End-to-End Models for Automatic Speech Recognition

Somshubra Majumdar, Jagadeesh Balam, Oleksii Hrinchuk, Vitaly Lavrukhin, Vahid Noroozi, Boris Ginsburg

Hi-Fi Multi-Speaker English TTS Dataset

Evelina Bakhturina, Vitaly Lavrukhin, Boris Ginsburg, Yang Zhang