Publications | Research

Filters

13 results found
Speech Processing

Clear all

2022

Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models

Travis M. Bartley, Fei Jia, Krishna C. Puvvada, Samuel Kriman, Boris Ginsburg

Multi-blank Transducers for Speech Recognition

Hainan Xu, Fei Jia, Somshubra Majumdar, Shinji Watanabe, Boris Ginsburg

Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New Speakers

Cheng-Ping Hsieh, Subhankar Ghosh, Boris Ginsburg

A Compact End-to-End Model with Local and Global Context for Spoken Language Identification

Fei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg

Damage Control During Domain Adaptation for Transducer Based Automatic Speech Recognition

Somshubra Majumdar, Shantanu Acharya, Vitaly Lavrukhin, Boris Ginsburg

Thutmose Tagger: Single-pass neural model for Inverse Text Normalization

Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg

TitaNet: Neural Model for Speaker Representation with 1D Depth-Wise Separable Convolutions and Global Context

Nithin Rao Koluguri, Taejin Park, Boris Ginsburg

Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text Normalization

Evelina Bakhturina, Yang Zhang, Boris Ginsburg

2020

MarbleNet: Deep 1D Time-Channel Separable Convolutional Neural Network for Voice Activity Detection

Fei Jia, Somshubra Majumdar, Boris Ginsburg

Improving Noise Robustness of an End-to-End Neural Model for Automatic Speech Recognition

Jagadeesh Balam, Jocelyn Huang, Vitaly Lavrukhin, Slyne Deng, Somshubra Majumdar, Boris Ginsburg

SpeakerNet: 1D Depth-wise Separable Convolutional Network for Text-Independent Speaker Recognition and Verification

Nithin Rao Koluguri, Jason Li, Vitaly Lavrukhin, Boris Ginsburg

Cross-Language Transfer Learning and Domain Adaptation for End-to-End Automatic Speech Recognition

Jocelyn Huang, Oleksii Kuchaiev, Patrick O’Neill, Vitaly Lavrukhin, Jason Li, Adriana Flores, Georg Kucsko, Boris Ginsburg

MatchboxNet - 1D Time-Channel Separable Convolutional Neural Network Architecture for Speech Commands Recognition

Somshubra Majumdar, Boris Ginsburg