С помощью TANGO можно создавать реалистичные аудио, включая звуки людей, животных, природные и искусственные звуки, а также звуковые эффекты. В качестве текстового кодировщика используется замороженная модель LLM Flan-T5 с настройкой на основе инструкций, а для генерации аудио обучается модель диффузии на основе UNet. TANGO демонстрирует сравнимые с современными передовыми моделями TTA результаты по объективным и субъективным показателям, несмотря на то, что обучение LDM проводилось на наборе данных, который в 63 раза меньше. Мы предоставляем нашу модель, код для обучения и вывода, а также предварительно обученные контрольные точки для исследовательского сообщества.
TANGO
создает любые фоновые звуки по текстовой подсказке.