TANGO

Инструменты
создает любые фоновые звуки по текстовой подсказке.

С помощью TANGO можно создавать реалистичные аудио, включая звуки людей, животных, природные и искусственные звуки, а также звуковые эффекты. В качестве текстового кодировщика используется замороженная модель LLM Flan-T5 с настройкой на основе инструкций, а для генерации аудио обучается модель диффузии на основе UNet. TANGO демонстрирует сравнимые с современными передовыми моделями TTA результаты по объективным и субъективным показателям, несмотря на то, что обучение LDM проводилось на наборе данных, который в 63 раза меньше. Мы предоставляем нашу модель, код для обучения и вывода, а также предварительно обученные контрольные точки для исследовательского сообщества.


No-code specialist, always eager to learn and tackle challenges, exploring neural networks

Оцените автора
Каталог НЕЙРОСЕТЕЙ и ИИ инструментов — FutureTools.ru