Инструмент преобразования текста в речь открывает перед разработчиками двери в мир высококачественного аудио, превращая письменный текст в натурально звучащую речь. Представленные на DevDay 2023 шесть голосов и две модели tts-1
и tts-1-hd
подойдут как для оперативной работы в режиме реального времени, так и для проектов, требующих особенно высокого качества звучания. Сервис позволяет отправлять до 4096 символов за запрос, что при стандартной скорости чтения равноценно пяти минутам аудио, и поддерживает потоковую передачу для удобства интеграции в различные приложения.
Для ознакомления с возможностями сервиса можно воспользоваться демо, размещенным на платформе Hugging Face по адресу: https://huggingface.co/spaces/ysharma/OpenAI_TTS_New. Это дает понимание о том, как можно манипулировать различными аспектами генерируемой речи, включая тон, эмоциональную окраску и акценты.