Компания Hume AI выпустила в открытый доступ модель синтеза речи TADA, которая работает более чем в пять раз быстрее сопоставимых систем и при этом демонстрирует нулевой уровень галлюцинаций — то есть не добавляет и не пропускает слова по сравнению с исходным текстом при тестировании на более чем 1000 образцах.
TADA построена на архитектуре Llama и доступна в двух размерах: 1B и 3B параметров. Меньшая версия поддерживает только английский язык, а старшая — семь дополнительных языков. Ключевая особенность модели — синхронное отображение текста и аудио с точным соответствием один к одному между текстовыми токенами и аудиосигналами.
По оценкам слушателей, естественность речи TADA составляет 3,78 из 5 баллов, что близко к уровню естественной человеческой речи. Компактность модели позволяет запускать её прямо на смартфонах, хотя при обработке длинных текстов может наблюдаться незначительный дрейф голоса.
Все модели и код опубликованы под лицензией MIT на GitHub и Hugging Face, что делает TADA полностью доступной для разработчиков и исследователей. Открытый релиз усиливает конкуренцию на рынке речевых технологий, где ранее доминировали закрытые решения от Google, Amazon и Microsoft.





