Tehnografi.com - Технологические новости, обзоры и советы

Microsoft Azure взламывает преобразование текста в речь на уровне человека для Neural TTS

Microsoft Azure взламывает преобразование текста в речь на уровне человека для Neural TTS 1

Microsoft Neural Text-to-Speech (Neural TTS) достигает новой вехи, поскольку она перешла в новую версию в Microsoft Azure. По данным компании, Neural TTS Uni-TTSv4 — новейшая версия платформы — эквивалентна записи естественной речи на уровне предложений при разговоре.

Если вы не знакомы с Neural TTS, то она впервые была запущена три года назад. Даже тогда Microsoft утверждала, что при переводе текста в речь она «близка к человеческому паритету». Другими словами, платформа обеспечивает голосовое воспроизведение текста с максимально естественным звучанием.

С тех пор Microsoft совершенствует Neural Text-to-Speech для своей облачной платформы Azure. Хотя вы, возможно, не используете этот инструмент напрямую, он встроен во множество продуктов Microsoft, которые вы, вероятно, используете, таких как функция чтения вслух Word, Immersive Reader в Edge и другие. Многие партнеры Microsoft также внедрили Neural TTS.

С Uni-TTSv4 Microsoft предоставляет этим партнерам и службам улучшенную версию. Это означает, что при использовании этих функций производительность будет еще выше. Вы по-прежнему сможете выбирать между множеством предустановленных голосов или даже записывать свой собственный сэмпл.

Однако, хотя Neural TTS поддерживает более 110 языков, Uni-TTSv4 в настоящее время доступен только для следующих восьми голосов:

Microsoft говорит, что другие языки скоро получат обновление, а также пользовательские голоса. Пользователям не нужно ничего делать, потому что инструмент будет автоматически обновляться в Microsoft Office и Microsoft Edge.

Тесты

В сообщении блога, анонсирующем новую версию, Microsoft объясняет, как она измеряет преобразование текста в речь, чтобы гарантировать, что Neural TTS обеспечивает наилучшее качество. Все модели TTS измеряются по средней оценке мнений (MOS) — популярной службе тестирования качества речи.

«В исследованиях MOS участники оценивают характеристики речи как для записей голосов людей, так и для голосов TTS по пятибалльной шкале», Майкрософт объясняет.

«Эти характеристики включают качество звука, произношение, скорость речи и артикуляцию. Для улучшения любой модели мы сначала проводим параллельный сравнительный тест MOS (CMOS) с серийными моделями. Затем мы проводим слепой тест MOS на протянутом наборе записей (записи, не используемые в обучении) и звуке, синтезированном с помощью TTS, и измеряем разницу между двумя оценками MOS».

Кроме того, Microsoft отправила модель Uni-TTSv4 на Blizzard Challenge 2021, популярный тест TTS, позволяющий масштабировать тесты MOS на нескольких системах. Microsoft сообщает, что результаты тестирования новой голосовой модели «нет существенной разницы с естественной речью в общем наборе данных».

Ниже приведены результаты тестирования, показывающие, как 8 доступных моделей Uni-TTSv4 сравниваются с другими моделями:

Местность (голос) Человеческая запись (MOS)

Uni-TTSv4 (MOS)

p-значение Уилкоксона

КМОП

ПРОД

En-US (Дженни)

4,33 (± 0,04)

4,29 (± 0,04)

0,266

+0,116

En-US (Сара)

4,16 (± 0,05)

4,12 (±0,05)

0,41

+0,129

Zh-CN (Сяосяо)

4,54 (± 0,05)

4,51 (± 0,05)

0,44

+0,181

Оно-ОНО (Эльза)

4,59 (± 0,04)

4,58 (± 0,03)

0,34

+0,25

Ja-JP (Нанами)

4,44 (± 0,04)

4,37 (± 0,05)

0,053

+0,19

Ко-КР (Сан-привет)

4,24 (± 0,06)

4,15 (± 0,06)

0,11

+0,097

Эс-Эс (Альваро)

4,36 (± 0,05)

4,33 (± 0,04)

0,312

+0,18

Эс-МХ (Далия)

4,45 (±0,05)

4,39 (± 0,05)

0,103

+0,076

Что это значит?

Все эти испытания и технические усовершенствования — это хорошо, но что это значит в реальном мире? Что ж, постепенные обновления Microsoft за последние годы позволили модели стать ближе к реалистичности человеческой речи.

Тем не менее, компания признает, что есть еще возможности для улучшения, особенно когда пользователи слушают TTS в течение длительного времени. Microsoft указывает, что в этом сценарии высота тона и тон голоса несколько потеряют качество.

Это связано с тем, что человеческая речь невероятно тонка и полна динамических и почти постоянных незначительных сдвигов высоты тона и тона.

«В настоящее время для этих параметров не очень эффективно моделировать все крупнозернистые и мелкозернистые детали акустического спектра человеческой речи. TTS также является типичной проблемой отображения «один ко многим», когда может быть несколько различных речевых выходов (например, высота тона, продолжительность, говорящий, просодия, стиль и другие) для данного входного текста. Таким образом, моделирование такой вариационной информации важно для улучшения выразительности и естественности синтезированной речи».

Uni-TTSv4 снимает ограничения с двумя изменениями в способе моделирования акустики. В частности, новая архитектура с моделями преобразования позволяет совершенствоваться, тогда как варианты теперь обрабатываются моделью, которая разделяет явные перспективы (идентификатор говорящего, идентификатор языка, высота тона и продолжительность) и неявные перспективы (просодия на уровне высказывания и фонемы).

Совет дня: Знаете ли вы встроенные инструменты восстановления SFC и DISM в Windows 10 и Windows 11? При многих проблемах они могут вернуть вас в нужное русло без потери данных и использования сторонних программ. В нашем уроке мы покажем вам, как их использовать.