Современный подход к синтезу речи

"Научный аспект №6-2024" - Информ. технологии

УДК 004.7

Меджидов Магомед Магомедтагирович – бакалавр МИРЭА – Российского технологического университета

Ковалев Григорий Максимович – бакалавр МИРЭА – Российского технологического университета

Аннотация: В данной статье рассматриваются основные этапы развития технологий синтеза речи, современные достижения, существующие проблемы и перспективы развития. Обсуждаются методы синтеза речи, их применение и текущее состояние технологии.

Ключевые слова: синтез речи, Text-to-Speech, методы синтеза речи, глубокое обучение, нейронные сети, WaveNet, Tacotron 2, современные технологии.

Технологии синтеза речи (Text-to-Speech, TTS) играют важную роль в современном мире, предоставляя возможности автоматического преобразования текста в голосовые сообщения. Эти технологии нашли широкое применение в различных сферах, от навигации и виртуальных ассистентов до систем поддержки слабовидящих. В данной статье рассматриваются основные этапы развития технологий синтеза речи, современные достижения, существующие проблемы и перспективы развития [4].

Синтез речи, также известный как Text-to-Speech (TTS), представляет собой технологию, которая преобразует текстовую информацию в устную речь с использованием различных алгоритмов и моделей. Основные сферы применения включают:

  • Виртуальные ассистенты: используются для взаимодействия с пользователями через голосовые команды. Примеры включают таких ассистентов, как Apple Siri, Google Assistant и Amazon Alexa. Эти технологии позволяют пользователям выполнять задачи, такие как установка будильников, отправка сообщений и поиск информации в интернете, без необходимости физического взаимодействия с устройством [3];
  • Навигационные системы: озвучивают маршруты и указания для водителей. GPS-навигаторы используют синтез речи, чтобы предоставлять водителям пошаговые инструкции, что позволяет им сосредоточиться на дороге;
  • Автоответчики и call-центры: Автоматическое обслуживание клиентов. Синтез речи применяется для создания автоматических голосовых ответов, которые могут обрабатывать запросы клиентов и предоставлять информацию без участия человека;
  • Системы для слабовидящих: Чтение текстов и навигация. Технологии TTS помогают слабовидящим людям получать доступ к текстовой информации путем ее преобразования в аудио.

TTS-технологии применяются во многих областях, делая взаимодействие с устройствами более естественным и доступным для широкого круга пользователей. Они значительно повышают удобство и эффективность использования цифровых сервисов, предоставляя пользователям возможность взаимодействовать с технологиями через голосовые команды и ответы.

Синтез речи является междисциплинарной областью, которая объединяет знания из акустики, лингвистики и компьютерных наук для создания технологии, способной преобразовывать текст в звучащую речь. Развитие синтеза речи началось с попыток воспроизвести звуки человеческого голоса с помощью механических и электрических устройств и продолжает эволюционировать с использованием сложных математических моделей и искусственного интеллекта. Современные методы синтеза речи разрабатываются с целью достижения максимальной естественности, выразительности и гибкости в применении.

Существует несколько основных методов синтеза речи, каждый из которых имеет свои преимущества и недостатки:

  • Метод компилятивного синтеза использует заранее записанные звуковые фрагменты, которые компонуются для формирования предложений. Примером такой технологии является система, используемая в вокзалах для объявления прибытия и отправления поездов. Компилятивный синтез обеспечивает высокое качество звучания, однако ограничен в вариативности и требует значительных ресурсов для записи большого количества фрагментов [1].
  • Формантный синтез использует модели формант (основных резонансных частот) для создания звуков, которые имитируют человеческую речь. Формантный синтез был одним из первых методов, используемых в TTS-системах, и позволяет создавать звуки, близкие к естественным. Этот подход основывается на математическом моделировании акустических свойств человеческого голосового тракта и способен воспроизводить различные речевые звуки путём изменения параметров формант.
  • Параметрический синтез включает генерацию речи на основе математических моделей. Он использует параметры, такие как частота и амплитуда, для синтеза звуков. Примером параметрического синтеза является метод, использующий скрытые марковские модели (HMM). Этот метод требует меньше данных для обучения и занимает меньше памяти по сравнению с компилятивным синтезом. Параметрический синтез позволяет более гибко изменять характеристики голоса и интонацию, делая речь более адаптивной к различным сценариям [1].

Вокодеры используются для преобразования параметрической информации в звук. Они играют важную роль в высококачественном синтезе речи, обеспечивая плавные переходы между звуками и естественное интонирование. Вокодеры, такие как WaveRNN и WaveGlow, помогают улучшить качество синтезированной речи, делая её практически неотличимой от человеческой.

image001

Рисунок 1. Структурная схема вокодера.

Аддитивный синтез – это метод синтеза звука, который основан на сложении нескольких синусоидальных волн с различными частотами, амплитудами и фазами для создания сложных звуков. Аддитивный синтез предоставляет точный контроль над отдельными компонентами звука, что позволяет создавать высококачественные и разнообразные звуки. В контексте синтеза речи аддитивный синтез может быть использован для моделирования различных характеристик голосового тракта, что способствует созданию естественного звучания речи. Этот метод позволяет синтезировать звуки, точно имитирующие человеческий голос, путем управления параметрами каждой отдельной волны, создавая комплексные и реалистичные речевые сигналы.

Современные методы синтеза речи включают использование глубоких нейронных сетей. Примеры таких моделей включают Google WaveNet и Tacotron 2. Эти технологии обеспечивают более естественное и выразительное звучание, приближенное к человеческому, благодаря обучению на больших объемах данных. Модели глубокого обучения способны учитывать контекст, интонацию и эмоциональную окраску речи, что значительно улучшает качество синтеза. Эти модели обучаются на огромных наборах данных, включающих тысячи часов записей человеческой речи и их текстовых транскрипций, что позволяет им захватывать тонкие нюансы языка.

image002

Рисунок 2. Блок-схема архитектуры системы Tacotron 2.

Каждый из этих методов имеет свои сильные и слабые стороны, и выбор подхода зависит от конкретных требований и задач. Например, для приложений, требующих высокого качества звука, могут использоваться нейронные сети и глубокое обучение, тогда как для систем с ограниченными вычислительными ресурсами может быть предпочтителен параметрический синтез.

Развитие технологий синтеза речи можно проследить от простых механических устройств до современных нейронных сетей, которые обеспечивают практически неотличимое от человеческой речи звучание. Каждое новое поколение технологий стремилось улучшить натуральность, интонационную выразительность и общую гибкость синтезированной речи.

Первоначальные модели синтеза речи базировались на формантных методах, использующих математические модели для воспроизведения резонансных частот человеческого голосового тракта. Примеры таких систем включают Voder и VOCODER, разработанные в 1930-40-х годах. Эти ранние устройства могли воспроизводить простые звуки, но звучали искусственно и были ограничены в своих возможностях [2].

В 1980-х и 1990-х годах появились системы параметрического синтеза, такие как DECTalk. Эти системы использовали более сложные алгоритмы и скрытые марковские модели (HMM), что позволило улучшить качество звучания и естественность речи. HMM-модели могли моделировать временные зависимости между звуками, что делало синтезируемую речь более плавной.

Прорыв в синтезе речи произошёл с появлением моделей, основанных на глубоких нейронных сетях. В 2016 году Google представил WaveNet, революционную модель, использующую глубокие нейронные сети для генерации аудиоволн. WaveNet моделирует звуковые волны с высокой детализацией, что позволяет достигать уровня звучания, почти неотличимого от человеческой речи.

Современные компании активно разрабатывают и внедряют технологии синтеза речи. Рассмотрим примеры таких компаний и их достижения:

Модели WaveNet и Tacotron 2 от Google являются одними из самых передовых в области синтеза речи. Эти технологии обеспечивают высочайшее качество звучания и широко применяются в продуктах Google, таких как Google Assistant. WaveNet остается популярной благодаря своему высокому качеству синтеза, который достигается за счет моделирования звуковых волн с высокой детализацией. Этот метод позволяет создавать речь с плавными переходами и интонационными особенностями, приближенными к человеческой речи. Tacotron 2 улучшает производительность и качество, используя двухступенчатый процесс: сначала преобразование текста в спектрограмму, затем генерация аудиоволн. Это позволяет моделям более точно воспроизводить интонацию и эмоциональную окраску речи, делая синтезируемую речь еще более естественной и выразительной.

SberDevices применяет модели на основе Tacotron и WaveNet для синтеза речи. Эти модели позволяют достигать высокой естественности и выразительности, что делает синтезируемую речь практически неотличимой от человеческой. Tacotron преобразует текст в спектрограммы, а WaveNet генерирует звуковые волны на их основе. Эти технологии используются в голосовых ассистентах Джой и Афина, которые активно применяются в продуктах и сервисах Сбера [2].

Yandex SpeechKit представляет собой комплекс технологий для синтеза и распознавания речи, используемый в различных продуктах Яндекса. Основными аспектами являются:

  • Фонетическая подготовка текста: прежде чем начать синтез, система преобразует текст в фонетическую транскрипцию, чтобы обеспечить правильное произношение.
  • Использование моделей глубокого обучения: подобно WaveNet, модели Yandex используют глубокие нейронные сети для синтеза речи. Эти модели обучаются на больших наборах данных, что позволяет достигать высокого качества звучания.
  • Этапы синтеза: сначала текст подготавливается специальным алгоритмом, который разворачивает сокращения и числа. Затем текст делится на фразы, и каждая фраза проходит через фонетическую транскрипцию и моделирование интонации. Наконец, акустическая модель генерирует звуковые волны на основе этих данных.
  • Интонация и ударения: Модель учитывает контекст и расставляет правильные ударения и интонацию, что делает речь более естественной.

Для самостоятельного использования технологии синтеза речи Yandex SpeechKit потребуется предварительная настройка. Первым этапом является прохождение аутентификации и получение IAM-токена для аккаунта. Затем следует получить идентификатор каталога, с которым у авторизованного пользователя есть права на взаимодействие. После потребуется установка нескольких утилит: gRPCurl и jq. Они используются для вызова RPC-методов на серверах, а также для гибкого и удобного взаимодействия с форматом JSON соответственно. Установка и запуск утилит могут быть осуществлены с помощью пакетного менеджера, запущенного в контейнере образа или загруженного исходного кода.

Далее необходимо создать файл с текстом, который требуется синтезировать. Внутри текстового документа с соблюдением синтаксиса формата JSON необходимо заполнить параметры для настройки синтезации голоса, а также указать сам текст сообщения. 

{

 "text": "Пример текста, который будет синтезирован в результате работы программы",

 "outputAudioSpec": {

   "containerAudio": {

     "containerAudioType": "WAV"

   }

 },

 "hints": [

     {

         "voice": "jane"

     },

     {

         "role": "good"

     }

 ],

 "loudnessNormalizationType": "LUFS"

}

Следующим шагом является вызов консольной команды для взаимодействия с API Яндекса и отправкой подготовленного нами файла. Результатом выполнения данной процедуры является созданный в облачной папке, идентификатор которой был получен на этапе подготовки и указывается при вызове, файл speech.wav с синтезированной речью.  

export FOLDER_ID=<идентификатор_каталога>

export IAM_TOKEN=<IAM-токен>

jq . -c tts_req.json | \

grpcurl -H "authorization: Bearer ${IAM_TOKEN}" \

        -H "x-folder-id: ${FOLDER_ID}" \

        -d @ tts.api.cloud.yandex.net:443 speechkit.tts.v3.Synthesizer/UtteranceSynthesis | \

jq -r '.audioChunk.data' | base64 -d > speech.wav. 

Для использования SpeechKit API с клиентским приложением требуется наличие сервисного аккаунта.

Тинькофф также разрабатывает собственные решения для синтеза речи, обеспечивая высокое качество озвучивания текстов и взаимодействия с клиентами. Технологии Тинькофф применяются в call-центрах и других сервисах, что позволяет улучшить взаимодействие с клиентами и автоматизировать многие процессы.

В последние годы темпы технологического прогресса в синтезе речи замедлились, достигнув плато, где ключевые достижения связаны с полировкой существующих технологий и улучшением качества синтеза. Современные методы уже обеспечивают высокий уровень естественности и выразительности, и дальнейшие улучшения происходят постепенно, без значительных прорывов. Основные направления развития включают:

  • Улучшение естественности и выразительности: Новые модели стремятся сделать синтезируемую речь более естественной и выразительной, учитывая интонации, акценты и эмоциональную окраску.
  • Мультиязычность и мультиспикерность: Разработка моделей, способных синтезировать речь на различных языках и голосами разных спикеров.
  • Персонализация: Адаптация голосов под индивидуальные предпочтения пользователей, что позволяет создавать более персонализированные голосовые ассистенты.
  • Оптимизация вычислительных ресурсов: Снижение требований к вычислительным мощностям, что позволяет использовать технологии синтеза речи на устройствах с ограниченными ресурсами.

Современные технологии синтеза речи продолжают совершенствоваться, открывая новые возможности для применения в различных сферах жизни и улучшая взаимодействие между человеком и технологиями.

Актуальные проблемы технологий синтеза речи постоянно меняются, напрямую зависят от доступности вычислительных мощностей, пользовательских потребностей и актуальных трендов. Стоит отметить, что актуальные проблемы данных технологий отражают и текущее состояние техники в целом, они определяют направление технологического развития в этой и смежных областях.

Однако, несмотря на быстрое неравномерное развитие аппаратной и программной базы для работы с речью, основные проблемы остаются неизменными.

Сложность вычислительных процессов при синтезе речи, а также большое количество данных, использованных в процессе обучения и необходимое при синтезе в реальном времени, делают невозможным создание клиентского приложения с высоким уровнем речи без подключения к интернету или соединения с сервером напрямую.

Поскольку все современные решения синтеза речи нацелены на решение обширного списка задач озвучания, работают с большим количеством обобщенных данных и не являются узконаправленными и специализированными — это приводит к невозможности их использования в предметных областях. Это потребует дополнительного обучения произношению, а также расширения словарного запаса для понимания моделями узкоспециализированных терминов, которые в повседневном общении могут иметь совсем другое значение.

Технологии синтеза речи могут значительно улучшить образовательные процессы. Использование TTS-систем позволяет создать интерактивные учебные материалы, озвучивать тексты и предоставлять доступ к информации для людей с ограниченными возможностями.

В медицинской сфере синтез речи может быть использован для создания голосовых помощников, которые могут озвучивать медицинские инструкции, напоминания о приеме лекарств и предоставлять информацию пациентам.

Голосовые помощники в магазинах и call-центрах могут автоматизировать процесс обслуживания клиентов, предоставляя им информацию о продуктах, акциях и помогая с навигацией по магазину.

В игровой индустрии и медиа синтез речи может быть использован для создания более интерактивных и персонализированных игровых персонажей и голосовых ассистентов в домашних устройствах.

Синтез речи требует значительных вычислительных ресурсов, особенно для моделей глубокого обучения. На данный момент высококачественные модели, такие как Tacotron 2 и WaveNet, нуждаются в мощных серверах для обработки данных, что делает их использование на мобильных и встроенных устройствах сложным. Основной технический предел заключается в невозможности полностью перенести эти вычислительные задачи на устройства с ограниченными ресурсами без потери качества.

Сложности с персонализацией и использованием акцентов также являются значительными препятствиями. Современные модели часто унифицируют голос, что приводит к потере индивидуальности и разнообразия. Это связано с тем, что обучение моделей на широком спектре акцентов и интонаций требует огромных объемов данных и значительных вычислительных ресурсов.

Для обеспечения высокого качества синтеза речи требуется постоянное подключение к интернету. Это связано с необходимостью доступа к мощным серверам для обработки данных. Такая зависимость ограничивает использование технологий в ситуациях с нестабильным или отсутствующим интернет-соединением.

Современные TTS-системы часто не справляются с узкоспециализированными терминологиями и жаргонами, что требует дополнительного обучения и адаптации моделей. Это усложняет использование синтеза речи в специфических профессиональных областях, где точность и контекст имеют критическое значение.

В завершение хотелось бы отметить, что, несмотря на давнее существование методов синтеза речи, пока рано говорить о том, что они достигли своего предела. Эти технологии продолжают развиваться и открывать новые возможности. С каждым годом они всё больше внедряются в повседневную жизнь людей.

В рамках данной научной статьи были рассмотрены современные технические решения, базирующиеся на технологиях синтеза речи. В работе описаны основные методы синтеза речи, рассмотрены их преимущества и недостатки. Особое внимание уделено развитию технологий и анализу процесса улучшения качества звучания, которое позволило добиться результата практически неотличимого от человеческого голоса. После анализа деятельности современных компаний и направлений развития их собственных технологий были обозначены актуальные проблемы в области синтеза речи, а также перспективы развития этих технологий.

Список литературы

  1. «Обзор технологий синтеза речи» [Электронный ресурс] Режим доступа: https://habr.com/ru/companies/tinkoff/articles/474782/.
  2. «От хрипов до естественного звучания. Как развиваются технологии синтеза речи и откуда голоса у Сбера, Джой и Афины» [Электронный ресурс] Режим доступа: https://vc.ru/ml/335300-ot-hripov-do-estestvennogo-zvuchaniya-kak-razvivayutsya-tehnologii-sinteza-rechi-i-otkuda-golosa-u-sbera-dzhoi-i-afiny/.
  3. «Синтез речи: что это такое и как с этим работать» [Электронный ресурс] Режим доступа: https://www.mtt.ru/support/blog/sintez-rechi-chto-eto-takoe-i-kak-s-etim-rabotat/.
  4. «Что такое синтез речи» [Электронный ресурс] Режим доступа: https://developers.sber.ru/help/salutespeech/creating-audio-from-text/.

Интересная статья? Поделись ей с другими:

Автор: Меджидов Магомед Магомедтагирович