УДК 004.8

Применение N-граммных языковых моделей для коррекции доменных коллокаций и улучшения распознавания речи

Маненок Даниил Андреевич – магистрант Челябинского государственного университета.

Аннотация: Статья посвящена проблеме распознавания доменной речи при использовании современных моделей автоматического распознавания речи (ASR). Несмотря на значительный прогресс в области ASR, стандартные модели часто испытывают трудности при работе с речью, специфичной для определенных областей знаний. Предложен подход, включающий применение n-граммной языковой модели для коррекции доменных коллокаций, что приводит к значительному улучшению качества распознавания речи. Обсуждаются различные методы адаптации к домену, включая обучение моделей машинного обучения с нуля, трансфертное обучение, машинный перевод, и использование нейронных языковых моделей. По результатам экспериментов на собственном наборе данных из юридической доменной области, выяснилось, что добавление n-граммной языковой модели является эффективным и наименее трудозатратным способом улучшения качества распознавания речи.

Ключевые слова: автоматическое распознавание речи, исправление ошибок, доменная адаптация, доменные коллокации, языковая модель, N-грамма.

Введение

Распознавание речи является одним из наиболее активно развивающихся направлений в области искусственного интеллекта и машинного обучения. Современные автоматические системы распознавания речи (ASR) в значительной степени облегчают межчеловеческое взаимодействие и ускоряют обработку информации [1, с. 10]. Однако, несмотря на значительные успехи в этой области, стандартные ASR модели испытывают трудности при работе с доменной речью, что ставит перед исследователями задачу поиска эффективных методов адаптации моделей к конкретным областям знаний [2].

В этой статье представлен подход, основанный на применении n-граммной языковой модели для коррекции доменных коллокаций. Данная техника демонстрирует значительное улучшение качества распознавания речи и требует значительно меньших усилий по сравнению с другими известными методами, такими как обучение моделей машинного обучения с нуля, трансфертное обучение, машинный перевод, и использование нейронных языковых моделей.

Основные методы коррекции доменных адаптаций

Обучение модели машинного обучения с нуля подразумевает создание модели, полностью настроенной на специфические особенности доменного языка. Однако этот подход требует значительных ресурсов, включая большой объем доменно-специфичных данных, вычислительные ресурсы и время, что делает его не всегда практичным.

Трансфертное обучение, включающее использование предварительно обученной модели, с последующим дообучением на доменно-специфичных данных, экономит вычислительные ресурсы и сокращает необходимость в больших объемах доменных данных. Тем не менее, для этого метода все еще необходим значительный объем размеченных данных и время на дообучение модели.

Метод машинного перевода включает преобразование доменно-специфичной речи в более общий язык перед обработкой ASR моделью. Несмотря на то, что этот метод может помочь обойти некоторые проблемы, связанные с доменной спецификой, он может привести к потере некоторых важных деталей и нюансов доменной речи [3].

Нейронные языковые модели могут выявлять более сложные зависимости в данных и потенциально могут быть более эффективными, чем n-граммные модели, но они требуют значительных вычислительных ресурсов для обучения и большого объема размеченных доменно-специфичных данных.

Добавление n-граммной языковой модели обеспечивает значительное улучшение производительности ASR модели на доменной речи с минимальными затратами. Этот метод прост в применении и не требует значительных вычислительных ресурсов. Для его реализации необходим только сбор доменно-специфичных текстовых данных, что значительно упрощает и ускоряет процесс адаптации модели [4].

Таблица 1. Сравнение методов коррекции доменных коллокаций.

Метод

Ресурсоемкость

Трудозатраты на сбор данных

Скорость обучения и работы

1

Обучение модели машинного обучения с нуля

Высокая

Высокие

Низкая

2

Трансфертное обучение и аугментация данных

Средняя

Средние

Средняя

3

Машинный перевод

Высокая

Высокие

Низкая

4

Добавление n-граммной языковой модели

Низкая

Низкие

Высокая

5

Добавление нейронной языковой модели

Высокая

Высокие

Низкая

После анализа всех представленных методов (таблица 1) можно сделать вывод о том, что методы 1-3 и 5 являются ресурсоемкими и трудозатратными. Метод 4, добавление n-граммной языковой модели, представляется наиболее приемлемым, так как для его реализации требуются только текстовые данные, которые относительно легко собрать, и n-граммные модели обучаются и работают быстрее по сравнению с другими методами.

В процессе n-граммного моделирования языка, модель обучается на основе текстовых данных, а затем совмещается с декодером лучевого поиска для выбора наиболее вероятных кандидатов. Декодеры лучевого поиска могут интегрировать языковые модели, обученные с помощью библиотеки KenLM [5]. N-граммные языковые модели можно применять в связке с декодерами лучевого поиска и моделями ASR для улучшения точности предсказанных кандидатов. Под кандидатом здесь понимается транскрипция текста, которую предсказывает декодер ASR-модели. Декодер лучевого поиска учитывает оценки, полученные с помощью n-граммной языковой модели, при расчете вероятностей следующим образом:

final_score = acoustic_score + beam_alpha*lm_score + beam_beta * seq_length,

где acoustic_score - это оценка, предоставленная акустическим кодировщиком, в то время как lm_score - это оценка, полученная с использованием языковой модели (LM). Параметр "beam_alpha" определяет важность n-граммной языковой модели, а "beam_beta" является штрафным коэффициентом, который учитывает длину последовательности при оценке. Большее значение alpha указывает на большую важность LM и меньшую важность акустической модели. Отрицательные значения для beta приведут к тому, что более длинные последовательности будут штрафоваться, и декодер будет предпочитать более короткие прогнозы, в то время как положительные значения способствуют выбору более длинных кандидатов [6].

Формирование датасета и определение бэнчмарка

Для тестирования эффективности n-граммных языковых моделей был разработан специализированный датасет, представляющий собой совокупность данных, характерных для юридической области. Материал был собран от участников различного возраста и пола, что обеспечивает учет широкого диапазона разнообразия в интонации, темпе речи и акцентах и гарантирует представительность собранного датасета.

Для определения бенчмарка, были выбраны три популярные ASR модели: NVIDIA NEMO STT Ru Conformer-Transducer Large [7], Whisper [8] и Vosk [9]. Эти модели были протестированы на сформированном датасете без дополнительных модификаций, что позволило оценить их базовую эффективность в распознавании доменной речи.

Качество распознавания речи оценивалось по метрике WER (Word Error Rate), которая вычисляется по формуле:

WER = (S + D + I) / N = (S + D + I) / (S + D + C),

где S обозначает количество замен, D – количество удалений, I – количество вставок, C – количество правильно распознанных слов, N – общее количество слов в эталонном тексте (N=S+D+C).

В приведенной ниже таблице 2 представлены результаты использования популярных предобученных моделей ASR на собранном датасете. В общем и целом, эти готовые решения демонстрируют достойное качество распознавания. Наиболее эффективной оказалась большая модель Vosk, показавшая значение WER равное 0,0528, что незначительно превосходит результаты модели Whisper с WER равным 0,0535.

Таблица 2. Определение бэнчмарка.

Модель

WER

NeMo stt_ru_conformer_transducer_large

0,0944

Whisper

0,0535

vosk-model-ru-0.42

0,0528

Добавление n-граммной языковой модели

Далее были выбраны три модели, которые показывают худшие результаты, чем бэнчмарк, и к ним был применен наш подход, с добавлением n-граммной языковой модели (таблица 3). Результаты экспериментов показали существенное улучшение качества распознавания речи для всех трех моделей. В двух из трех случаев подход позволил превзойти установленный бэнчмарк, что подтверждает его эффективность и универсальность. В то же время, только в одном случае (с самой маленькой моделью, которая изначально значительно уступала по качеству моделям из бэнчмарка) мы не смогли достичь уровня бэнчмарков. Таким образом, был продемонстрирован успех нашего подхода с использованием n-граммной языковой модели для улучшения качества распознавания речи в доменных задачах ASR. Это подтверждает эффективность предложенного в метода.

Таблица 3. Улучшение распознавания речи с помощью добавления n-граммной языковой модели.

Модель

WER

n-gram

jonatasgrosman/wav2vec2-xls-r-1b-russian

0,1232

0,0471

NeMo stt_ru_quartznet15x5

0,399

0,2161

NeMo stt_ru_conformer_ctc_large

0,0897

0,0503

Заключение

В данной работе были рассмотрены различные методы коррекции доменных адаптаций для улучшения качества распознавания речи. Основное внимание было уделено n-граммным языковым моделям, так как они обладают рядом преимуществ, таких как относительная простота сбора данных и меньшая потребность в вычислительных ресурсах по сравнению с альтернативными методами.

На основе созданного датасета из юридической доменной области был определен бенчмарк с использованием трех популярных моделей ASR. Далее, применение n-граммной языковой модели позволило значительно улучшить качество распознавания речи на моделях, которые изначально показывали результаты ниже бенчмарка. Таким образом, n-граммные языковые модели продемонстрировали свой потенциал в повышении эффективности распознавания речи в доменных контекстах.

В будущих исследованиях можно продолжить изучение возможностей n-граммных языковых моделей, а также рассмотреть комбинацию различных методов коррекции доменных адаптаций для достижения еще большей точности в распознавании речи.

Список литературы

  1. Иванько Д.В. Автоматическое распознавание аудиовизуальной русской речи: Автореф. дис. кан. тех. наук. – Ульм, 2020.
  2. Как адаптировать языковые модели Kaldi [Электронный ресурс]. – URL https://habr.com/ru/company/cft/blog/558824/ (дата обращения 20.01.2023).
  3. ASR Error Correction and Domain Adaptation Using Machine Translation, Anirudh Mani, Shruti Palaskar, Nimshi Venkat Meripo, Sandeep Konam, Florian Metze, URL [2003.07692] ASR Error Correction and Domain Adaptation Using Machine Translation (arxiv.org) (дата обращения 20.05.2022).
  4. Boosting Wav2Vec2 with n-grams in Transformers [Электронный ресурс]. – URL https://huggingface.co/blog/wav2vec2-with-ngram (дата обращения01.2023).
  5. Документация модели Kenlm [Электронный ресурс]. – URL https://github.com/kpu/kenlm (дата обращения 02.05.2023).
  6. ASR Language Modeling NVIDIA руководство пользователя [Электронный ресурс]. – URL https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/asr_language_modeling.html (дата обращения 20.12.2022).
  7. Карточка модели STT Ru Conformer-Transducer Large [Электронный ресурс]. – URL https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_ru_conformer_transducer_large (дата обращения 07.03.2023).
  8. Карточка модели Whisper [Электронный ресурс]. – URL https://github.com/openai/whisper/blob/main/model-card.md (дата обращения 27.03.2023).
  9. Документация модели Vosk [Электронный ресурс]. – URL https://alphacephei.com/vosk/ (дата обращения 01.05.2023).

Интересная статья? Поделись ей с другими: