УДК 004.8
Применение N-граммных языковых моделей для коррекции доменных коллокаций и улучшения распознавания речи
Маненок Даниил Андреевич – магистрант Челябинского государственного университета.
Аннотация: Статья посвящена проблеме распознавания доменной речи при использовании современных моделей автоматического распознавания речи (ASR). Несмотря на значительный прогресс в области ASR, стандартные модели часто испытывают трудности при работе с речью, специфичной для определенных областей знаний. Предложен подход, включающий применение n-граммной языковой модели для коррекции доменных коллокаций, что приводит к значительному улучшению качества распознавания речи. Обсуждаются различные методы адаптации к домену, включая обучение моделей машинного обучения с нуля, трансфертное обучение, машинный перевод, и использование нейронных языковых моделей. По результатам экспериментов на собственном наборе данных из юридической доменной области, выяснилось, что добавление n-граммной языковой модели является эффективным и наименее трудозатратным способом улучшения качества распознавания речи.
Ключевые слова: автоматическое распознавание речи, исправление ошибок, доменная адаптация, доменные коллокации, языковая модель, N-грамма.
Введение
Распознавание речи является одним из наиболее активно развивающихся направлений в области искусственного интеллекта и машинного обучения. Современные автоматические системы распознавания речи (ASR) в значительной степени облегчают межчеловеческое взаимодействие и ускоряют обработку информации [1, с. 10]. Однако, несмотря на значительные успехи в этой области, стандартные ASR модели испытывают трудности при работе с доменной речью, что ставит перед исследователями задачу поиска эффективных методов адаптации моделей к конкретным областям знаний [2].
В этой статье представлен подход, основанный на применении n-граммной языковой модели для коррекции доменных коллокаций. Данная техника демонстрирует значительное улучшение качества распознавания речи и требует значительно меньших усилий по сравнению с другими известными методами, такими как обучение моделей машинного обучения с нуля, трансфертное обучение, машинный перевод, и использование нейронных языковых моделей.
Основные методы коррекции доменных адаптаций
Обучение модели машинного обучения с нуля подразумевает создание модели, полностью настроенной на специфические особенности доменного языка. Однако этот подход требует значительных ресурсов, включая большой объем доменно-специфичных данных, вычислительные ресурсы и время, что делает его не всегда практичным.
Трансфертное обучение, включающее использование предварительно обученной модели, с последующим дообучением на доменно-специфичных данных, экономит вычислительные ресурсы и сокращает необходимость в больших объемах доменных данных. Тем не менее, для этого метода все еще необходим значительный объем размеченных данных и время на дообучение модели.
Метод машинного перевода включает преобразование доменно-специфичной речи в более общий язык перед обработкой ASR моделью. Несмотря на то, что этот метод может помочь обойти некоторые проблемы, связанные с доменной спецификой, он может привести к потере некоторых важных деталей и нюансов доменной речи [3].
Нейронные языковые модели могут выявлять более сложные зависимости в данных и потенциально могут быть более эффективными, чем n-граммные модели, но они требуют значительных вычислительных ресурсов для обучения и большого объема размеченных доменно-специфичных данных.
Добавление n-граммной языковой модели обеспечивает значительное улучшение производительности ASR модели на доменной речи с минимальными затратами. Этот метод прост в применении и не требует значительных вычислительных ресурсов. Для его реализации необходим только сбор доменно-специфичных текстовых данных, что значительно упрощает и ускоряет процесс адаптации модели [4].
Таблица 1. Сравнение методов коррекции доменных коллокаций.
№ |
Метод |
Ресурсоемкость |
Трудозатраты на сбор данных |
Скорость обучения и работы |
1 |
Обучение модели машинного обучения с нуля |
Высокая |
Высокие |
Низкая |
2 |
Трансфертное обучение и аугментация данных |
Средняя |
Средние |
Средняя |
3 |
Машинный перевод |
Высокая |
Высокие |
Низкая |
4 |
Добавление n-граммной языковой модели |
Низкая |
Низкие |
Высокая |
5 |
Добавление нейронной языковой модели |
Высокая |
Высокие |
Низкая |
После анализа всех представленных методов (таблица 1) можно сделать вывод о том, что методы 1-3 и 5 являются ресурсоемкими и трудозатратными. Метод 4, добавление n-граммной языковой модели, представляется наиболее приемлемым, так как для его реализации требуются только текстовые данные, которые относительно легко собрать, и n-граммные модели обучаются и работают быстрее по сравнению с другими методами.
В процессе n-граммного моделирования языка, модель обучается на основе текстовых данных, а затем совмещается с декодером лучевого поиска для выбора наиболее вероятных кандидатов. Декодеры лучевого поиска могут интегрировать языковые модели, обученные с помощью библиотеки KenLM [5]. N-граммные языковые модели можно применять в связке с декодерами лучевого поиска и моделями ASR для улучшения точности предсказанных кандидатов. Под кандидатом здесь понимается транскрипция текста, которую предсказывает декодер ASR-модели. Декодер лучевого поиска учитывает оценки, полученные с помощью n-граммной языковой модели, при расчете вероятностей следующим образом:
final_score = acoustic_score + beam_alpha*lm_score + beam_beta * seq_length,
где acoustic_score - это оценка, предоставленная акустическим кодировщиком, в то время как lm_score - это оценка, полученная с использованием языковой модели (LM). Параметр "beam_alpha" определяет важность n-граммной языковой модели, а "beam_beta" является штрафным коэффициентом, который учитывает длину последовательности при оценке. Большее значение alpha указывает на большую важность LM и меньшую важность акустической модели. Отрицательные значения для beta приведут к тому, что более длинные последовательности будут штрафоваться, и декодер будет предпочитать более короткие прогнозы, в то время как положительные значения способствуют выбору более длинных кандидатов [6].
Формирование датасета и определение бэнчмарка
Для тестирования эффективности n-граммных языковых моделей был разработан специализированный датасет, представляющий собой совокупность данных, характерных для юридической области. Материал был собран от участников различного возраста и пола, что обеспечивает учет широкого диапазона разнообразия в интонации, темпе речи и акцентах и гарантирует представительность собранного датасета.
Для определения бенчмарка, были выбраны три популярные ASR модели: NVIDIA NEMO STT Ru Conformer-Transducer Large [7], Whisper [8] и Vosk [9]. Эти модели были протестированы на сформированном датасете без дополнительных модификаций, что позволило оценить их базовую эффективность в распознавании доменной речи.
Качество распознавания речи оценивалось по метрике WER (Word Error Rate), которая вычисляется по формуле:
WER = (S + D + I) / N = (S + D + I) / (S + D + C),
где S обозначает количество замен, D – количество удалений, I – количество вставок, C – количество правильно распознанных слов, N – общее количество слов в эталонном тексте (N=S+D+C).
В приведенной ниже таблице 2 представлены результаты использования популярных предобученных моделей ASR на собранном датасете. В общем и целом, эти готовые решения демонстрируют достойное качество распознавания. Наиболее эффективной оказалась большая модель Vosk, показавшая значение WER равное 0,0528, что незначительно превосходит результаты модели Whisper с WER равным 0,0535.
Таблица 2. Определение бэнчмарка.
Модель |
WER |
NeMo stt_ru_conformer_transducer_large |
0,0944 |
Whisper |
0,0535 |
vosk-model-ru-0.42 |
0,0528 |
Добавление n-граммной языковой модели
Далее были выбраны три модели, которые показывают худшие результаты, чем бэнчмарк, и к ним был применен наш подход, с добавлением n-граммной языковой модели (таблица 3). Результаты экспериментов показали существенное улучшение качества распознавания речи для всех трех моделей. В двух из трех случаев подход позволил превзойти установленный бэнчмарк, что подтверждает его эффективность и универсальность. В то же время, только в одном случае (с самой маленькой моделью, которая изначально значительно уступала по качеству моделям из бэнчмарка) мы не смогли достичь уровня бэнчмарков. Таким образом, был продемонстрирован успех нашего подхода с использованием n-граммной языковой модели для улучшения качества распознавания речи в доменных задачах ASR. Это подтверждает эффективность предложенного в метода.
Таблица 3. Улучшение распознавания речи с помощью добавления n-граммной языковой модели.
Модель |
WER |
n-gram |
jonatasgrosman/wav2vec2-xls-r-1b-russian |
0,1232 |
0,0471 |
NeMo stt_ru_quartznet15x5 |
0,399 |
0,2161 |
NeMo stt_ru_conformer_ctc_large |
0,0897 |
0,0503 |
Заключение
В данной работе были рассмотрены различные методы коррекции доменных адаптаций для улучшения качества распознавания речи. Основное внимание было уделено n-граммным языковым моделям, так как они обладают рядом преимуществ, таких как относительная простота сбора данных и меньшая потребность в вычислительных ресурсах по сравнению с альтернативными методами.
На основе созданного датасета из юридической доменной области был определен бенчмарк с использованием трех популярных моделей ASR. Далее, применение n-граммной языковой модели позволило значительно улучшить качество распознавания речи на моделях, которые изначально показывали результаты ниже бенчмарка. Таким образом, n-граммные языковые модели продемонстрировали свой потенциал в повышении эффективности распознавания речи в доменных контекстах.
В будущих исследованиях можно продолжить изучение возможностей n-граммных языковых моделей, а также рассмотреть комбинацию различных методов коррекции доменных адаптаций для достижения еще большей точности в распознавании речи.
Список литературы
- Иванько Д.В. Автоматическое распознавание аудиовизуальной русской речи: Автореф. дис. кан. тех. наук. – Ульм, 2020.
- Как адаптировать языковые модели Kaldi [Электронный ресурс]. – URL https://habr.com/ru/company/cft/blog/558824/ (дата обращения 20.01.2023).
- ASR Error Correction and Domain Adaptation Using Machine Translation, Anirudh Mani, Shruti Palaskar, Nimshi Venkat Meripo, Sandeep Konam, Florian Metze, URL [2003.07692] ASR Error Correction and Domain Adaptation Using Machine Translation (arxiv.org) (дата обращения 20.05.2022).
- Boosting Wav2Vec2 with n-grams in Transformers [Электронный ресурс]. – URL https://huggingface.co/blog/wav2vec2-with-ngram (дата обращения01.2023).
- Документация модели Kenlm [Электронный ресурс]. – URL https://github.com/kpu/kenlm (дата обращения 02.05.2023).
- ASR Language Modeling NVIDIA руководство пользователя [Электронный ресурс]. – URL https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/asr_language_modeling.html (дата обращения 20.12.2022).
- Карточка модели STT Ru Conformer-Transducer Large [Электронный ресурс]. – URL https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_ru_conformer_transducer_large (дата обращения 07.03.2023).
- Карточка модели Whisper [Электронный ресурс]. – URL https://github.com/openai/whisper/blob/main/model-card.md (дата обращения 27.03.2023).
- Документация модели Vosk [Электронный ресурс]. – URL https://alphacephei.com/vosk/ (дата обращения 01.05.2023).