УДК 004

Автоматическое распознавание речи с использованием искусственного интеллекта

Ши Вэйхэн – студент Университета гражданской авиации Китая (г. Тяньзинь, Китай)

Аннотация: В статье рассматривается технология преобразования устной речи в текст с помощью технологий искусственного интеллекта. Обозначены предпосылки появления систем Conversation AI. Описываются основные достижения в этой области, а также представлены примеры коммерческих приложений и инструментов, подтверждающих перспективность и прибыльность вложений в данное направление. В статье также обсуждаются возможности применения автоматического распознавания речи различных областях жизнедеятельности, таких как здравоохранение, сфера услуг, финансы. Кроме того, дана оценка перспективам развития данной технологии.

Ключевые слова: искусственный интеллект (ИИ), автоматическое распознавание речи, естественный язык, чат-боты, голосовые помощники.

Область искусственного интеллекта активно развивается, и одним из приоритетных направлений является автоматическое распознавание речи. Автоматическое распознавание речи (ASR – Automatic Speech Recognition) – это процесс преобразования разговорной речи в текст [1]. Эта технология использует алгоритмы машинного обучения и нейронные сети для анализа и интерпретации звуковых сигналов, которые мы называем речью. Основная цель ASR – обеспечить возможность взаимодействия между человеком и компьютером на естественном языке (Natural Language). Это означает, что компьютер может понимать и обрабатывать голосовые команды и запросы, как если бы они были введены с помощью клавиатуры и мыши [2]. К наиболее известным примерам данной технологии можно отнести: голосовые помощники в мобильных устройствах, голосовое управление в автомобилях, распознавание речи в банковском и финансовом секторе.

К ключевым компонентам и особенностям автоматического распознавания речи с использованием искусственного интеллекта отностяся следующие этапы. Первоначально звуковые волны с микрофона или аудиозаписи преобразуются в цифровой формат для дальнейшей обработки. Далее алгоритмы извлекают характеристики из аудиосигнала, такие как частоты и мел-кепстральные коэффициенты, чтобы представить речь в числовой форме. После происходит построение моделей, использующих методы машинного обучения, такие как скрытые марковские модели (HMM) или рекуррентные нейронные сети (RNN), для описания связей между аудиофункциями и соответствующим текстом. Модели обучаются на больших наборах данных, состоящих из аудиозаписей и соответствующих текстов, чтобы научиться правильно распознавать речь. Далее происходит процесс декодирования, который определяет, какие слова наиболее вероятно были произнесены на основе построенных моделей. Дополнительные алгоритмы используются для улучшения точности распознавания, включая исправление ошибок и контекстуальную обработку. Текстовый вывод может быть интегрирован в различные приложения и системы, такие как виртуальные ассистенты,

Одним из видимых достижений является создание множества коммерческих программ и приложений, что делает инвестиции в область ASR оправданными и прибыльными. Например, неким продолжением IVR-систем (Interactive Voice Response) стала технология Conversation AI. Если IVR – это технология, которая позволяет автоматизировать обработку входящих и исходящих телефонных звонков и используются для маршрутизации звонков, предоставления информации и выполнения различных задач [3]. При этом IVR-система – это система, которая позволяет абонентам взаимодействовать с заранее записанным голосовым меню, используя тональный набор. Тогда как Conversation AI (искусственный интеллект для разговоров, чат-бот) — это технология, которая использует искусственный интеллект для создания и поддержки разговоров с людьми на естественном языке. Основная идея Conversation AI заключается в том, чтобы создать систему, которая может понимать и реагировать на человеческий язык, а также взаимодействовать с людьми на естественном языке [4]. Это позволит создавать более удобные и эффективные системы обслуживания клиентов, улучшать качество общения и повышать уровень удовлетворенности клиентов.

Виртуальный собеседник может использоваться в различных сферах бизнеса, таких как финансы, здравоохранение, ритейл и другие. Например, в банковской сфере Conversation AI может помочь клиентам получить информацию о своих счетах, услугах и тарифах, а также проводить финансовые операции через мессенджеры или голосовые помощники. Кроме того, Conversation AI может использоваться для автоматизации процессов продаж, маркетинга и технической поддержки. Например, система может отвечать на вопросы клиентов о товарах или услугах, предоставлять информацию о скидках и акциях, а также помогать решать проблемы с продуктами или услугами.

Conversation AI, помимо распознавания речи (как у виртуальных помощников Alexa от Amazon и Siri от Apple) [5] также может быть встроен в электронные и бытовые устройства. Например, компания Sony, выпустила телевизоры, которыми можно управлять с помощью голоса.

Автоматическое распознавание речи используется в медицинских исследованиях, когда оператор должен вводить информацию, не отвлекаясь от работы, или когда нужно управлять автономными аппаратами для исследования внутренних органов [6]. В некоторых продвинутых медицинских учреждениях даже заполнение медицинских карт осуществляется голосом.

Согласно прогнозам компании ComScore, к 2020 году голосовой поиск будет составлять 50% от всех видов поисков, а благодаря применению искусственного интеллекта, он станет более точным и эффективным [7]. Прогнозируется улучшение эффективности работы автоматического перевода иностранных языков, что связано с технологией распознавания акцентов и управлением фоновым шумом.

Применение автоматического распознавания речи с использованием искусственного интеллекта охватывает множество областей, включая разработку виртуальных ассистентов, транскрипцию аудио и видео, управление системами без использования рук и другие технологии обработки речи. Автоматическое распознавание речи – это быстро развивающаяся технология, которая становится все более точной и эффективной. Чат-боты, виртуальные собеседники, голосовые помощники или Conversation AI, данную технологию называют по-разному. Всё это одна система, использующая технологии ИИ, которая широко используется в различных отраслях бизнеса, таких как телекоммуникации, банковское дело, ритейл и даже медицина. Она позволяет повысить эффективность работы компании и улучшить качество обслуживания клиентов.  

Список литературы

  1. Тампель И. Б., Карпов А. А. Автоматическое распознавание речи // Учебное пособие.− СПб: Университет ИТМО. – 2016.
  2. Yu D., Deng L. Automatic speech recognition. – Berlin: Springer, 2016. – Т. 1.
  3. What is IVR? [Электронный ресурс]. – Режим доступа: http://voxeo.com/glossary/what-is-ivr/ (дата обращения: 18.12.12).
  4. Барашко, Е.Н. Голосовые помощники / Е.Н. Барашко, А.С. Васильев, С.В. Зубань // Новые импульсы развития: вопросы научных исследований: сборник статей Международной научно-практической конференции, Саратов, 18 мая 2020 года. – Саратов: НОО «Цифровая наука», 2020. – С. 48-53.
  5. .Guzman A. L. Making AI safe for humans: A conversation with Siri // Socialbots and their friends. – Routledge, 2016. – С. 85-101.
  6. Goedart J. Speech recognition technology gives voice to clinical data // Health Data Management. 2002. V. 10. N 12. P. 30-32, 34, 36.
  7. Stucke M. E., Ezrachi A. How digital assistants can harm our economy, privacy, and democracy // Berkeley Technology Law Journal. – 2017. – Т. 32. – № 3. – С. 1239-1300.

Интересная статья? Поделись ей с другими: