УДК 004.934.2

Распознавание речи как один из методов определения психического состояния человека

Лапушинский Кирилл Романович – бакалавр Санкт-Петербургского государственного университета аэрокосмического приборостроения

Аннотация: Описаны возможности технологий распознавания речи для определения психического и эмоционального состояния людей, а также рассмотрены основные методы распознавания эмоций, такие как антропоморфный, метрологический, машинное обучение и мультимодальный анализ. Каждый из этих подходов имеет свои преимущества и охватывает разные аспекты распознавания эмоций. В рамках статьи было выявлено, что лингвистические особенности речи связаны с психоэмоциональным состоянием человека. При использовании машинного обучения и компьютерного анализа обработки естественного языка были разработаны автоматические классификаторы, способные предсказывать качественное одиночество и риск возникновения психоза с высокой точностью.

Ключевые слова: психическое состояние, распознавание речи, распознавание речи и эмоций, нейронная сеть, эмоциональное состояние.

Введение

С развитием информационных технологий в целом и области машинного обучения в частности появляется всё больше возможностей по анализу психического состояния человека. Одним из наиболее популярных методов такого анализа является распознавание речи. Распознавание речи – область, которая разрабатывает методологии и технологии, позволяющие компьютерам распознавать устную речь и переводить ее в текст. Такие компьютерные технологии известны как “технологии преобразования речи в текст” (Speech-to-Text, STT). Подобные методы используется в психологии, медицине и других научных областях для определения эмоционального состояния, наличия психических расстройств и других показателей психического здоровья.

Распознавание речи и психическое состояние

Распознавание речи основывается на анализе различных параметров речи, таких как тональность, интонация, ритм, скорость, артикуляция и другие характеристики. Например, изменения в тональности голоса могут указывать на возбуждение, страх или депрессию, тогда как скорость и ритм речи могут свидетельствовать о чувствах беспокойства или уверенности [1].  Так, например, недавние исследования обнаружили, что люди с БДР (большое депрессивное расстройство) имеют более низкий уровень беглости речи и больше пауз в ней [2]. Это говорит о том, что распознавание речи можно использовать как метод диагностики БДР.

При обследовании образцов речи людей с болезнью Альцгеймера и здоровых людей с использованием алгоритмов машинного обучения для анализа речевых паттернов, выяснилось, что распознавание речи может точно различать людей с болезнью Альцгеймера и здоровых людей, что позволяет предположить, что оно может быть ценным инструментом для ранней диагностики [3].

При помощи исследования речи можно также выявить одиночество. В ходе опроса восьмидесяти англоговорящих пожилых людей в возрасте от 66 до 94 лет. Было выявлено, что одинокие люди (по качественным оценкам) имели более продолжительные ответы с большей выраженностью грусти на прямые вопросы об одиночестве. Женщины чаще одобряли чувство одиночества во время качественного интервью. Мужчины в своих ответах использовали более испуганные и радостные слова. Используя лингвистические особенности, модели машинного обучения могут предсказывать качественное одиночество с точностью 94% [4].

Используя компьютерный анализ обработки естественного языка, выявлено, что среди англоговорящих подростков с клинически высокой степенью риска исходное снижение семантической связности (потока смысла в речи) и синтаксической сложности может предсказать последующий психоз. Для этого был разработан автоматический классификатор речи с машинным обучением, включающий снижение семантической связности, большую вариабельность этой связности и меньшее использование притяжательных местоимений, который имел точность 83% в прогнозировании начала психоза и точность 72% в различении речи пациентов с недавно начавшимся психозом от речи здоровых людей [5]. Таким образом автоматизированный лингвистический анализ может оказаться мощным инструментом диагностики и лечения в нейропсихиатрии.

Методы распознавания эмоций в речи

Существует несколько основных методов распознавания эмоций в звучащей речи: антропоморфный, метрологический, машинное обучение, мультимодальный анализ и использование комбинации данных методов.

Антропоморфный подход

Антропоморфный подход основан на анализе содержания и контекста речи, таких как лексика, грамматика, культурные и социальные нормы и другие контекстуальные факторы. Он использует анализ текста речи и знание о социальной ситуации, чтобы определить эмоциональное состояние говорящего. Антропоморфный подход учитывает контекст и не ограничивается только акустическими характеристиками речи [6]. Он может включать в себя анализ тональности, интонации, скорости и ритма речи, использование междометий, а также использование слов, связанных с определенными эмоциями. Например, с его помощью можно распознать пишет ли человек текст, находясь в состоянии фрустрации [7].

Метрологический подход

В свою очередь подход основан на анализе спектральных характеристик речевого сигнала, таких как особенности голоса, интонации, скорости речи и других акустических характеристик. Он использует математические методы обработки сигналов для извлечения признаков из акустического сигнала речи, которые затем используются для распознавания эмоций. Метрологический подход не учитывает контекст речи и не требует знания о социальной ситуации, в которой произносится речь [8]. Так, например, изучая частоту основного тона человека (определяет частоту колебаний волны вокализованных звуков ([a], [o])), можно определить эмоциональное напряжение, эмоциональное возбуждение, панику, утомление или депрессию [9]. Преимущество данного подхода в том, что у всех людей, независимо от страны их проживания и языка, на котором они говорят, так или иначе происходит изменения спектральных характеристик голоса, когда они испытывают те или иные эмоции [10].

Машинное обучение

Алгоритмы машинного обучения позволяют обучить компьютер распознавать эмоции в звучащей речи на основе большого количества примеров. Это может включать в себя анализ спектрограммы звука, распознавание речи и анализ тональности. Например, с помощью применения нейросетевой модели, при помощи поиска отношений частот, можно определить базовые эмоции человека, такие как радость или печаль [11]. Автоматическое распознавание с использованием машинного обучения часто используется для определения эмоций из определенного заданного набора их классов. Обработка речи в этом случае происходит в три основных этапа, включающих в себя предварительную обработку, выделение признаков и классификацию на основе полученных признаков. Обработка в системах распознавания применяется для решения таких задач, как фильтрация речи и шумоподавление; разделение речи на информативные сегменты; определение значимых параметров.

Мультимодальный анализ

Этот метод включает в себя объединение информации из разных модальностей, таких как выражение лица и язык тела, с анализом речи для более точного определения эмоционального состояния говорящего. Например, по временному изменению значений серых пикселей в областях глаз и рта использующемуся в качестве функции для захвата информации об эмоциях из выражений лица и акустическим признакам, представляющим спектральную и просодическую информацию можно определить эмоции из речевого сигнала человека на видео [12].

Заключение

Распознавание речи является важным методом определения психического состояния человека, который может быть использован в различных областях. Однако, для достижения наиболее точного результата, он может использоваться в сочетании с другими методами и подходами.

Одним из основных преимуществ распознавания речи как метода определения психического состояния является его возможность использования в реальном времени. Этот подход может быть применен в различных областях, таких как медицинская диагностика, психотерапия и даже в игровой индустрии для создания персональных и интерактивных игровых персонажей. Кроме того, следует отметить, что распознавание речи не является универсальным методом определения психического состояния человека и не может использоваться в качестве единственного диагностического критерия. Но он может быть взят во внимание в сочетании с другими психологическими, медицинскими и социологическими методами для достижения наиболее точного результата.

Список литературы

  1. Зандан Батзориг, Баскаков А.И., Одсурэн Бухцоож. Распознавание речи как один из методов определения психического состояния человека // Журнал радиоэлектроники. 2021. № 6.
  2. Harati S. et al. Depression Severity Classification From Speech Emotion // 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). P. 5763-5766.
  3. Yuan J., Cai X., Church K. Pause-encoded Language Models for Recognition of Alzheimer’s Disease and Emotion // ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). P. 7293–-297.
  4. Badal V.D. et al. Prediction of Loneliness in Older Adults Using Natural Language Processing: Exploring Sex Differences in Speech // The American Journal of Geriatric Psychiatry. 2021. Vol. 29, № 8. P. 853-
  5. Corcoran C.M. et al. Prediction of Psychosis Across Protocols and Risk Cohorts Using Automated Language Analysis // World Psychiatry. 2018. Vol. 17, № 1. P. 67-
  6. Вартанов А.В. Антропоморфный метод распознавания эмоций в звучащей речи // Национальный психологический журнал. 2013. № 2 (10).
  7. Ениколопов С.Н. et al. Признаки, характерные для текстов, написанных в состоянии фрустрации // Вестник московского университета. Серия 14: Психология. 2019. № 3.
  8. Зиновьева Е.И. et al. Метрологический подход к распознаванию эмоций в звучащей речи // Философия и гуманитарные науки в информационном обществе. 2017. № 3 (17).
  9. Картавенко М.В. Об использовании акустических характеристик речи для диагностики психических состояний человека // Известия Трту. 2005. № 5 (49).
  10. Ren G., Zhang X., Duan S. Articulatory and Acoustic Analyses of Mandarin Sentences With Different Emotions for Speaking Training of Dysphonic Disorders // J Ambient Intell Human Comput. 2020. Vol. 11, № 2. P. 561-
  11. Название публикации et al. Искусственный интеллект в решении актуальных социальных и экономических проблем ХХI века. Пермский государственный национальный исследовательский университет, 2018. P. 294.
  12. Rao K.S., Koolagudi S.G. Recognition of Emotions From Video Using Acoustic and Facial Features // SIViP. Vol. 9, № 5. P. 1029-1045.

Интересная статья? Поделись ей с другими: