УДК 004

Использование методов машинного обучения и технологии компьютерного зрения для распознавания эмоций и выявления ложной информации

Козлов Андрей Олегович – магистрант Иркутского национального исследовательского технического университета

Аннотация: В статье рассматривается технология компьютерного зрения, ее возможности и практическое применение. В связи с этим был изучен существующий метод распознавания ложной информации – полиграф, а также возможность использования нейронной сети для выявления ложной информации, были рассмотрены имеющиеся методы распознавания изображения с помощью искусственных нейронных сетей, а также применение технологии компьютерного зрения для распознавания эмоций.

Ключевые слова: компьютерное зрение, искусственные нейронные сети, распознавание изображений, распознавание эмоций.

Введение

В настоящее время искусственные нейронные сети применяются в преимущественном большинстве сфер науки и новейших технологий. Также они применяются для того, чтобы определить, распознать и в дальнейшем классифицировать всевозможные объекты, которые проиллюстрированы на отдельно взятом изображении.

Рассматриваемые сети могут использоваться в области криминалистики, а также в рамках работы органов полиции с целью поимки правонарушителей, включая и злостных нарушителей закона. Это обуславливается тем, что сегодня разработаны такие специализированные программы, которые направлены на распознавание лиц, что предоставляет возможность выявлять также и то, какая информация, которая озвучивается отдельным человеком, является правдой, а какая нет.

Использование исследуемых сетей считается целесообразным по причине того, что именно благодаря им рассматриваемый процесс существенно упрощается ровно, как и упрощается трудовая деятельность самих операторов. Именно благодаря решению упомянутой выше задачи представляется возможным существенно повысить производительность работников правоохранительных органов (например, при поимке опасного преступника и установления его вины).

Выявление ложной информации с помощью полиграфа

В упомянутой выше области и отдельных предприятиях (например, при прохождении собеседования или беседах с действующими сотрудниками предприятия, которые занимают ту или иную должность) применяются соответствующие проверки (в том числе и периодические) посредством использования детектора лжи (полиграф). Но он представляет собой только инструмент, посредством которого представляется возможным считать отдельные физиологические показатели человека. Главным аспектом в рассматриваемой процедуре при использовании упомянутого инструмента выступает полиграфолог. Именно упомянутый специалист проводит анализ показаний исследуемого прибора, а также производит соотношение их с собственными знаниями и имеющимся практическим опытом. Но, невзирая на то, что указанные специалисты имеют довольно большой практический опыт, свои формируемые результаты они оценивают на уровне 70%. Это означает то, что регистрируемые посредством рассматриваемого прибора показатели, выявляются при обмане, а также носят довольно разносторонний характер и способны проявляться далеко не во всех случаях.

Принцип работы нейросетевого полиграфа

Нейросетевые технологии предоставляют возможность совершенно иначе подойти к вопросу проблемы построения полиграфа. Также они предоставляют уникальную возможность разработать соответствующую специализированную программу. Именно данная программа способна настраиваться непосредственно на каждого отдельно взятого подследственного (сотрудника предприятия) и принимать во внимание отличительные особенности человеческого организма.

Преимущественное большинство обучающих примеров формируется по итогу проведения предварительных бесед, которые организуются между полиграфологом и подследственным, который проходит обследование. Специалист задает соответствующие вопросы подследственному лицу, чтобы узнать его ответ и выявить эмоции при ответе. Однако самому специалисту ответы на них заблаговременно предоставляют (т.е. известны). При ответе снимаются такие параметры, которые формируют входной вектор Xq. Выходной вектор Dq, в свою очередь формирует специалист, посредством проведения сравнительных действий полученных ответов с теми, которые ему были предоставлены. На рисунке 1 проиллюстрирована схема полиграфа.

1

Рисунок 1. Принципиальная схема нейросетевого детектора лжи.

Накопив достаточное количество примеров, и проведя обучение на них персептрон, можно задать подследственному именно тот вопрос, который в большинстве своем и интересует следователя. Стоит отметить, что система датчиков формирует и впоследствии передает персептрону вектор X, а он в свою очередь выдает соответствующий вектор Y, который предоставляет возможность сформировать заключение об истинности озвученного подследственным ответа. Так как персептрон обучался именно на реакциях, которые были сформированы именно подследственным человеком, то вполне логично предполагать и ожидать, что заключение, сформированное персептроном, будет максимально объективно принимать во внимание персональные особенности организма подследственного на ложь и на правду.

Представленный выше способ формирования настраиваемого полиграфа обладает таким недостатком, который состоит в чрезмерно повышенной трудоемкости. Если говорить точнее, то для каждого человека, который подвергается обследованию, необходимо заново формировать достаточно большое количество обучающих примеров (как показывает практика, порядка 70-100 вопросов/ответов), а после этого обучать персептрон. Исключительно после этого он будет способен проводить тестирование. Но следует подчеркнуть, что тестирование в данном случае может быть проведено в отношении только того подследственного, для которого он был настроен.

Принцип распознавания изображений искусственной нейронной сетью

Исследуемые сети не способны программироваться в том смысле, к которому все привыкли. Упомянутые сети обучаются. Стоит отметить, что именно возможность обучения представляет собой одно из основных их преимуществ [5].

В рамках проводимого обучения исследуемая сеть может выявлять довольно сложные зависимости, которые наблюдаются между данными входного и выходного характера, а кроме того она может проводить соответствующее обобщение. Это означает то, что при благоприятном обучении, сеть способна вернуть правильный результат, основываясь на таких данных, которые в рамках обучающей выборки отсутствовали.

Стандартная система распознавания включает в себя следующие основные части: извлечение признаков, распознание, принятие соответствующего решения.

Под извлечением признаков понимается преобразование входных объектов к единообразному виду с непосредственной потерей преимущественной части, которая имеется в самом объекте, и довольно слабо воздействующей на классификацию.

Подчеркивается, что до соответствующего предела, чем больше скрытых слоев наблюдается в исследуемой сети, настолько более точно будет распознано изображение. Картинка подлежит разбивки, как правило, на небольшие участки, где каждый считается входным нейроном. Посредством синапсов, сигналы передаются от одного слоя к другому. В рамках рассматриваемого процесса порядка сотни тысяч нейронов с миллионами всевозможных параметров, проводят сравнение полученных сигналов с ранее уже обработанными данными [1].

Основная проблема рассматриваемого метода состоит в том, чтобы не переобучить рассматриваемую систему. Это обуславливается тем аспектом, что в определенный момент, рост количества слоев приводит исключительно к простому заучиванию, но никак не к необходимому и полноценному обучению.

Распознавание эмоций методами компьютерного зрения

Методом, направленным на определение эмоций опрашиваемого подследственного по выражению его лица выступает решение задачи классификации изображения посредством сверточных нейронных сетей, с непосредственным обучением этой модели на датасете. Помимо этого датасет вполне способен быть разделен на несколько каталогов, где их имена будут полностью совпадать с той или иной эмоцией, фото которой представлено в папке. Представленной структуры файлов является вполне достаточно для того, чтобы сформировать обучающий датасет.

Двумерная модель Д. Рассела выступает одной из многочисленного разнообразия моделей эмоций. Представленная модель была сформирована в 1980 г. И именно она и проиллюстрирована на рисунке 2. Согласно рассматриваемой модели, можно отметить, что эмоция человека разделяется на «Valence» (настроение) и «Arousal» (возбуждение). Разложение эмоций на составляющие в рассматриваемом пространстве также проиллюстрировано на упомянутом рисунке.

2

Рисунок 2. Модель эмоций Valence-Arousal.

При использовании рассматриваемого подхода, определение эмоций сводится непосредственно к такой задаче, как регрессия с предсказанием двух соответствующих численных значений. Под данными значениями выступают координаты точки в пространстве.

Пример распознавания эмоций методами компьютерного зрения

Для примера была рассмотрена такая предобученная сеть, как VGGFace на базе ResNET-50. Представленная модель предоставляет возможность выявлять лица, проиллюстрированные на изображении, а также она обучается распознавать и различать всевозможные эмоции, после чего производит сопоставление возможного значения с истинным. На рисунке 3 проиллюстрирован полученный результат. Красным цветом отмечены значения, которые являются ошибочными.

3

Рисунок 3. Результат работы модели.

Подчеркивается, что библиотека OpenCV была использована с целью локализации лиц на изображении. Выявление лиц в рассматриваемой библиотеке базируется на применении каскадов Хаара.

В завершении стоит отметить, что задачей последующих проводимых научных исследований выступает разработка такого программного продукта, который будет проводить анализ видеозаписи с применением методов обучения для соответствующего распознавания лиц и их эмоций в кадре, а кроме того возможности применять отдельные функции полиграфа с целью установления того, является ли информация, которая озвучена человеком на видеозаписи ложной или правдивой.

Список литературы

  1. Жигалов К.Ю. Применение нейронной сети для создания системы распознавания изображений // Научный журнал «Фундаментальные исследования». 2017.
  2. Осовский С. Нейронные сети для обработки информации. – М.: Финансы и статистика, 2002.
  3. Форсайт Д., Понс Ж.. Компьютерное зрение. Современный подход. изд. – М.: Вильямс, 2004. — 928 с.
  4. Чабан. Л.Н. Теория и алгоритмы распознавания образов. Учебное пособие. М.: МИИГАиК. 2004. – 70с.
  5. Шолле Ф. Глубокое обучение на Python. СПб: Питер, 2018. – 400 c.

Интересная статья? Поделись ей с другими: