УДК 004.853

Методика подготовки датасета для проведения исследований в области анализа тональности

Филин Артем Сергеевич – магистрант Московского авиационного института

Аннотация: В связи с широким распространением в Интернете социальных медиа у большинства жителей русскоязычных стран появилась возможность в любой момент публично высказать свое мнение по различным вопросам, в том числе в текстовом формате. Как правило, частные и государственные организации, осуществляющие деятельность в различных сферах, заинтересованы в определении преобладающего мнения целевых групп населения относительно тех или иных тем. Анализ тональности текстов помогает сделать обобщенные выводы о том, в каком ключе (положительном, отрицательном или нейтральном) обсуждается тема, и для этого не требуется тратить человеческие временные ресурсы.

Ключевые слова: датасет, токенизация, анализ тональности, алгоритм машинного обучения.

Методика подготовки датасета для анализа тональности включает в себя несколько этапов, начиная от сбора данных и очистки до разметки и анализа качества. Правильно подготовленный датасет поможет получить более точные результаты анализа тональности и достичь целей исследования. Зачастую собранные текстовые данные из различных источников представляют собой большие массивы информации, ручной анализ которых занял бы слишком много времени. Искусственные нейронные сети (ИНС) возможно использовать, в частности, для того, чтобы автоматически определить общую тональность каждого текста и получить первичные статистические данные о том, в какой степени мнение группы населения по определенному вопросу является положительным или отрицательным [1, 2]. Одним из основных аспектов успешного применения моделей ИНС для решения задачи анализа тональности текста является подготовка датасета [3]. В данной статье представлена методика подготовки русскоязычного датасета для проведения исследований в области анализа тональности.

Для сбора отзывов разработано специальное расширение для браузера «Chrome». Оно позволяет при просмотре страниц обнаруживать блоки отзывов и в автоматическом режиме сохранять их в отдельные файлы. Также вместе с отзывами сохраняется дополнительная информация об эмоциональной оценке автора, метаинформация о дате публикации, о пользователе, фильме, степени полезности отзыва в сообществе.

В качестве входных данных для формирования датасета выступают наборы отзывов с сервиса «Кинопоиск» (в период с 2018 по 2023 гг.), каждый из которых отмечен ярлыком «POSITIVE» («положительный»), «NEUTRAL» («нейтральный») или «NEGATIVE» («отрицательный»). Всего загружено 43866 отзывов. Загружаемые файлы в наглядном виде представляют собой таблицы с тремя столбцами: «kinopoiskId» (уникальный идентификатор отзыва), «type» («тип», т. е. тональность текста) и «description» («описание»,
т. е. непосредственно сам отзыв) (рисунок 1).

image001

Рисунок 1. Твердая копия экрана фрагмента таблицы исходных данных.

Исходное распределение тональности отзывов представлено на рисунке 2.

image002

Рисунок 2. Исходное распределение тональности отзывов.

Подготовка датасета проводится в несколько этапов:

  • предварительная подготовка данных;
  • морфологическая обработка текстов;
  • векторизация текстов.

Предварительная подготовка данных является наиболее ресурсозатратной процедурой и включает в себя этапы (рисунок 3):

  • преобразование текста в нижний регистр. Данная операция позволяет избежать дублирования слов в зависимости от регистра. Слова в начале предложения, как правило, пишутся в верхнем регистре, однако это не меняет их смысловое значение, но машинные алгоритмы могут их воспринимать как разные;
  • удаление пунктуации. Для алгоритмов машинного обучения знаки препинания, кавычки и другие специальные символы не имеют никакого значения в большинстве случаев (и, кроме того, вносит дополнительные вычислительные затраты) и в рамках применяемых подходов для решения задачи анализа тональности не используются;
  • удаление пробельных символов. Преследует цели, изложенные в предыдущем абзаце.
  • удаление стоп-слов. Удаление часто используемых слов, не несущих смысловую нагрузку (в основном предлоги, союзы, местоимения).
  • лемматизация. На завершающем этапе все слова приводятся к их изначальной форме.

image003

Рисунок 3. Этапы предварительной подготовки данных.

После проведения предварительной подготовки данных осуществляется токенезация и составляется словарь для тренировочного набора данных (фрагмент словаря представлен на рисунке 4).

image004image005

Рисунок 4. График распределения частотности использования словарных слов.

Общий размер словаря составил около 83000 слов. Анализ низкочастотной области позволяет сделать следующие статистические выводы:

  • около 33000 слов используются только один раз;
  • немного менее 40000 слов используются три раза и более;
  • количество слов, использование которых превышает 10 раз, составляет не более 20000.

Статистическое распределение частоты использования словарных слов не выходит за рамки адекватных значений и обуславливает их дальнейшее использование при обучении модели ИНС [4].

Завершающим этапом подготовки данных для последующего использования с алгоритмами машинного обучения является векторизация данных [5]. На основе полученного словаря тексты отзывов переводятся в числовую форму. Затем полученные вектора подаются на вход классификатора.

Таким образом, подготовка датасета для проведения исследований в области анализа тональности является сложным и важным процессом, требующим внимания к деталям и учета особенностей конкретного исследования. Однако, при правильной подготовке датасета можно получить точные и достоверные результаты анализа тональности. Представленный в данной статье оригинальный датасет может выступать в качестве входных данных для исследования различных моделей нейронных сетей с целью определения наиболее эффективной в решении задачи анализа тональности.

Список литературы

  1. Гафаров Ф. М. Искусственные нейронные сети и приложения. – 2018.
  2. Гусева П. В. Оценка эффективности нейронной сети для анализа тональности русскоязычных текстов // Инновации. – №. 47. – С. 1526-1530.
  3. Петров И. В., Снижко Е. А. Сравнение алгоритмов классификации в задаче анализа тональности текстов // Научное сообщество студентов XXI столетия. Технические науки. – 2020. – С. 57-61.
  4. Антонов А. В., Мешков В. С., Суханов А. В. Статистические распределения слов в русскоязычной текстовой коллекции Statistical distributions of words in a collection of Russian texts. – 2009.
  5. Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов // Математические структуры и моделирование. – 2019. – №. 4 (52). – С. 97-110.

Интересная статья? Поделись ей с другими: