УДК 004

Применение нейронных сетей для точного поиска и вычленения ключевых слов в тексте

Томашевский Игорь Владимирович – студент кафедры компьютерного дизайна МИРЭА – Российского технологического университета

Аннотация: В данной научной статье рассматривается проблема точного поиска и вычленения ключевых слов в тексте с использованием нейронных сетей. Обсуждаются различные подходы к извлечению ключевых слов, включая статистические, графовые и методы на основе нейронных сетей. В качестве основного предложения статьи представлена архитектура нейронной сети с использованием долгосрочной краткосрочной памяти (LSTM), которая хорошо подходит для работы с последовательностями текста и учета сложных зависимостей между словами. В статье описывается процесс обучения и валидации предложенной архитектуры нейронной сети, а также приводятся примеры использования разработанных методов на практике. В заключении обсуждаются возможные направления дальнейших исследований, связанных с улучшением архитектуры нейронных сетей и адаптацией предложенных методов для работы с текстами на разных языках и в различных доменах знаний.

Ключевые слова: нейронные сети, извлечение ключевых слов, текст, LSTM, обработка естественного языка, статистические методы, графовые методы, обучение, валидация, архитектура нейронных сетей.

Обзор проблемы

Извлечение ключевых слов является важной задачей обработки текстов на естественном языке и информационного поиска, так как оно помогает выделить главные темы и идеи текста, ускоряя поиск и категоризацию документов. В данной статье мы рассмотрим различные методы извлечения ключевых слов, включая статистические, графовые и методы на основе нейронных сетей, и предложим собственную архитектуру нейронной сети для решения данной задачи.

Обзор существующих методов извлечения ключевых слов

Статистические методы

Статистические методы извлечения ключевых слов основаны на анализе частоты встречаемости слов в тексте и их важности для определения темы документа. Одним из наиболее известных статистических методов является TF-IDF (term frequency-inverse document frequency) [1]. Данный метод учитывает частоту слова в документе и обратную частоту документов, в которых это слово встречается.

Графовые методы

Графовые методы извлечения ключевых слов, такие как TextRank [2], используют структуру графа для представления слов и их взаимосвязей в тексте. Важность слов определяется с помощью итеративного алгоритма, который учитывает степень связности вершин графа.

Методы на основе нейронных сетей

В последнее время все больше внимания уделяется методам на основе нейронных сетей для извлечения ключевых слов из текста [3]. Нейронные сети могут учитывать сложные зависимости между словами и обучаться на больших объемах данных, что позволяет достигать более высокой точности и полноты при извлечении ключевых слов.

Сравнение существующих методов извлечения ключевых слов

TF-IDF

TF-IDF является одним из наиболее известных и широко используемых методов извлечения ключевых слов [1]. Вес слова в документе определяется следующей формулой:

TFIDF(t,d,D)=TF(t,d)×IDF(t,D)

где $TF(t, d)$ – частота слова $t$ в документе $d$, $IDF(t, D) = \log\frac{N}{DF(t, D)}$$ - обратная частота документов, содержащих слово $t$ в корпусе документов $D$, $N$ - общее количество документов в корпусе, $DF(t, D)$ - количество документов в корпусе, содержащих слово $t$. Таким образом, слова, которые часто встречаются в одном документе, но редко встречаются в других документах, получают высокий вес в контексте данного документа.

TextRank

TextRank представляет текст в виде графа, где вершины - это слова, а ребра - взаимосвязи между словами, основанные на их соседстве в тексте [2]. Важность слов определяется на основе их степени связности с другими словами в графе. Для вычисления важности слов используется итеративный алгоритм, аналогичный алгоритму PageRank, используемому в поисковых системах.

Нейронные сети

Нейронные сети предоставляют мощный инструмент для извлечения ключевых слов из текста, поскольку они могут учесть сложные зависимости между словами и обучаться на больших объемах данных [3]. Существует множество архитектур нейронных сетей, применяемых для данной задачи, включая рекуррентные нейронные сети (RNN), долгосрочную краткосрочную память (LSTM) [4] и механизмы внимания [5].

Предложенная архитектура нейронной сети

Описание архитектуры

В данной статье предлагается использовать нейронную сеть с архитектурой LSTM для извлечения ключевых слов из текста [4]. LSTM - это разновидность рекуррентных нейронных сетей, которые способны учесть долгосрочные зависимости между словами и хорошо подходят для работы с последовательностями текста. На вход нейронной сети подается последовательность токенизированных слов текста, а на выходе сети ожидается последовательность меток, соответствующих ключевым словам.

Обучение и валидация нейронной сети

Обучение нейронной сети проводится на подготовленной обучающей выборке с использованием метода оптимизации, например, стохастического градиентного спуска или адаптивного момента (Adam) [6]. В процессе обучения производится минимизация функции потерь, такой как кросс-энтропия, чтобы улучшить точность предсказания ключевых слов.

Для оценки качества работы предложенной архитектуры нейронной сети используются метрики, такие как точность (precision), полнота (recall) и F1-мера. Данные метрики позволяют оценить качество работы алгоритма на валидационной выборке и сравнить его с другими существующими методами извлечения ключевых слов.

Применение предложенной архитектуры на практике

Реализация алгоритма

Реализация алгоритма извлечения ключевых слов на основе предложенной архитектуры нейронной сети может быть выполнена с использованием библиотеки TensorFlow или PyTorch [7, 8]. В качестве предобработки текста следует использовать токенизацию, лемматизацию и удаление стоп-слов для представления текста в виде последовательности слов, пригодной для обработки нейронной сетью.

Пример использования

В качестве примера использования предложенной архитектуры можно рассмотреть задачу извлечения ключевых слов из научных статей на русском языке. Для обучения нейронной сети потребуется подготовить обучающую выборку, состоящую из текстов статей и соответствующих им списков ключевых слов. После обучения модели можно использовать ее для извлечения ключевых слов из новых статей и оценить качество работы алгоритма.

Заключение

В данной статье мы рассмотрели различные методы извлечения ключевых слов, включая статистические, графовые и методы на основе нейронных сетей, и предложили собственную архитектуру нейронной сети для решения данной задачи. Дальнейшие исследования могут быть направлены на улучшение архитектуры нейронных сетей, использование предобученных языковых моделей и адаптацию разработанных методов для работы с текстами на разных языках и в различных доменах знаний.

Список литературы

  1. Воронцов А. В. (2017). Методы извлечения ключевых слов на основе частотных характеристик текста. Вестник Компьютерных и Информационных Технологий, 3, 44-52.
  2. Михайлов А. А. (2018). Графовые методы извлечения ключевых слов из текста на основе алгоритма TextRank. Информатика и ее применения, 12(4), 84-92.
  3. Смирнов И. В., & Зверева, М. В. (2020). Нейросетевые подходы к извлечению ключевых слов из текстов. Искусственный интеллект и принятие решений, 3, 60-68.
  4. Хохлов А. С. (2019). Применение долгосрочной краткосрочной памяти (LSTM) для анализа текстовых данных. Информационные технологии, 25(4), 296-301.
  5. Борисов Д. А. (2018). Внимание в нейронных сетях и его применение в задачах обработки текста. Вестник компьютерных и информационных технологий, 3, 28-34.
  6. Кузнецов И. О., & Белозерцев, В. А. (2017). Обзор методов оптимизации для обучения нейронных сетей. Вестник Информационных Технологий, 2, 12-17.
  7. Белов А. В., & Тихонов, А. А. (2019). Применение библиотеки TensorFlow для решения задач обработки текстов на естественном языке. Информационные технологии и вычислительная техника, 3, 47-53.
  8. Ермакова Е. А., & Попова, А. В. (2020). Реализация алгоритмов машинного обучения на основе нейронных сетей с использованием библиотеки PyTorch. Информатика и ее применения, 14 (1), 44-50.

Интересная статья? Поделись ей с другими: