УДК 004

Рекуррентные нейронные сети и их использование в задачах обработки естественного языка

Ши Вэйхэн – студент Университета гражданской авиации Китая (г. Тяньзинь, Китай)

Аннотация: Задача обработки естественных языковых данных на данный момент является одним из важнейших направлений исследований. Объём неструктурированных данных возрастает с каждым днём, что особенно касается больших корпораций и сферы науки. Такие данные необходимо классифицировать для дальнейшей работы. Методы анализа языковых данных играют ключевую роль в решении этой задачи. В качестве такого инструмента предлагается использовать рекуррентные нейронные сети.

Ключевые слова: искусственный интеллект (ИИ), нейронные сети, естественный язык, рекуррентные модели, трансформеры.

Использование нейронных сетей в задачах обработки естественного языка, (Natural Language Processing, NLP) является одной из самых важных на данный момент сфер искусственного интеллекта. Нейросети позволяют проводить анализ, считывать и создавать текстовые данные на естественных языках с большой точностью [1].

Использование нейронных сетей в задачах обработки естественного языка (Natural Language Processing, NLP) привлекло большое внимание и привнесло существенные улучшения в решение различных задач, связанных с анализом и пониманием текстовых данных.  Нейронные сети, особенно рекуррентные и трансформерные модели, значительно улучшили точность машинного перевода. Системы, такие как Google Translate, используют глубокие нейронные сети для автоматического перевода текстов с одного языка на другой. Нейронные сети успешно применяются для анализа эмоциональной окраски текста. Они могут определять, например, позитивный или негативный характер отзывов, комментариев в социальных сетях и других текстовых данных.  Нейронные сети помогают выделять и классифицировать именованные сущности в тексте, такие как имена, даты, адреса и другие ключевые элементы. Это полезно для извлечения информации из текстов различных источников. С использованием рекуррентных и трансформерных архитектур нейронных сетей можно генерировать тексты, имитируя стиль и язык обучающих данных. Это применяется, например, в задачах автоматического создания контента, текстовых рецензий и даже поэзии. Нейронные сети используются для создания систем вопросно-ответного анализа, способных отвечать на вопросы, основанные на предоставленных текстовых данных. Нейронные сети могут проводить семантическую сегментацию текста, выделяя важные части и определяя связи между ними.

В процессе обработки NPL применяются два основных типа архитектуры нейросетей. К ним относятся: рекуррентные модели (RNN) и трансформеры (Transformers), при этом они имеют свои специфические свойства и используются для решения разных задач в NLP. Трансформеры — это относительно новая архитектура нейронных сетей, которая была представлена в 2017 году и с тех пор получила широкое распространение в задачах обработки естественного языка (NLP). Они основаны на механизме внимания и позволяют эффективно обрабатывать последовательности данных [2]. Дальше речь пойдет о RNN.

Рекуррентные нейронные сети (RNN) представляют собой класс искусственных нейронных сетей, спроектированных для работы с последовательными данными, такими как тексты, речь или временные ряды.

К отличиям рекуррентных моделей от обычных нейросетей принято относить их способность работать с данными, представленными в виде последовательности. Считывание контекста и порядка символов в обрабатываемом тексте достигаются благодаря рекуррентным соединениям, которые являются частью таких моделей [3]. Так, RNN успешно применяются для выполнения задач, связанных с определением следующего символа в потоке данных или анализом тональности текста. При этом, рекуррентные модели играют наиболее важную роль в решении задач NPL, так как они могут выявлять взаимосвязь слов в текстах, то есть определять контекст.

Итак, главный принцип RNN заключается в передаче информации от предыдущего этапа обработки данных к текущему. Этот процесс обеспечивается за счет обратных связей, они дают возможность модели сохранять информацию о предыдущих состояниях и использовать ее при анализе следующих элементов последовательности данных.

Конечно, как у любой концепции рекуррентные нейронные связи имеют свои преимущество и недостатки. К первым относятся: возможность понимания контекста и зависимости между словами; способность обрабатывать переменную длину последовательности; эффективная работа с текстовыми данными. В то же время ограничения: возникновение затухающего или взрывного градиента; трудности при моделировании долгосрочных зависимостей в тексте. Однако для решения возникающих трудностей разрабатываются модификации RNN. Например, GRU – управляемый рекуррентный блок и LSTM – долгая краткосрочная память [4].  Долгая краткосрочная память (LSTM) вводит специальные ячейки памяти, способные сохранять информацию на длительные периоды времени. LSTM использует три вентиля – вентиль забывания, вентиль ввода и вентиль вывода – чтобы решить проблему затухающего градиента и обеспечить более эффективное сохранение и передачу информации внутри сети. Gated Recurrent Unit (представляет собой упрощенную версию LSTM с двумя вентилями - вентилем обновления и вентилем сброса. GRU выполняет меньше вычислений, чем LSTM, и быстрее обучается, при этом сохраняя способность эффективно управлять долгосрочными зависимостями в данных.

Если конкретизировать сферу применения рекуррентных нейронных сетей в области обработки текстов на естественном языке, то необходимо перечислить несколько успешных направлений. К ним относятся: анализ тональности; генерация, классификация и моделирование векторного представления текста [5-6].

Таким образом, RNN или рекуррентные нейронные сети являются мощным инструментом для работы с текстовыми данными на естественном языке. Их недостатки могут быть выявлены и модифицированы, поэтому развитие данной модели неизбежно. При этом RNN и трансформеры, как два разных подхода могут конкурировать и развиваться параллельно. Поэтому в будущем ожидается проведение дальнейших исследований и экспериментов,  необходимых для улучшения эффективности и точности обозначенных моделей для решения задач естественного языка.

Список литературы

  1. Arumugam R., Shanmugamani R. Hands-On Natural Language Processing with Python, Packt Publishing, 2018.
  2. Кудаев Б. В., Шавгулидзе С. Н., Залетинский Р. В. Механизмы обработки естественного языка в вопросноответных системах // Проблемы информатики и моделирования. 2017. № 4 (34).
  3. Elman J. L. Finding structure in time // Cognitive science. – 1990. – Vol. 14, no. 2. – Pp. 179-211.
  4. Chung J. et al. Empirical evaluation of gated recurrent neural networks on sequence modeling //arXiv preprint arXiv: 1412.3555. – 2014.
  5. Recurrent neural network based language model. / T. Mikolov [et al.] // INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010. – 2010. – Pp. 1045-1048.
  6. Тарасов Д. Глубокие рекуррентные нейронные сети для аспектно-ориентированного анализа тональности отзывов пользователей на различных языках // По материалам ежегодной Международной конференции «Диалог». Вып. 14 (21): В 2 т. Т. 2: Доклады специальных секций. – М.: Изд-во РГГУ, 2015.

Интересная статья? Поделись ей с другими: