УДК 004

Обзор методов обработки естественного языка для автоматической генерации тестовых заданий

Науменко Виталий Игоревич – магистрант кафедры Безопасности и информационных технологий Национального исследовательского университета «МЭИ»

Петров Сергей Андреевич – кандидат технических наук, доцент кафедры Безопасности и иинформационных технологий Национального исследовательского университета «МЭИ»

Аннотация: Резкое повышение интереса к дистанционному обучению привело к повышению популярности тестирующих систем. Актуальной проблемой при работе с которыми является формирование тестовых вопросов по учебным пособиям. В статье приведен подробный анализ существующих подходов, моделей и методов обработки текстов на естественном языке (Natural Language Processing, NLP), используемых для решения задачи автоматической генерации текста, в частности генерации тестовых вопросов, а также рассмотрены современные численные метрики для оценки качества сгенерированных текстов заданий.

Ключевые слова: обработка естественного языка, тестирование знаний, машинное обучение, NLP, генерация текста.

Введение

В области предоставления образовательных услуг наблюдается растущая тенденция к автоматизации. Множество образовательных организаций активно развивают свою IT-инфраструктуру, чтобы эффективно реализовывать образовательный процесс в эпоху современных информационных технологий.

Несомненно, данному явлению поспособствовал и период пандемии 2020-2023 гг., когда учебные заведения были вынуждены совершить переход к дистанционному образованию, в короткие сроки организовав учебный процесс и контроль знаний посредством сети Интернет. Согласно материалам опросов студентов [1], около 30-50% обучающихся ВУЗов предпочли бы исключительно дистанционный формат обучения.

Однако данный переход заставил еще сильнее обратить внимание на задачу должного обеспечения контроля знаний. Несмотря на появление множества систем дистанционного обучения (СДО), которые облегчают процесс контроля знаний с помощью предоставления ручных генераторов тестов, все еще актуальной остается проблема формирования проверочных заданий для этих систем.

Тест – это метод оценки знаний, умений или навыков путем задания серии тестовых заданий, на которые необходимо дать ответы или решения.

Тестовое задание – это вопрос, который задается в рамках теста для оценки знаний человека. Тестовые задания могут быть представлены в различных форматах, включая множественный выбор, открытые вопросы, вопросы с пропусками и т.д.

Часто требуется ручное написание вопросов на основе множества различных учебных материалов, что увеличивает нагрузку на преподавателя и приводит к сложностям в создании множества вариантов отдельно взятого теста [2].

Текущее развитие цифровых технологий позволило компьютерам научиться понимать и создавать естественный язык. Это открыло совершенно новые возможности для создания более интуитивных и эффективных пользовательских интерфейсов; повышения качества обслуживания клиентов; автоматизации обработки текстовой информации, в том числе и в процессах её формирования.

Применение технологий обработки естественного языка (Natural Language Processing, NLP) для решения задач генерации текста (Natural language generation, NLG) на текущий момент позволяет автоматизировать множество процессов, связанных с формированием большого количества уникальных или стандартизированных текстовых материалов в короткие сроки, которыми также могут выступать тестовые задания.

Автоматическая генерация тестовых заданий на основе NLP позволит ускорить и упростить процесс создания тестов для оценки знаний учащихся. Для решения данной задачи необходимо:

  • сформировать модель, способную создавать вопросные формы по заданным текстам;
  • реализовать алгоритм формирования дистракторов – ложных, но правдоподобных ответов для тестовых заданий.

На текущий момент уже существует множество подходов и моделей для автоматической генерации тестовых заданий на естественном языке. Обобщив данное множество, можно выделить два основных класса моделей, решающих задачи генерации [3]:

  • аналитические модели;
  • модели на основе машинного обучения.

Аналитические модели основаны на использовании классических структур данных, алгоритмов и баз знаний, таких как порождаемые шаблоны, деревья, а также семантические сети. Модели на основе машинного обучения, в отличие от аналитических, используют обучаемые модели нейросетей, генетические и состязательные алгоритмы, которые решают задачи генерации посредством накопления опыта при обработке больших массивов текстовых данных. Стоит отметить, что независимо от подхода к генерации, для работы любых моделей NLG, текст на естественном языке должен быть преобразован в удобный для восприятия машиной формат – векторный. Для этого применяется специальный алгоритм – «конвейер» NLP (см. рисунок 1). Задачей данного алгоритма является последовательное приведение каждой лексемы текста к унифицированной форме с последующей ее векторизацией.

image001

Рисунок 1. Процесс обработки естественного языка.

Рассмотрим подробнее наиболее популярных представителей обоих классов применительно к задаче формирования тестовых заданий и проведём их сравнение.

Аналитические модели генерации

Шаблонные модели

В основе шаблонных моделей генерации лежит использование заранее созданных структур – шаблонов. Шаблоны определяют ту информацию, которая должна быть включена в генерируемый вопрос. При этом это может быть как статическая информация, например вопросительные слова, так и переменные значения, заполняемые из исходного текста.

Генерация текстов на основе шаблонов выполняется согласно следующему алгоритму, включающему начальную предобработку текста для выделения ключевых слов и фраз, а также работу генератора по созданию заданий на основе баз данных шаблонов и их оценке (см. рисунок 2).

image002

Рисунок 2. Алгоритм шаблонного генератора.

Сам шаблон представляет собой последовательность масок слов (токенов), которая заполняется соответствующими словами из исходного текста. Для выделения слов используются алгоритмы распознавания именованных сущностей NER. В общем виде типовая структура шаблона вопроса выглядит следующим образом (см. таблицу 1) [4].

Таблица 1. Структура шаблона.

 

Компоненты

Шаблон

[Вопрос. слово]

[сущ.]

[глагол]

[предл.]

[сущ.]

[?]

Вопрос

Какой

метод

используется

в

NLP

?

Несмотря на некоторые преимущества использования такого подхода к генерации, заключающегося в жестком контроле структуры и содержания вопросов, а также его общей простоты, данные модели не позволяют генерировать грамматически насыщенные тексты заданий, имеют сильную зависимость от других моделей NLP и требуют существенных временных затрат на формирование базы шаблонов.

Это подтверждают результаты научных исследований и разработок, использующих данный подход [3]. Так, в работе [5], посвященной созданию генератора банка вопросов по биологии, описывается необходимость ручной подготовки шаблонов. В проекте по созданию генератора на основе связки «шаблон + WordNet» [6] также отмечены высокие временные затраты на отбор сгенерированных правильных заданий.

Комбинаторные модели

Развитием шаблонного метода являются комбинаторные модели, основанные на применении элементов теории графов, таких как деревья.

В основе комбинаторных моделей лежит использование дерева И-ИЛИ – особого вида дерева (графа), который используется для отображения логических выражений для принятия решений на основе логических условий. В данном виде дерева каждая вершина должна быть помечена логическим оператором И (конъюнкция) или ИЛИ (дизъюнкция).

Таким образом, гарантируется, что каждому генерируемому вопросу (элементу комбинаторного множества) соответствует вариант дерева И-ИЛИ [3]. Вариантом дерева И-ИЛИ является дерево, полученное из исходного путем удаления всех дуг, кроме одной у ИЛИ-узлов (см. рисунок 3).

Таким образом, общий алгоритм задачи генерации тестовых заданий с использованием комбинаторных моделей сводится к построению дерева И-ИЛИ исходного текста и автоматическому извлечению всех возможных его вариантов для формирования базы получившихся вопросов [7].

image003

Рисунок 3. Варианты дерева И-ИЛИ.

В качестве примера рассмотрим дерево И-ИЛИ математической задачи по теме «теория вероятностей», которая сформулирована следующим образом: «Вероятность того, что батарейка неисправная, равна 0.02. Покупатель выбирает случайную упаковку, в которой 2 батарейки. Найдите вероятность того, что все батарейки окажутся неисправными» (см. рисунок 4).

image004

Рисунок 4. Дерево И-ИЛИ исходной задачи.

Задача создания дерева И-ИЛИ на основе исходного текста является одной из самых сложных задач при формировании генератора заданий. Для этого необходимо проанализировать содержание текста, выделить ключевые понятия и связи между ними, а также сформировать переменные значения.

В дальнейшем, удаляя дуги у ИЛИ-вершин дерева, а также заполняя переменные и осуществляя обход дерева, можем получить следующие варианты заданий:

  1. Вариант {A, B1, C1, D, E, F1}: «Вероятность того, что батарейка неисправная равна 0.02. Покупатель выбирает случайную упаковку, в которой 3 батарейки. Найдите вероятность того, что все батарейки окажутся исправными».
  2. Вариант {A, B2, C2, D, E, F2}: «Вероятность того, что лампочка исправная равна 0.8. Покупатель выбирает случайную упаковку, в которой 4 лампочки. Найдите вероятность того, что все лампочки окажутся неисправными».

Данный подход позволяет генерировать более сложные тексты по сравнению с шаблонным, однако все также требует временных затрат на построение сложных деревьев И-ИЛИ и имеет зависимости от других моделей, в частности моделей выделения именованных сущностей из текста.

В рамках развития и применения комбинаторных моделей стоит отметить проект системы генерации на основе параметрических упражнений с использованием ориентированных графов [8], а также работу по созданию отдельного функционального языка GILT для разработки генераторов на основе деревьев И-ИЛИ [9].

Модели на основе семантических сетей

Еще одним методом, использующим понятия теории графов, является метод на основе применения сематических сетей.

Семантическая сеть представляет собой некую базу понятий, где некоторые объекты связаны между собой с помощью семантических отношений. Визуально сеть представляет собой ориентированный или неориентированный граф. Вершины графа представляют собой понятия, а ребра (дуги) – семантические отношения между понятиями.

Модели на основе семантических сетей используются для генерации как вопросов по текстам, так и дистракторов (правдоподобных ошибочных вариантов ответа).

При решении задачи генерации вопросов происходит построение семантической сети по исходному тексту, где вершины соответствуют фрагментам текста, а дуги представляют отношения между ними. Генерация происходит путем извлечения из полученных триад «Понятие 1 – Отношение – Понятие 2» одного из ее звеньев (см. рисунок 5) [3].

image005

Рисунок 5. Семантическая сеть предложения.

Более частой задачей использования семантических сетей является построение дистракторов к вопросу. Процесс генерации дистракторов заключается в поиске семантических схожих с правильным ответом слов, однако не являющихся правильными для вопроса.

Для решения данной задачи обычно используют семантические сети, представляющие базу слов естественного языка. Наиболее известными базами являются: семантическая сеть WordNet (см. рисунок 6), разработанная в Принстонском университете, а также векторный аналог – модель word2vec [10]. Существуют также русскоязычные аналоги: RussNet, RuWordNet.

image006

Рисунок 6. Семантическая сеть WordNet.

Программный интерфейс данных сетей и моделей позволяет искать в базе схожие слова, на основе отношений синонимии, антонимии, гиперонимии (родовых отношений) и гипонимии (видовых отношений).

В рамках использования семантических моделей можно отметить проект генератора на основе модели WordNet и шаблонного подхода [6], а также генератор MrsQG, использующий семантический парсинг текста для построения сети [11].

На основе анализа результатов работ, можно сделать вывод, что использование семантических сетей для генерации вопросов во многом аналогично применению комбинаторных моделей, однако в задаче генерации дистракторов семантические модели являются одним из самых эффективных инструментов генерации [11, 12].

Модели на основе машинного обучения

Модель LSTM

Основной идей машинного обучения является обучение компьютерной модели выполнять задачи на основе опыта и обнаружения закономерностей в предоставленных обучающих данных. По завершении обучения модель можно применять для предсказания новых данных, которыми также могут выступать тестовые задания на естественном языке.

Одной из базовых моделей машинного обучения, используемой для генерации текста и, в частности, тестовых заданий на естественном языке является модель долгой краткосрочной памяти или LSTM.

Данная модель основана на архитектуре рекуррентных нейронных сетей (RNN), позволяющей обрабатывать последовательности входных данных по цепочке. RNN в отличие от классических нейронных сетей основаны на использовании внутренней памяти для передачи состояния, что позволяет обрабатывать последовательности символов и слов (см. рисунок 7).

image007

Рисунок 7. Архитектуры нейросетей.

Однако применение RNN ограничивается отсутствием долговременной памяти для обработки длинных последовательностей, а также наличием проблемы затухающего градиента, когда производные целевой функция ошибки модели неконтролируемо растут или уменьшаются, тем самым снижая способность модели к обучению.

Для решения данных проблем в 1997 году была разработана модель LSTM. LSTM-сеть состоит из нескольких последовательных блоков, называемых LSTM-ячейками, которые могут хранить информацию в своем состоянии и передавать его из одной ячейки в другую. Каждая ячейка имеет три основных компонента данных: входной вектор (xt), выходной вектор (yt) и состояние ячейки (Ct) (см. рисунок 8) [13].

image008

Рисунок 8. Ячейки памяти рекуррентных нейросетей.

Архитектура ячейки подразумевает наличие механизмов, называемых гейтами (gates) для управления информацией. Выделяется 3 гейта:

  1. Входной гейт (it) – определяет, какая информация будет включена в состояние ячейки;
  2. Выходной гейт (ot) – определяет, какая информация будет передана в следующие LSTM-ячейки;
  3. Гейт забывания (ft) – определяет, какая информация будет удалена из состояния ячейки.

Таким образом, LSTM-модели являются эффективным инструментом генерации текста, однако все же не могут учитывать полный контекст входной последовательности, а также имеют предел по генерируемым за один запуск символам.

Модель Seq2seq

Решение проблем LSTM-модели нашло свое отражение в модели seq2seq. Архитектура seq2seq (encoder-decoder) была представлена в 2014 году отделом исследований компании Google, как модель машинного перевода.

Основной особенностью данной архитектуры является ориентированность на решение задач NLP, в частности задач генерации текста. Модели seq2seq умеют обрабатывать текстовые последовательности напрямую, преобразуя их в новые текстовые последовательности. Для этого модель использует два основных структурных компонента: энкодер и декодер, которыми выступают LSTM-сети (см. рисунок 9) [14].

image009

Рисунок 9. Архитектура модели seq2seq.

Энкодер модели последовательно обрабатывает исходный текст, формируя на его основе вектор фиксированной длины – вектор контекста. Данный вектор передается как состояние на вход к декодеру, который использует его для предсказывания очередного нового слова в выходной последовательности [15].

Это позволяет учитывать полный контекст исходного текста при генерации вопросов.

Особенностью декодера является генерации по токену, то есть за один запуск модели может быть сгенерирована целая последовательность токенов (слов), что отличает эту модель от LSTM-сети, где за один запуск может быть сформирована один предсказываемый токен. Для явной генерации текстовой последовательности декодер использует словарь слов, формируемый в процессе обучения модели.

На текущий момент модель seq2seq используется во множестве продуктов, основанных на использовании естественного языка, например:

  • Google Translator – онлайн-переводчик компании Google.
  • «Алиса» – голосовой ассистент компании Яндекс.
  • AlexaTM 20B – языковая модель компании Amazon, имеющая структуру, содержащую около 20 миллиардов параметров.

Однако несмотря на свою актуальность и эффективность, модель seq2seq в своем изначальном виде имеет склонность к генерации грамматически неверных текстов, а также обладает низкой скоростью обучения ввиду использования последовательного алгоритма при обработке исходного текста.

Модель Transformer

Крайней точкой развития моделей машинного обучения для решения задач NLP является появление модели Transformer.

Модель Transformer – это тип многослойной нейронной сети, который был разработан в 2017 году группой исследователей в сфере глубокого обучения Google Brain [16]. Данная модель была разработана для эффективного решения задач машинного перевода, однако стала популярной для решения большинства задач NLG, таких как генерация текста, вопросно-ответные системы, распознавание речи и т.д.

С точки зрения общей архитектуры, модель transformer повторяет логику модели seq2seq, также представляя собой комплекс из 2 компонентов: энкодера и декодера. Однако структура каждого из этих компонентов радикально отличается от модели предшественника (см. рисунок 10).

image010

Рисунок 10. Архитектура Transformer.

Ключевым отличием модели transformer от seq2seq является полный уход от рекуррентных нейронных сетей в сторону механизма многоканального внимания (multi-head attention) (см. рисунок 11).

image011

Рисунок 11. Механизм многоканального внимания.

В основе данного механизма лежит сопоставление каждого слова из входного текста с другими словами с целью формирования вектора контекста для каждого отдельного токена в последовательности. Многоканальность говорит о том, что параллельно выполняется сразу несколько итераций данного механизма [17].

Это позволяет модели transformer находить связи между разными словами в тексте, учитывая разный контекст и контекстные зависимости, что прямо отражается на качестве результатов генерации естественного языка.

Другим ключевым механизмом модели transformer является подход к генерации, основанный на использовании «поиска по лучу» (beam search).

Так как модели генерируют токены последовательно, они выбирают следующее слово на основе его максимальной вероятности появления на каждом этапе генерации. Такой алгоритм называется «жадным поиском».

Поиск по лучу же осуществляет выбор наиболее вероятной последовательности слов из множества вариантов. На каждом шаге генерации, алгоритм сохраняет наилучшие варианты и продолжает генерацию от каждого из них (см. рисунок 12).

image012

Рисунок 12. Механизмы генерации последовательностей.

Помимо механизмов внимания и поиска по лучу, модель transformer также обрабатывает входной текст не последовательно, как seq2seq, а параллельно, что позволяет распараллеливать данные операции на вычислительном кластере.

В свою очередь модель transformer поддерживает подход предобучения модели, то есть обучения модели на неразмеченных данных с целью адаптации ее весов к языковым особенностям конкретного естественного языка. Среди известных предобученных моделей можно выделить: GPT (OpenAI), BERT (Google), ruT5 (Сбер) [18].

Таким образом, на данный момент модель transformer является самой современной и эффективной моделью для решения задачи генерации текста и тестовых заданий по тексту.

Методы оценки качества генерации текста

Помимо качественных критериев оценки моделей отдельного рассмотрения требуют количественные метрики, позволяющие оценить качество сгенерированных заданий различными моделями.

Оценка качества созданных тестовых заданий является важной задачей в процессе формирования тестов. Она позволяет определить, насколько эффективны различные методы генерации и найти наилучшую модель, которая может создавать вопросы, максимально соответствующие исходному тексту.

На текущий момент существует множество методов, позволяющих численно оценить качество созданных текстов, однако большая часть исследовательских работ в сфере NLP оперирует следующими метриками [19]:

  1. BLEU (Bilingual Evaluation Understudy).
  2. ROGUE (Recall-Oriented Understudy for Gisting Evaluation).
  3. METEOR (Metric for Evaluation of Translation with Explicit ORdering).

Все приведенные выше метрики при анализе текстов на схожесть оперируют понятием n-грамма – последовательности из n подряд идущих слов в анализируемом тексте.

Наиболее популярной метрикой является BLEU. BLEU оценивает степень сходства сгенерированного текста с эталонным текстом. Это достигается с помощью метода сопоставления n-грамм, при котором вычисляется точность использования n-грамм в сгенерированном тексте. Количество и порядок этих n-грамм также учитываются при расчете метрики BLEU.

В данном случае критерий «точность» (precision) отражает долю всех совпавших n-грамм в исходном и сгенерированном тексте относительно общего числа n-грамм сгенерированного текста. Основная формула, по которой производится расчет метрики BLEU имеет следующий вид (4.1):

 

 image013

(4.1)

где i – длинна n-грамм; k – количество совпадающих n-грамм у исходного и сгенерированного текстов; l – общее количество n-грамм сгенерированного текста. Отношение совпадающих n-грамм к общему количеству также называют точностью (precision). Pв – это штраф за краткость, применяемый при расчете метрики, который рассчитывается следующим образом:

 

 image014

(4.2)

где r – количество слов исходного текста; c – количество слов в сгенерированном тексте.

Развитием метрики BLEU, ориентированной исключительно на точность, выступает семейство метрик ROUGE, ориентированных дополнительно на расчет параметра «полноты» (recall). Параметр полноты отражает долю всех совпавших n-грамм в исходном и сгенерированном тексте относительно общего числа n-грамм исходного текста.

Общая формула метрик семейства ROUGE имеет следующий вид:

 

 image015

(4.3)

где n – число n-грамм; Cn – количество n-граммов, которые совпадают между сгенерированным и эталонным текстом; Tn – количество n-граммов в исходном тексте.

Помимо ROUGEn, существуют также более узкоспециализированные метрики, которые могут быть использованы для оценки качества сгенерированного текста. Отдельно можно выделить:

  • ROUGE-L, которая использует длину наибольшей общей последовательности слов в качестве меры сходства между двумя текстами.
  • ROUGE-S, которая определяет схожие n-граммы, возможно разделенные некоторыми словами, на основе удаления некоторого количества произвольных n-грамм.

Метрика METEOR во многом аналогична ROUGE, однако используется некий механизм формирования выравнивания и синонимичного сравнения, позволяющий корректно сравнивать слова-синонимы, а также учитывать положение слов в предложениях, что повышает качество оценки.

Для создания выравнивания необходимо установить соответствие между униграммами (единичными словами), которые находятся в сравниваемых предложениях. Каждая униграмма в предложении исходного текста должна быть связана с нулем или только одной униграммой в предложении сгенерированного текста. Это можно представить в виде линии соответствия между униграммами. При наличии нескольких вариантов выравнивания с одинаковым количеством линий соответствий выбирается тот, который имеет наименьшее количество пересечений (см. рисунок 13).

image016

Рисунок 13. Пример формирования выравниваний.

Используя выравнивания рассчитываются значения точности и полноты по формулам, аналогичным ROUGE (4.3) и BLEU (4.1), и на основе данных показателей высчитывается взвешенное среднее гармоническое при условии, что вес полноты в 9 раз превышает вес точности (4.4).

 

 image017

(4.4)

где P – точность; R – полнота. Отдельно для учета не только связи слов, но и фрагментов предложения вводится дополнительный штраф, зависящий от количества смежных фрагментов (совокупности униграмм) в двух сравниваемых текстах. Данный штраф вычисляется по следующей формуле:

 

 image018

(4.5)

где с – количество фрагментов в тексте; um – общее количество униграмм в сгенерированном тексте.

Итоговое значение метрики METEOR варьируется от 0 до 1 и вычисляется по следующей формуле:

 

 image019

(4.6)

Заключение

В статье проведен обзор существующих подходов и моделей для решения задач автоматической генерации тестовых заданий на естественном языке. Описанные модели обладают разными подходами к обработке текста, а также имеют существенные различия в качестве сгенерированных материалов. Результаты рассмотрения моделей NLG, согласно ключевым критериям для автоматической генерации тестовых заданий, представлены в таблице ниже (см. таблицу 2).

Таблица 2. Сравнение моделей NLG.

 

Шаблон. модели

Комбинат.

модели

Семантич. сети

LSTM (RNN)

Seq2seq

Transformer

Учет контекста входного текста

-

-

-

Учет слева-направо

Полный учет

Полный учет

Генерация дистракторов

-

-

+

+

+

+

Разнообразие генерации (кол-во уник. вариантов вопросов)

Кол-во шаблон. в базе

Кол-во вариантов дерева И-ИЛИ

Кол-во связей сети

Любое кол-во

Любое кол-во

Любое кол-во

Объем необходимых данных

База шаблонов + исходный текст

Дерево И-ИЛИ + исходный текст

Сеть + исходный текст

Обуч. датасет + исходный текст

Обуч. датасет + исходный текст

Обуч. датасет + исходный текст

Поддержка нескольких языков

Требуется создание новой базы шаблонов

Требуется создание нового дерева И-ИЛИ

Требуется создание новой сети

Требуется обучение новой нейросети

Требуется дообучить модель

Требуется дообучить модель

Сложность реализации (внутренние алгоритмы)

Линейные алгоритмы

Обход дерева

Обход графа

Рекурент. нейросети (RNN)

Рекурент нейросети (RNN)

Комплекс многослойн. нейросетей

Вычисл.

требования

Любой компьютер

ПК, сервер

ПК, сервер

Мощные GPU для обучения

Мощные GPU для обучения

Мощные GPU или вычислит. кластер

Как можно заметить, на текущий момент вектор использования технологий в задачах NLP смещается в пользу сложных моделей, использующих машинное обучение, так как они позволяют подходить к обработке естественного языка максимально приближенно к человеческому восприятию написанного текста. Аналитические же модели лишь позволяют автоматизировать построение структуры задания, без привязки к контексту исходных текстов.

Отдельно, с целью определения возможностей по оценке качества сгенерированных тестовых заданий были рассмотрены существующие методы оценки моделей NLG. Стоит отметить, что для комплексной оценки зачастую применяется сразу несколько описанных в статье метрик. Такой подход позволяет получить матрицу качества модели, позволяющую в полной мере производить сравнение качества текстовых последовательностей для нескольких моделей, как представлено в исследовании [20].

В рамках продолжения работ по исследованию методов обработки естественного языка для автоматической подготовки тестовых заданий предлагается разработать программный комплекс, который должен учитывать следующие требования:

  • генерировать тестовые вопросы по файлам учебных материалов, представленных в современных «открытых» форматах;
  • предоставлять возможность визуальной оценки качества и сложности для каждого сгенерированного вопроса;
  • поддерживать широкие настройки генерации тестовых заданий (например, тип вопроса – закрытый, открытый, с пропусками; сложность вопроса; количество вопросов на страницу исходных данных; формат выходных данных);
  • обеспечивать возможность выбора технологии обработки исходного текста (в т.ч. использовать «гибридные» подходы) и предоставлять средства объективного сравнения полученных результатов;
  • базироваться на кроссплатформенных технологиях и обеспечивать веб-интерфейс взаимодействия с конечным пользователем.

Такое программное средство позволит сократить трудоёмкость разработки проверочных заданий на основании как уже существующих, так и совершенно новых учебных материалов и будет незаменимым помощником преподавателя в современную эру цифровых технологий.

Cписок литературы

  1. Делова, Л. А. Об особенностях учебного процесса в период пандемии / Л. А. Делова // Научный альманах. – 2021. – № 10-1(84). – С. 152-155. – EDN ORECET.
  2. Ромашкина, Т. В. Использование обучающих тестов в процессе организации самостоятельной работы студента вуза / Т. В. Ромашкина // Scientific online journal Meridian. – 2020. – № 7(41). – С. 144-146. – EDN XWEIEV.
  3. Балашова, И. Ю. Методы и средства генерации тестовых заданий из текстов на естественном языке / И. Ю. Балашова, К. И. Волынская, П. П. Макарычев // Модели, системы, сети в экономике, технике, природе и обществе. – 2016. – № 1(17). – С. 195-202. – EDN VTYLVX.
  4. Разработка приложения по генерации учебных заданий к тексту на естественном языке на основе порождаемых шаблонов / Д. В. Личаргин, А. А. Усова, В. В. Сотникова [и др.] // Современные проблемы науки и образования. – 2015. – № 2-2. – С. 120. – EDN UZIZOH.
  5. Awad A. E., Dahab M. Y. Automatic generation of question bank based on pre-defined templates //International Journal of Innovations & Advancement in Computer Science IJIACS ISSN. – 2014. – С. 2347-8616.
  6. Le N. T., Pinkwart N. Question generation using wordnet //Proceedings of the 22nd International Conference on Computers in Education. – 2014. – С. 95-100.
  7. Кручинин В. В., Кузовкин В. В. Обзор существующих методов автоматической генерации задач с условиями на естественном языке //Компьютерные инструменты в образовании. – 2022. – №. 1. – С. 85-96.
  8. Rioja R. M. G. et al. A parametric exercise based tutoring system //Frontiers in Education Conference. – STIPES, 2003. – Т. 3. – С. S1B-20.
  9. Зорин, Ю. А. Интерпретатор языка построения генераторов тестовых заданий на основе деревьев И/ИЛИ / Ю. А. Зорин // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2013. – № 1 (27). – С. 75–79.
  10. Caldarola E. G., Picariello A., Rinaldi A. M. Experiences in wordnet visualization with labeled graph databases //Knowledge Discovery, Knowledge Engineering and Knowledge Management: 7th International Joint Conference, IC3K 2015, Lisbon, Portugal, November 12-14, 2015, Revised Selected Papers 7. – Springer International Publishing, 2016. – С. 80-99.
  11. Yao X., Zhang Y. Question generation with minimal recursion semantics //Proceedings of QG2010: The Third Workshop on Question Generation. – 2010. – С. 68-75.
  12. Посов, И. А. Обзор генераторов и методов генерации учебных заданий / И. А. Посов // Образовательные технологии и общество. – 2014. – № 4 (17). – С. 593–609.
  13. Staudemeyer R. C., Morris E. R. Understanding LSTM--a tutorial into long short-term memory recurrent neural networks //arXiv preprint arXiv:1909.09586. – 2019.
  14. Полторак, А. В. Анализ существующих архитектур нейронных сетей для генерации текстов естественного языка с целью исследования актуальных техник при создании моделей нейронных сетей / А. В. Полторак, С. И. Набатов // ИТ-Стандарт. – 2020. – № 3(24). – С. 47-53. – EDN RCERMV.
  15. Liu T. et al. Large-scale simple question generation by template-based seq2seq learning //Natural Language Processing and Chinese Computing: 6th CCF International Conference, NLPCC 2017, Dalian, China, November 8–12, 2017, Proceedings 6. – Springer International Publishing, 2018. – С. 75-87.
  16. Vaswani A. et al. Attention is all you need //Advances in neural information processing systems. – 2017. – Т. 30.
  17. Lopez L. E. et al. Simplifying paragraph-level question generation via transformer language models //PRICAI 2021: Trends in Artificial Intelligence: 18th Pacific Rim International Conference on Artificial Intelligence, PRICAI 2021, Hanoi, Vietnam, November 8–12, 2021, Proceedings, Part II 18. – Springer International Publishing, 2021. – С. 323-334.
  18. Qiu X. et al. Pre-trained models for natural language processing: A survey //Science China Technological Sciences. – 2020. – Т. 63. – №. 10. – С. 1872-1897.
  19. Sai A. B., Mohankumar A. K., Khapra M. M. A survey of evaluation metrics used for NLG systems //ACM Computing Surveys (CSUR). – 2022. – Т. 55. – №. 2. – С. 1-39.
  20. Zhao Y. et al. Paragraph-level neural question generation with maxout pointer and gated self-attention networks //Proceedings of the 2018 conference on empirical methods in natural language processing. – 2018. – С. 3901-3910.

Интересная статья? Поделись ей с другими: