УДК 004

Интеллектуальный анализ учебных работ на наличие плагиата

Лобач Ия Кирилловна – студент студент, Санкт-Петербургский государственный университет аэрокосмического приборостроения

Аннотация: Данная статья рассматривает готовые модели NLP с последующей постановкой задачи классификации с целью выявления плагиата. Автор описывает необходимость использования машинного обучения для решения поставленной задачи, а также приводит основные способы векторизации текста. Также проводится аналитический обзор готовых предобученных моделей для дальнейшего использования при обнаружении прямого копирования и перефразирования. Описывается также необходимость дальнейшего обучения выбранной модели для решений задачи классификации пары текстов как плагиат или нет.

Ключевые слова: машинное обучение, модели NLP, информационные технологии, антиплагиат, интеллектуальный анализ, задача классификации, выявление плагиата.

Введение

Плагиат является одной из частых проблем во многих отраслях, в особенности в сфере образования. Как правило, различные сервисы/онлайн-сервисы позволяют проверить уникальность работы путем анализа и сравнения ее с различными источниками, находящимися в открытом доступе в Интернете, однако в рамках, например, учебной группы или учебного потока наличие плагиата в работе, как правило, не проверяется и частично выявляется только при проверке преподавателя.

Внедрение рассматриваемых в данной статье способов интеллектуального анализа для проверки учебных отчетов позволит сократить наличие плагиата и повысить качество работ, а использование методов машинного обучения автоматизировать процесс и выявлять не только случаи прямого копирования, но и перефразирования.

Целью данной статьи является исследование инструментов для интеллектуального анализа учебных работ на наличие плагиата с помощью машинного обучения.

Актуальность использования машинного обучения для решения задачи

Существует несколько метрик определения сходства, не использующих машинное обучение, например сходство Жаккарта, алгоритм шинглов или расстояния Левенштейна. Однако все эти подходы имеют один существенный недостаток: они не учитывают семантический смысл слов, а значит, не смогут определить сходство двух похожих по значению слов или перефразированных предложений. Следовательно, для достижения поставленной цели данные подходы не эффективны.

Для определения семантического смысла необходимо использование машинного обучение, а именно будет использоваться следующий подход: все фрагменты текста будут представлены в векторном виде с учетом их семантического смысла. Это значит, что предложения, близкие по значению, будут иметь похожие векторы. Получив, векторы документов, необходимо решить задачу классификации. Для этого будут рассмотрены алгоритмы обучения, которые впоследствии смогут по паре текстов классифицировать их как плагиат или нет.

Таким образом, использование машинного обучения при выявлении плагиата является актуальным, так как позволит выявлять не только копирование, но и случаи перефразирования, а также автоматизировать процесс предварительной проверки и снизить участие преподавателя при выявлении наличия плагиата.

Схема выявления плагиата

Описание способа выявления плагиата до внедрения машинного обучения:

Cтудент выгружает в личный кабинет свой отчет в формате PDF;
При проверке преподаватель анализирует отчет. Он может прибегнуть к описанным выше онлайн-сервисам для сравнения сходства или провести сравнение на основе визуального осмотра работ. Затем преподаватель выносит решение о наличии плагиата и либо отклоняет работу, либо принимает.

Описание способа выявления после внедрения машинного обучения:

Студент выгружает в личный кабинет свой отчет в формате PDF;
Интеллектуальная система выносит решение о наличии плагиата, а именно:

извлекает текст из pdf, исключая титульный лист;
удаляет из текста служебные символы, цифры и английские буквы;
преобразует текст в вектор;
осуществляет бинарную классификацию, попарно сравнивая уже имеющиеся в базе векторы прошедших проверку отчетов по данной дисциплине с новым вектором;
при определении наличия плагиата не добавляет новый вектор в базу, отклоняет отчет, дополняя комментарий результатом проверки;
при определении отсутствия плагиата добавляет новый вектор в базу отчетов и отчет ожидает дальнейшей проверки преподавателем.

Сравнивая два представленных способа, можно сделать вывод о том, что включение проверки на наличие плагиата интеллектуальной системы позволит существенно снизить участие в процессе проверки преподавателя. Фактически ему останется лишь оценить содержимое работы, которая предварительно была проверена на плагиат. Помимо этого, проверка исключает «человеческий фактор» и позволит оценить каждый загружаемый отчет, что будет больше стимулировать студентов отказаться от плагиата, и повысит качество работ.

С другой стороны, количество работ огромно и внедрение системы может привести к существенному увеличению времени выгрузки отчетов. Следует также учесть, что есть такие отчеты, которые преимущественно состоят из рисунков, графиков, математических вычислений или фрагментов кода. Все эти данные будут при проверке исключены, и тогда такие отчеты будут похожи друг на друга, даже несмотря на фактическое отсутствие плагиата. Одно из возможных решений состоит в том, чтобы окончательное решение о наличии плагиата все же принимал преподаватель, а система, например, указывала в комментарии к работе, что в ней выявлен плагиат (возможно даже с указанием схожей работы), но не отклоняла работу.

Аналитический обзор моделей для решения задачи векторизации

Как было определено ранее для задачи векторизации будет использоваться предобученная модель. Векторные модели условно разделяются на две категории:

статические, у которых вектор каждого слова или текста строго фиксирован и однозначно определен результатами обучения векторной модели на некотором корпусе текстов;
динамические, или контекстуальные, при которых вектор признаков слова или текста зависит и может существенно меняться в зависимости от слов слева и справа.

К моделям первого типа (статические) относятся такие векторные модели, как:

Простые на основе методов и статистики. Модели такого рода собирают частоты совместной встречаемости всех уникальных слов в корпусе. Для каждого слова собирается вектор длиной с размер словаря, где каждое число соответствует частоте встречаемости слова с каждым другим. Подобные вектора, безусловно, содержат множество нулевых элементов, а также имеют крайне большую размерность. Именно поэтому такие модели для реализации поставленной цели рассматриваться не будут.
Нейронные модели дистрибутивной семантики: word2vec, fasttext, Glove и др. Такие модели стремятся сжать вектора больших размерностей.

Второй тип моделей, динамический, в основном формируется за счет так называемых трансформерных моделей (transformers). Статические вложения слова, скажем, “мышь”, плохо учитывают различия в различных контекстуализированных представлениях слова (как грызуна или гаджета). Эти же модели создали различные представления слова “мышь”, каждое из которых очень специфично для своего контекста.

Анализ алгоритмов векторизации:

Word2Vec (расширение Doc2Vec)

Метод основывается на предположении, что слова, которые часто находятся в одинаковых контекстах, имеют схожие значения.

Достоинства: довольно простая архитектура; быстрое обучение модели; учет семантического смысла.

Недостатки: модель не учитывает то, что слово может иметь различное значение в зависимости от контекста использования; плохо обрабатывает редкие слова.

GloVe

Алгоритм минимизирует разницу между произведением векторов слов и вероятностью их совместного появления с помощью стохастического градиентного спуска.

Достоинства: GloVe улучшает Word2Vec. Она добавляет частоту встречаемости слов; простая архитектура.

Недостатки: модель остаётся обученной на уровне слов и даёт немного данных о предложении и контексте, в котором слово используется; плохо обрабатывает неизвестные и редкие слова.

FastText

Есть возможность использования негативного сэмплирования при обучении. Негативное сэмплирование – это способ указать отрицательные примеры при обучении модели.

В отличие от Word2Vec и Glove, модель способна генерировать эмбеддинги для неизвестных слов

Достоинства: простая архитектура; лучше работает для редких и устаревших слов.

Недостатки: обучение на уровне слов: нет информации о предложении или контексте, в котором используется слово; модель не учитывает различное значение слова в разных контекстах.

BERT

Модель генерирует контекстно-зависимые вложения, которые допускают множественные представления (каждое представление в данном случае является вектором) каждого слова на основе контекста данного слова

Достоинства: учитывает контекст; учитывает семантический смысл;

Недостатки: ограничение размера входных данных: всего 512 токенов или слов).

С учетом всех достоинств и недостатков для поставленной задачи можно использовать BERT, а именно предобученная модель для русского языка, например, Geotrend/distilbert-base-ru-cased.

Для задачи бинарной классификации может использоваться библиотека scikit-learn, так как включается в себя множества алгоритмов бинарной классификации.

Заключение

Таким образом, было предложено выявление наличия плагиата с использованием предобученной русскому языку модели BERT с последующим обучением для задачи классификации. В качестве алгоритма обучения может использоваться, например, логистическая регрессия.

Список литературы

Jindal N., Liu B. Opinion spam and analysis. Proceedings of the International Conference on Web Search and Data Mining, 219-230, 2008.
Potthast M., Stein B., Barrón-Cedeño, A., Rosso, P. An evaluation framework for plagiarism detection. Proceedings of the International Conference on Language Resources and Evaluation, 3744-3751, 2010.
Stamatatos E. A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60 (3), 538-556, 2009.
Stein B., Rosso, P. Overview of the 3rd international competition on plagiarism detection. Proceedings of the International Conference on Language Resources and Evaluation, 3742-3743, 2010.

Интересная статья? Поделись ей с другими: