УДК 004. 021
Сравнение алгоритмов, применяемых в системах оценки оригинальности текста
Локов Антон Андреевич – аспирант Ивановского государственного энергетического университета
Аннотация: В статье выполнен сравнительный анализ различных видов алгоритмов, применяемых в системах оценки оригинальности текстов. Целью работы является выявление сильных и слабых сторон различных методов. Актуальность проблемы выбора наилучших методов проверки на плагиат обусловлена распространением сервисов, выполняющих с помощью искусственного интеллекта генерацию текстов на основе уже существующих работ. В работе рассмотрены основные виды алгоритмов, выполняющих задачи в рамках обозначенной проблемы, приведены их преимущества и недостатки, а также обозначена специфика применения. В качестве результатов сделаны выводы о применимости различных видов алгоритмов в зависимости от поставленных целей оценки и имеющихся ограничений.
Ключевые слова: оригинальность текста, плагиат, антиплагиат, оценка оригинальности, алгоритмы хэширования, синтаксический анализ, машинное обучение.
Проверка оригинальности текстов является неотъемлемой частью современной академической и профессиональной сферы. С ростом доступности информации и возможностей копирования контента, в том числе с использованием генераторов текста на основе искусственного интеллекта, становится все более важным иметь эффективные инструменты для обнаружения плагиата и защиты интеллектуальной собственности. На сегодняшний день существует множество методов проверки оригинальности текстов, однако каждый из них обладает своими особенностями и ограничениями, которые необходимо знать, если мы хотим получить максимальную точность и эффективность. Целью данной работы является сравнительный анализ наиболее популярных методов.
Конкретных алгоритмов существует достаточно много, однако все их можно сгруппировать по базовому принципу работы. Рассмотрим такие группы.
- Алгоритмы сравнения на основе хэширования
Эти алгоритмы преобразуют текстовые фрагменты в уникальные хэш-коды и затем сравнивают их между собой. Если два хэш-кода совпадают, это указывает на схожий фрагмент текста. Примерами таких алгоритмов являются алгоритм Манбера-Майерса [1] и алгоритм шинглов [2].
Достоинства:
- Быстродействие, что обеспечивается скоростью алгоритмов вычисления хэш-кодов;
- Малая потребность в ресурсах для вычислений;
- Высокая точность обнаружения точного совпадения текста.
Недостатки:
- Неэффективны при обнаружении плагиата, основанного на изменении или перефразировке текста;
- Не различают схожие фрагменты, отличающиеся незначительными изменениями;
- Могут пропустить плагиат, если используются различные формы одного и того же текста.
- Алгоритмы сравнения на основе словосочетаний
Данные алгоритмы анализируют текст на основе словосочетаний или N-грамм (последовательностей из нескольких слов). Они строят профили текстов и сравнивают их для определения схожести. Здесь в качестве примеров можно привести алгоритм Жаккара [3] и алгоритм косинусного сходства.
Достоинства:
- Могут обнаружить перефразированный или измененный текст;
- Работают лучше для обнаружения плагиата, основанного на замене слов синонимами;
- В определенной мере учитывают контекст и семантику текста.
Недостатки:
- Требуют больших вычислительных ресурсов при анализе больших объемов текста;
- Могут давать ложные срабатывания при наличии общеупотребительных фраз (что довольно характерно для многих сфер деятельности);
- Менее эффективны для обнаружения плагиата, основанного на перестановке или переупорядочивании слов.
- Алгоритмы сравнения на основе синтаксического анализа
Алгоритмы этой категории основываются на анализе структуры предложений и грамматических конструкций в тексте. Осуществляется выявление сходства в синтаксической структуре и порядке слов, что позволяет обнаруживать плагиат, даже если текст был перефразирован или изменены некоторые слова. Примеры: алгоритмы синтаксического сравнения и алгоритмы, использующие грамматические шаблоны [4].
Достоинства:
- Могут обнаружить перефразированный или измененный текст;
- Работают лучше для обнаружения плагиата, основанного на замене слов синонимами;
- В определенной мере учитывают контекст и семантику текста.
Недостатки:
- Требуют больших вычислительных ресурсов при анализе больших объемов текста;
- Могут давать ложные срабатывания при наличии общеупотребительных фраз (что довольно характерно для многих сфер деятельности);
- Менее эффективны для обнаружения плагиата, основанного на перестановке или переупорядочивании слов.
- Могут быть менее точными в случае, если скопированный текст был изменен с использованием сложных синтаксических конструкций.
- Алгоритмы на основе машинного обучения
Данный подход в качестве основы использует обучение модели на большом количестве текстов для последующего обнаружения плагиата. Алгоритмы машинного обучения могут анализировать многие параметры текста, такие как частота слов, структура предложений, использование грамматических конструкций и т.д.
Достоинства:
- Могут учиться на больших объемах данных и улучшать свою точность с течением времени;
- Учитывают различные особенности текста, включая семантику, структуру и стилевые характеристики;
- Могут обнаруживать не только точное совпадение, но и схожие фрагменты.
Недостатки:
- Требуют больших объемов данных для обучения и вычислительных ресурсов для работы;
- Не всегда объяснимы в своих решениях, что затрудняет валидацию результатов;
- Могут быть подвержены ложным срабатываниям или пропускам плагиата при недостаточной точности обучения.
Каждый из рассмотренных методов проверки оригинальности текстов имеет свои преимущества и ограничения. Так, алгоритмы сравнения на основе хэширования эффективны, если в качестве задачи мы ставим быструю проверку на дословное копирование с минимальными изменениями. Алгоритмы на основе словосочетаний способы обнаруживать перефразирование в большей степени, однако при этом значительно вырастают требования к вычислительным ресурсам. Алгоритмы сравнения на основе синтаксического анализа обнаруживает плагиат даже при изменении текста, но могут не справляться с поставленной задачей при наличии сложных синтаксических конструкций. Использование алгоритмов машинного обучения обеспечивает высокую точность и способность обнаруживать плагиат на разных уровнях, но требует несравнимо больших вычислительных ресурсов.
Таким образом, в зависимости от конкретных потребностей и условий использования, выбор метода проверки оригинальности текстов может быть различным. Важно учитывать особенности текстов, требования к точности и доступные ресурсы при выборе наиболее подходящего метода. Одним из перспективнейших направлений деятельности в данной области является создание алгоритма, который сочетает в себе высокую точность распознавания плагиата и умеренное использование вычислительных ресурсов.
Список литературы
- Айткулов П.Г. Обработка символьных массивов // УБС. 2010. №28. URL: https://cyberleninka.ru/article/n/obrabotka-simvolnyh-massivov (дата обращения: 13.06.2023)
- Маликов А.В., Алгоритм обнаружения фактов дублирования информации в документированных результатах самостоятельной учебной деятельности студентов, устойчивый к незначительным изменениям текста / Маликов А.В., Целиковский А.С. // Известия вузов. Северо-Кавказский регион. Серия: Технические науки. 2011. №4. URL: https://cyberleninka.ru/article/n/algoritm-obnaruzheniya-faktov-dublirovaniya-informatsii-v-dokumentirovannyh-rezultatah-samostoyatelnoy-uchebnoy-deyatelnosti (дата обращения: 15.06.2023)
- Jatsada S. A Method for Measuring Keywords Similarity by Applying Jaccard’s N-Gram and Vector Space / Jatsada S., Suphakit N. // Lecture Notes on Information Theory – 2013, Изд. 1, №. 4 – С. 159–164.
- Хохлова М.В. Лексико-синтаксические шаблоны как инструмент выявления специальной лексики предметной области [Электронный ресурс] // Статьи, публикуемые на сайте международной конференции Диалог-2012 URL: https://www.dialog-21.ru/media/1392/%D1%85%D0%BE%D1%85%D0%BB%D0%BE%D0%B2%D0%B0%D0%BC%D0%B2.pdf (дата обращения: 15.06.2023).
- Останин В.В. Использование принципов машинного обучения для создания системы анализа текста на предмет заимствований / Сборник трудов конференции VI ВНПК «Прогрессивные технологии и экономика в машиностроении» – Томск, 2015 – С. 293-295.