УДК 004. 021

Сравнение алгоритмов, применяемых в системах оценки оригинальности текста

Локов Антон Андреевич – аспирант Ивановского государственного энергетического университета

Аннотация: В статье выполнен сравнительный анализ различных видов алгоритмов, применяемых в системах оценки оригинальности текстов. Целью работы является выявление сильных и слабых сторон различных методов. Актуальность проблемы выбора наилучших методов проверки на плагиат обусловлена распространением сервисов, выполняющих с помощью искусственного интеллекта генерацию текстов на основе уже существующих работ. В работе рассмотрены основные виды алгоритмов, выполняющих задачи в рамках обозначенной проблемы, приведены их преимущества и недостатки, а также обозначена специфика применения. В качестве результатов сделаны выводы о применимости различных видов алгоритмов в зависимости от поставленных целей оценки и имеющихся ограничений.

Ключевые слова: оригинальность текста, плагиат, антиплагиат, оценка оригинальности, алгоритмы хэширования, синтаксический    анализ, машинное обучение.

Проверка оригинальности текстов является неотъемлемой частью современной академической и профессиональной сферы. С ростом доступности информации и возможностей копирования контента, в том числе с использованием генераторов текста на основе искусственного интеллекта, становится все более важным иметь эффективные инструменты для обнаружения плагиата и защиты интеллектуальной собственности. На сегодняшний день существует множество методов проверки оригинальности текстов, однако каждый из них обладает своими особенностями и ограничениями, которые необходимо знать, если мы хотим получить максимальную точность и эффективность. Целью данной работы является сравнительный анализ наиболее популярных методов.

Конкретных алгоритмов существует достаточно много, однако все их можно сгруппировать по базовому принципу работы. Рассмотрим такие группы.

  1. Алгоритмы сравнения на основе хэширования

Эти алгоритмы преобразуют текстовые фрагменты в уникальные хэш-коды и затем сравнивают их между собой. Если два хэш-кода совпадают, это указывает на схожий фрагмент текста. Примерами таких алгоритмов являются алгоритм Манбера-Майерса [1] и алгоритм шинглов [2].

Достоинства:

  • Быстродействие, что обеспечивается скоростью алгоритмов вычисления хэш-кодов;
  • Малая потребность в ресурсах для вычислений;
  • Высокая точность обнаружения точного совпадения текста.

Недостатки:

  • Неэффективны при обнаружении плагиата, основанного на изменении или перефразировке текста;
  • Не различают схожие фрагменты, отличающиеся незначительными изменениями;
  • Могут пропустить плагиат, если используются различные формы одного и того же текста.
  1. Алгоритмы сравнения на основе словосочетаний

Данные алгоритмы анализируют текст на основе словосочетаний или N-грамм (последовательностей из нескольких слов). Они строят профили текстов и сравнивают их для определения схожести. Здесь в качестве примеров можно привести алгоритм Жаккара [3] и алгоритм косинусного сходства.

Достоинства:

  • Могут обнаружить перефразированный или измененный текст;
  • Работают лучше для обнаружения плагиата, основанного на замене слов синонимами;
  • В определенной мере учитывают контекст и семантику текста.

Недостатки:

  • Требуют больших вычислительных ресурсов при анализе больших объемов текста;
  • Могут давать ложные срабатывания при наличии общеупотребительных фраз (что довольно характерно для многих сфер деятельности);
  • Менее эффективны для обнаружения плагиата, основанного на перестановке или переупорядочивании слов.
  • Алгоритмы сравнения на основе синтаксического анализа

Алгоритмы этой категории основываются на анализе структуры предложений и грамматических конструкций в тексте. Осуществляется выявление сходства в синтаксической структуре и порядке слов, что позволяет обнаруживать плагиат, даже если текст был перефразирован или изменены некоторые слова. Примеры: алгоритмы синтаксического сравнения и алгоритмы, использующие грамматические шаблоны [4].

Достоинства:

  • Могут обнаружить перефразированный или измененный текст;
  • Работают лучше для обнаружения плагиата, основанного на замене слов синонимами;
  • В определенной мере учитывают контекст и семантику текста.

Недостатки:

  • Требуют больших вычислительных ресурсов при анализе больших объемов текста;
  • Могут давать ложные срабатывания при наличии общеупотребительных фраз (что довольно характерно для многих сфер деятельности);
  • Менее эффективны для обнаружения плагиата, основанного на перестановке или переупорядочивании слов.
  • Могут быть менее точными в случае, если скопированный текст был изменен с использованием сложных синтаксических конструкций.

 

  1. Алгоритмы на основе машинного обучения

Данный подход в качестве основы использует обучение модели на большом количестве текстов для последующего обнаружения плагиата. Алгоритмы машинного обучения могут анализировать многие параметры текста, такие как частота слов, структура предложений, использование грамматических конструкций и т.д.

Достоинства:

  • Могут учиться на больших объемах данных и улучшать свою точность с течением времени;
  • Учитывают различные особенности текста, включая семантику, структуру и стилевые характеристики;
  • Могут обнаруживать не только точное совпадение, но и схожие фрагменты.

Недостатки:

  • Требуют больших объемов данных для обучения и вычислительных ресурсов для работы;
  • Не всегда объяснимы в своих решениях, что затрудняет валидацию результатов;
  • Могут быть подвержены ложным срабатываниям или пропускам плагиата при недостаточной точности обучения.

Каждый из рассмотренных методов проверки оригинальности текстов имеет свои преимущества и ограничения. Так, алгоритмы сравнения на основе хэширования эффективны, если в качестве задачи мы ставим быструю проверку на дословное копирование с минимальными изменениями. Алгоритмы на основе словосочетаний способы обнаруживать перефразирование в большей степени, однако при этом значительно вырастают требования к вычислительным ресурсам. Алгоритмы сравнения на основе синтаксического анализа обнаруживает плагиат даже при изменении текста, но могут не справляться с поставленной задачей при наличии сложных синтаксических конструкций. Использование алгоритмов машинного обучения обеспечивает высокую точность и способность обнаруживать плагиат на разных уровнях, но требует несравнимо больших вычислительных ресурсов.

Таким образом, в зависимости от конкретных потребностей и условий использования, выбор метода проверки оригинальности текстов может быть различным. Важно учитывать особенности текстов, требования к точности и доступные ресурсы при выборе наиболее подходящего метода. Одним из перспективнейших направлений деятельности в данной области является создание алгоритма, который сочетает в себе высокую точность распознавания плагиата и умеренное использование вычислительных ресурсов.

Список литературы

  1. Айткулов П.Г. Обработка символьных массивов // УБС. 2010. №28. URL: https://cyberleninka.ru/article/n/obrabotka-simvolnyh-massivov (дата обращения: 13.06.2023)
  2. Маликов А.В., Алгоритм обнаружения фактов дублирования информации в документированных результатах самостоятельной учебной деятельности студентов, устойчивый к незначительным изменениям текста / Маликов А.В., Целиковский А.С. // Известия вузов. Северо-Кавказский регион. Серия: Технические науки. 2011. №4. URL: https://cyberleninka.ru/article/n/algoritm-obnaruzheniya-faktov-dublirovaniya-informatsii-v-dokumentirovannyh-rezultatah-samostoyatelnoy-uchebnoy-deyatelnosti (дата обращения: 15.06.2023)
  3. Jatsada S. A Method for Measuring Keywords Similarity by Applying Jaccard’s N-Gram and Vector Space / Jatsada S., Suphakit N. // Lecture Notes on Information Theory – 2013, Изд. 1, №. 4 – С. 159–164.
  4. Хохлова М.В. Лексико-синтаксические шаблоны как инструмент выявления специальной лексики предметной области [Электронный ресурс] // Статьи, публикуемые на сайте международной конференции Диалог-2012 URL: https://www.dialog-21.ru/media/1392/%D1%85%D0%BE%D1%85%D0%BB%D0%BE%D0%B2%D0%B0%D0%BC%D0%B2.pdf (дата обращения: 15.06.2023).
  5. Останин В.В. Использование принципов машинного обучения для создания системы анализа текста на предмет заимствований / Сборник трудов конференции VI ВНПК «Прогрессивные технологии и экономика в машиностроении» – Томск, 2015 – С. 293-295.

Интересная статья? Поделись ей с другими: