УДК 004

Использование ИИ для анализа текста

Достов Максим Константинович – студент Московского государственного технического университета им. Н.Э. Баумана

Аннотация: В статье демонстрируются основные возможности применения искусственного интеллекта для анализа текста. Тема актуальна по причине того, что постепенно в этой сфере появляются новые, еще не покрытые потребности пользователей. Одна из ключевых на данный момент – определение факта применения нейросети для создания текста, что может повлиять на решение человека относительно корректности текста и его настоящего авторства. В заключении автор статьи предлагает создать наиболее совершенную для русского языка программу, которая позволит решить данную проблему и при этом будет бесплатной.

Ключевые слова: искусственный интеллект, анализ текста, генерация текста, авторство текстов, морфемный анализ.

За последние несколько лет искусственный интеллект был значительно усовершенствован для решения многочисленных задач. При этом достаточно давно его применяют для анализа текстов, на данный момент эти цели стали не только более важными для некоторых пользователей, но и более совершенными. Несмотря на это, до сих пор многие лица отказываются от применения искусственного интеллекта, что является ошибкой. Все это демонстрирует актуальность темы работы.

При анализе некоторых текстов пользователю необходимо выполнить относительно простые, но трудоемкие задачи. По этой причине искусственный интеллект в первую очередь был обучен для решения таких задач в сфере анализа текстов. Наиболее часто можно встретить потребности в следующих функциях:

Частеречная разметка. Предположим, пользователю программы необходимо выделить в представленном тексте слова, согласно частям речи. Это может быть важно для тех лиц, которым нужно сформировать текст с доминирующим числом определенных частей речи. Примером может быть требование по минимизации местоимений, максимизации глаголов и так далее. В итоге, разметка поможет определить, соблюдается ли это условие. Такая разметка может производиться и в отношении других элементов, например, родов и падежей, если это необходимо по какой-либо причине пользователю [1];
Морфологическая сегментация. Наиболее важна для пользователей, использующих русский язык. С ее помощью искусственный интеллект разделяет все слова на морфемы (то есть выделяет их окончания, приставки и другие части). Это может быть важно для тех пользователей, которые желают максимально упростить текст для восприятия (например, он предназначается для детей), поэтому число морфем должно быть относительно небольшим [3]. Отдельно здесь можно выделить стемминг, с помощью которого искусственный интеллект выделит корень слова, что важно для проверки текста на одну из литературных составляющих – отсутствие повторения однокоренных слов в одном и соседних предложениях. В некоторых случаях применяют лемматизацию – процесс, приводящий все слова к одной заранее заданной форме, например, женскому роду в единственном числе;
Выделение границ предложения. Такая задача может быть важной для более быстрого разделения текста на составные части в, например, исторических документах, где часто используются сокращения имен и слов «год». Для некоторых языков важно выделение границ даже не предложения, а слов. Примером может быть китайский язык, в котором, в случае беглого просмотра, можно неправильно слить иероглифы в слово, что сформирует совершенно иную фразу с другим смыслом. В итоге, такая разметка позволяет более просто анализировать текст уже самому человеку;
Распознавание именованных сущностей. В данном случае искусственный интеллект выделит все имена собственные, что решает множество задач, например, в некоторых текстах лицу не нужны имена людей, в другом случае – обозначение населенных пунктов и так далее;
Разрешение смысла слов. Здесь программа будет проводить анализ в отношении того, какое именно значение применяется у данного омонима. Это облегчает восприятие текста человеком, позволяет ему выявить фрагменты, где возможна двусмысленность;
Разрешение кореференций, то есть выявление взаимосвязанных слов. Функция крайне важна в том случае, если в тексте применяются сложноподчиненные и схожие предложения, в которых есть риск допустить ошибку.

Постепенно искусственный интеллект стал усложняться, потому сформировались новые возможности на основе общего понимания текста программой. Здесь можно выделить следующее:

Предсказательные языковые модели. С помощью такой функции искусственный интеллект предпринимает попытку предугадать следующее слово в предложении. В результате, происходит анализ типичности или не типичности текста;
Информационный поиск. Эта функция является основной для современных интернет-поисковиков, однако, для анализа текстов она тоже крайне важна. Предположим, необходимо установить, есть ли в произведении упоминания о каких-либо негативных элементах, например, смерти. В итоге, пользователь задает соответствующий поиск, а система не только ищет конкретное слово, но и все связанное с ним, что позволяет однозначно сделать вывод о допустимости и недопустимости текста для определенной аудитории;
Анализ тональности. Именно этот процесс выводит пользователю отчет о том, является ли текст негативным или позитивным, то есть его тональность. Такая функция применяется крайне часто, так как анализ тональности важен для изучения отзывов на товары и сайты, формирования «ленты добра» для телепрограмм или новостей, быстрого выявления мнения эксперта, исходя из отчета и так далее [5];
Выделение отношений или фактов. Такая возможность искусственного интеллекта важна для быстрого фактчекинга – все ли данные в статье верные (пример, указано, что фирма основана в 1999, а достоверно известно, что в 1998), существуют ли в тексте в целом такие связи и так далее;
Ответы на вопросы. В данном случае искусственный интеллект попытается ответить на любой вопрос пользователя, используя текст. Это важно для того, чтобы быстро выявить, можно ли это в целом сделать.

Предположим, педагогом была составлена кейс-задача и сформированы вопросы, такой анализ позволит быстро определить, не потребуется ли студентам для ее решения дополнительная литература.

Постепенно потребности пользователей искусственного интеллекта расширялись, что привело к созданию наиболее современных программ, которые проводят такой анализ текста, который уже близок к человеческому в некоторых аспектах. Ярким примером является искусственный интеллект «Retext.AI». Среди наиболее важных функций в сфере анализа текста, можно выделить следующие:

Анализ текста для выделения самых важных моментов, которые будут скомпонованы в некую аннотацию. Предположим, искусственному интеллекту предлагают текст в несколько страниц, после анализа он сокращает его до половины страницы, на которой размещена лишь самая важная информация. Функция необходимо для того, чтобы автор мог сделать вывод о том, достигнута ли задача передать конкретные мысли или нет;
Определение некоторых важных для текста параметров. Так, наиболее простые программы выявляют количество слов, знаков, абзацев, строк и так далее, искусственный интеллект позволяет указать ключевые фразы (особенно важно для SEO-текстов, в которых должны присутствовать определенные словосочетания), характерные для текста, его «заспамленность», то есть чрезмерное применение конкретных слов, количество «воды» – это предложения и их части, не имеющие существенного значения для смысла текста, существование в тексте канцеляризмов (типовых фраз) и так далее [2]. В результате, происходит многоаспектный анализ текста, который важен для разных целей.

Крайне важен определенный анализ текста в образовательных целях. Так, достаточно давно были разработаны программы, которые позволяют определить уровень оригинальности, цитирования и заимствования в тексте. Это позволяет выявить тех лиц, которые занимаются чрезмерным плагиатом в своих работах. На данный момент на российском рынке крайне много программ, предоставляющих такую возможность. Из наиболее известных выделим «antiplagiat.ru», «etext», «text.ru». Некоторые из программ развивались или развиваются, предоставляя новые функции, важные для решения вопроса авторства. Так, например, анализ текста может быть проведен в отношении рерайтинга – процесса, в ходе которого лицо переписывает чужой текст, вставляя синонимы слов, что может привести к неверному анализу текста от программы – она посчитает, что это уникальный текст.

В 2022 году искусственный интеллект стал значительно развиваться, что привело к появлению бесплатных программ, позволяющих генерировать тексты на любые темы. Этим стали пользоваться, как обучающиеся, так и коммерческие организации [4]. В результате, сформировалась потребность на анализ текстов, который позволит выявить применение искусственного интеллекта при его написании. Задача крайне важна, так как она снова активизировала вопрос относительно авторства научных и учебных работ, а также создала вопрос фактчекинга – искусственный интеллект может создать любую новость, которая будет опубликована в СМИ, и ей поверят граждане. Дополнительно нужно указать, что искусственный интеллект не всегда предоставляет достоверную информацию при генерации текстов, а в некоторых предложениях явно нарушена логика. В результате, программы анализа текста на вопрос применения искусственного интеллекта при написании стали крайне востребованы с начала 2022 года.

В этой сфере можно выделить следующие наиболее прогрессивные из них:

«AI Text Classifier» – программа от создателей «ChatGPT» – нейросети, которая в первую очередь и сформировала необходимость анализа текста на вопрос его написания роботом. Этот искусственный интеллект имеет достоинства и недостатки. Так, с одной стороны, он безошибочно определяет применение «ChatGPT» при создании текста на английском языке. С другой стороны, если лицо применяло иную нейросеть для этой цели или же генерация проходила на другом языке – результат может быть ошибочным;
«GPTZero». Программа может провести анализ текста, исходя из возможности пользователя применять разные нейросети, например, «GPT3», «GPT4» и «BARD». Уровень результатов относительно высокий;
«Text.ru». На этом российском сайте встроена программа, которая теперь позволяет не только провести анализ текста на уровень оригинальности и некоторые SEO-параметры, но и на вопрос применения нейросетей для написания. На данный момент возможность использовать такую технологию есть только при оплате, что является существенным недостатком;
«Аntiplagiat.ru». Аналогично предыдущему конкуренту, была разработана такая же функция с таким же требованием по оплате. При этом подобная система анализа текстов есть у каждого университета России, потому вопрос относительно авторства работ был в существенной мере решен, но не полностью;
«Content at Scale». Этот искусственный интеллект проводит проверки на большинстве распространенных языков мира и имеет на данный момент достаточно высокую точность для каждого из них, что важно для России;
«AI Content Detector». Программа демонстрирует числовую вероятность применения нейросети, точность прогноза для русского языка относительно высокая.

Исходя из всей приведенной выше информации, можно сделать вывод о том, что большинство потребностей в сфере анализа текстов искусственный интеллект уже покрыл. При этом постепенно формируются новые, одна из важнейших на данный момент – абсолютное выявление применения нейросети при создании текста. Причина заключается в необходимости решения авторского вопроса и фейков, создаваемых с помощью программ. На данный момент ключевой рекомендацией является совершенствование российских программ, а также предоставление открытого доступа к ним, так как каждый человек имеет право на информацию о том, является ли текст авторским или просто сгенерированным, вне зависимости от содержания сведений в тексте. Если данная рекомендация будет реализована на практике, безопасность граждан возрастет, а авторское право будет лишено существенной угрозы.

Список литературы

Акбашева Е. А. Интеллектуальная система анализа текста на основе NLP / Е. А. Акбашева, Г. А. Акбашева, И. З. Тлупов // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. – 2022. – № 11-2. – С. 73-79. – DOI 10.37882/2223-2966.2022.11-2.02.
Воронкин В. В. Применение технологии нейронных сетей для автоматизации бизнес-процессов в онлайн-торговле / В. В. Воронкин, А. И. Чернова // Вестник государственного морского университета имени адмирала Ф.Ф. Ушакова. – 2023. – № 1 (42). – С. 39-43.
Иванова, Д. С. Практический опыт реализации возможностей искусственного интеллекта в начальном образовании / Д. С. Иванова, А. А. Серов // Психолого-педагогический поиск. – 2022. – № 3 (63). – С. 75-83. – DOI 10.37724/RSU.2022.3.63.008.
Сысоев П. В. ChatGPT в исследовательской работе студентов: запрещать или обучать? / П. В. Сысоев, Е. М. Филатов // Вестник Тамбовского университета. Серия: Гуманитарные науки. – 2023. – Т. 28, № 2. – С. 276-301. – DOI 10.20310/1810-0201-2023-28-2-276-301.
Фомина И. К. Повышение эффективности модели классификации определения тональности текста / И. К. Фомина, А. С. Татаурова // Актуальные проблемы экономики и управления. – 2022. – № 1 (33). – С. 55-58.

Интересная статья? Поделись ей с другими: