УДК 004.942

Использование алгоритмов машинного обучения в системе управления чатами и каналами в мессенджерах

Куликов Александр Анатольевич – доцент кафедры инструментального и прикладного программного обеспечения МИРЭА – Российского технологического университета

Керженцев Георгий Николаевич – магистрант, МИРЭА – Российского технологического университета

Аннотация: В данной статье проводится обзор существующих методов фильтрации спама в системах быстрых сообщений. В качестве альтернативы традиционным методом фильтрации, которые легко можно обойти, предлагается использовать методы машинного обучения. Рассматриваются такие алгоритмы машинного обучения, как наивный байесовский классификатор и деревья решений, а также их комбинация в виде гибридного метода. Предложенный метод позволяет использовать оба алгоритма для обработки и классификации сообщений, а затем объединять результаты, чтобы получить более точную оценку вероятности наличия спама в сообщении. Результаты данного исследования могут быть использованы для улучшения фильтрации спама в системах быстрых сообщений.

Ключевые слова: машинное обучение, фильтрация спама, наивный байесовский классификатор, решающее дерево, гибридный метод.

В наше время мессенджеры играют важную роль в повседневной коммуникации многих людей. Однако, с ростом числа пользователей и объема сообщений, которые передаются через мессенджеры, проблема фильтрации спама и нежелательных сообщений становится все более актуальной. Пользователи мессенджеров сталкиваются с огромным потоком сообщений, среди которых могут находиться нежелательные и даже вредоносные. Для борьбы с этим явлением было разработано множество алгоритмов, но не все они одинаково эффективны.

Цель данной статьи – выбрать оптимальный алгоритм для фильтрации спама и нежелательных сообщений для использования в системе управления чатами и каналами в мессенджерах. Мы проведем обзор основных методов и предложим гибридный метод для использования в разрабатываемой системе управления чатами и каналами в системах быстрых сообщений. В исследовании участвуют как классические алгоритмы, такие как Naïve Bayes и SVM, так и более современные методы, такие как нейронные сети. Результаты исследования могут быть полезны для разработки новых алгоритмов фильтрации спама и нежелательных сообщений в мессенджерах, а также для повышения эффективности существующих методов.

Существует несколько подходов к фильтрации спама и нежелательных сообщений в мессенджерах. Один из наиболее распространенных подходов – это использование правил фильтрации, которые основаны на заранее определенных списке запрещенных слов или фраз, наличия определенных символов или ключевых слов в тексте сообщения, а также блокирование сообщений от конкретных отправителей.

Однако, с появлением более сложных и умных методов машинного обучения, были разработаны более эффективные алгоритмы фильтрации сообщений. Основные методы машинного обучения, используемые для фильтрации сообщений, включают в себя:

Наивный Байесовский классификатор – это простой алгоритм машинного обучения, который основывается на теореме Байеса. Он использует статистические данные о частоте использования слов в спам-сообщениях и нежелательных сообщениях, чтобы определить вероятность того, что сообщение является спамом или нежелательным сообщением [1].
Метод опорных векторов– это метод машинного обучения, который строит гиперплоскость или набор гиперплоскостей в пространстве признаков для разделения данных на классы. SVM является эффективным методом фильтрации сообщений в мессенджерах, так как он может работать со многими мерностями признаков и имеет хорошую обобщающую способность [2].
Решающие деревья – это метод машинного обучения, который строит дерево решений на основе признаков сообщения. Каждый узел дерева представляет собой правило для принятия решения о том, является ли сообщение спамом или нежелательным сообщением. Этот метод хорошо подходит для задачи фильтрации сообщений в мессенджерах, так как он легко интерпретируется и позволяет выявлять взаимосвязи между признаками сообщения [3].
Нейронные сети – это метод машинного обучения, который имитирует работу человеческого мозга. Нейронные сети могут обрабатывать большие объемы данных и выявлять скрытые связи между признаками сообщения. Несмотря на то, что нейронные сети могут быть эффективными для фильтрации сообщений, их обучение требует значительных вычислительных ресурсов и большого количества данных.
Алгоритмы кластеризации – это метод машинного обучения, который используется для группировки сообщений в кластеры на основе их сходства. Кластеризация может использоваться для выявления новых паттернов и групп сообщений, которые могут быть связаны с спамом или нежелательными сообщениями [4].

В обзоре алгоритмов фильтрации сообщений, важно учитывать их преимущества и недостатки, а также их применимость в контексте мессенджеров. Разные алгоритмы могут иметь различные требования к ресурсам и не все из них могут быть эффективны в различных сценариях использования. Наименее ресурсоемкие из указанных методов это наивный байесовский классификатор и деревья решений [5]. Эти алгоритмы будут рассматриваться в статье как основа для нового комбинированного алгоритма.

В рамках разработки системы управления чатами и каналами в мессенджерах будет предложено рассмотрение гибридного метода фильтрации нежелательного контента, предусматривающего использование одновременно двух вышеописанных методов: наивный Байесовский классификатор и решающие деревья. Оба метода поддерживают онлайн обучение и не настолько требовательны к ресурсам, как другие предложенные варианты. При использовании такого подхода можно применять оба алгоритма для обработки и классификации сообщений, после чего можно объединять их результаты, для получения более точной вероятностной оценки сообщения на принадлежность к категориям "спам" или "не спам".

Обучение компонентов в рамках гибридной модели происходит независимо друг от друга, однако стоит отметить, что перед обучением необходимо преобразовать текстовые сообщения, которые необходимо классифицировать в числовой формат. В качестве числового формата будем использовать TF-IDF матрицу. Это общий шаг для обучения обеих моделей. После обучения моделей происходит их проверка на тестовой выборке, присвоение стартовой точности и развертывание модели. Схема обучения гибридной модели представлена на рисунке 1.

Рисунок 1. Схема обучения алгоритмов фильтрации сообщений.

При работе алгоритмов в рамках системы управления чатами и каналами в мессенджерах построим алгоритм, основанный на конкуренции двух методов, входящих в гибридный алгоритм. Вместо использования показателей уверенности методов для каждой из классификаций, используем общий показатель точности для каждого алгоритма. Изначальные значения этого показателя задаются на основе проверки моделей после их обучения. При поступлении новых сообщений в случае спорной ситуации, предпочтение отдается алгоритму с наибольшей общей точностью. После принятия решения пользователем системы, корректируется показатель точности. В случае понижения точности одной из моделей до границы в 65%, происходит ее переобучение. Это позволяет поддерживать актуальность используемых моделей, без нагрузки на систему, которую предполагало бы полноценное онлайн-обучение. Схема работы алгоритма представлена на рисунке 2.

Рисунок 2. Схема обработки сообщения гибридным алгоритмом.

Стоит отметить, что для дополнительного снижения нагрузки на систему, предполагается применять алгоритмы фильтрации только к сообщениям от новых участников. Для этого для администратора предусмотрен выбор таймера и количества сообщений, по истечении которого последующие сообщения участника больше не попадают под фильтрацию.

Таким образом комбинация двух методов машинного обучения позволяет повысить общую точность фильтрации нежелательного контента. При этом, чтобы снизить потребление ресурсов, предложены особые критерии, сокращающие частоту переобучения моделей. Дальнейшие исследования должны сфокусироваться на доработке алгоритма для повышения точности и сокращения нагрузки при его использовании.

Список литературы

Еремеева А. В. Применение наивного байесовского классификатора для построения рекомендательной системы // Альманах научных работ молодых ученых Университета ИТМО: XLVII научная и учебно-методическая конференция Университета ИТМО, Санкт-Петербург, 31 января 2018 года. Том 2. – Санкт-Петербург: федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО", 2018. – С. 60-61.
Михайлов И. С., Зеар Аунг, Йе Тху Аунг Разработка модификации метода опорных векторов для решения задачи классификации с ограничениями на предметную область // Программные продукты и системы. 2020. №3. URL: https://cyberleninka.ru/article/n/razrabotka-modifikatsii-metoda-opornyh-vektorov-dlya-resheniya-zadachi-klassifikatsii-s-ogranicheniyami-na-predmetnuyu-oblast (дата обращения: 10.05.2023).
Самигулин Т. Р., Джурабаев А.Э.У. Анализ тональности текста методами машинного обучения // Научный результат. Информационные технологии. 2021. №1. С. 55-62.
Казаков М. А. Алгоритм кластеризации на основе разбиения пространства признаков // Вест. КРАУНЦ. Физ.-мат. науки. 2022. №2. URL: https://cyberleninka.ru/article/n/algoritm-klasterizatsii-na-osnove-razbieniya-prostranstva-priznakov (дата обращения: 11.05.2023).
Заграй, В. Ю. Фильтрация спам-писем с помощью алгоритмов на основе нейронных сетей // Информационные технологии и системы 2018 (ИТС 2018): материалы международной научной конференциию– Минск, 2018. – С. 288-289.

Интересная статья? Поделись ей с другими: