УДК 004.853

Обнаружение аномалий в электронных письмах с помощью машинного обучения

Бардасова Ирина Александровна – студент факультета информационной безопасности МИРЭА – Российского технологического университета.

Волкова Елена Алексеевна – студент факультета информационной безопасности МИРЭА – Российского технологического университета.

Аннотация: Аномалии в электронных письмах, такие как фишинг и спам, представляют собой серьезные угрозы безопасности, такие как потеря конфиденциальности, денег и репутации бренда как для отдельных лиц, так и для организаций. Можно обнаруживать аномалии электронной почты основывались на одном типе аномалий и анализе тела и содержания электронной почты. Однако, недостатком этого подхода является то, что он учитывает письменный язык содержимого электронной почты. Чтобы преодолеть этот дефицит, в этой статье было проанализировано извлечение и выбор признаков из наборов данных заголовков электронных писем и рассмотрены подходы как к множественному, так и к одноклассовому обнаружению аномалий. В статье рассматриваются алгоритмы контролируемого обучения, такие как Random Forest, SVM, MLP, KNN.

Статья построена следующим образом: введение, далее представлена краткая информация об аномалиях и архитектура предлагаемой системы обнаружения аномалий, вывод.

Ключевые слова: ANN, RBF, SVM, MLP, EM, kNN, SOM, EM, Случайный лес, Гауссова смесь распределений.

Введение

Использование электронной почты стало обыденным действием для человека. Это удобный и бесплатный способ быстрой коммуникации как для частных лиц, так и для больших компаний. Электронная почта предоставляет возможность хранения файлов, что гарантирует постоянную доступность записей и вложений сообщения.

Однако приходится сталкиваться не только с доброкачественными сообщениями, знакомыми рассылками и рекламой. Встречаются также и вредоносные письма: разного рода спам, который рассылается большому количеству человек. К таким сообщениям относятся и фишинг-сообщения, они могут быть направлены на кражу личных данных, денежных средств и иметь ссылки на вредоносные программы.

Таким образом, можно говорить о том, что возможность выявлять аномалии в наборах данных электронной почты чрезвычайно важная задача с точки зрения информационной безопасности. В этой статье мы опишем и сравним несколько видов машинного обучения и выявим, какие более эффективно подходят для выявления аномалий электронных писем, таких как фишинг и спам. В работе будем опираться на текстовое сопровождение письма, а именно заголовок письма, без глубокого анализа внутреннего содержания вложений.

1 Определение аномалий электронной почты

Стоит начать с того, что является той самой аномалией. Так спам-сообщения относятся к нежелательным массовым рассылкам электронной почты. Фишинговые электронные сообщения, в свою очередь, выглядят как письма из надежного источника и рассылаются с целью причинения вреда отдельному лицу или организации [3].

Аномалии электронных писем можно сгруппировать по следующим критериям: точечные, контекстуальные, а также сенсорные низкоуровневые из семантические аномалии высокого уровня [2]. Говоря про точечные аномалии, имеется ввиду значительные отклонения от определенной нормы или иными словами – подавляющего большинства. Если сужать данное выражение до примера электронной почты, то можно сказать, что аномалия возможна, если разность между соседними письмами сильно различается. Контекстуальные или условные аномалии можно выявить, рассматривая определенный ряд ближайших закономерностей. Сенсорные аномалии низкого уровня и семантические аномалии высокого уровня в основном касаются глубокого обучения, направленного на выявление точечных смысловых ошибок в тексте.

2 Подходы к обнаружению аномалий

Рассмотрим также параметры подходов машинного обучения, которые могут быть направлены на обнаружение аномалий электронной почты: контролируемый, полуконтролируемый и неконтролируемый подходы. Хотя существует несколько полуконтролируемых и неконтролируемых методов машинного обучения, которые используются для классификации спама, контролируемое обучение является самым популярным подходом к классификации электронной почты в последние годы [1].

Если использовать корпоративный набор данных, состоящий примерно из 12 000 писем, помеченных как вредоносные или безвредные, можно извлечь и использовать широкий спектр функций для обучения и оценки нескольких различных алгоритмов обучения. К ним относятся: наивный байесовский метод, дерево решений, линейная SVM (Метод опорных векторов), RBF SVM, нейронные сети MLP (Многослойный персептрон) и случайный лес.

Для полу- и неконтролируемого обучения требуются разные методы. Примеры алгоритмов обнаружения аномалий включают SVM одного класса, кластеризацию kmeans, модели kNN(Метод k-ближайших соседей) и Gaussian Mixture (Гауссова смесь распределений) [2]. Алгоритмы обнаружения аномалий можно классифицировать несколькими способами в зависимости от характера подхода. Это статистические классы или классы на основе расстояния, плотности, кластеризации, графов, ансамблей и обучения. Из исследования работ, в которых применялось полуконтролируемое обучение, можно выделить: ANN(Искусственные нейронные сети), Naive Bayes, SVM, Random Forest(Случайный лес), KNN и другие. Для обучения без учителя использовались самоорганизующиеся карты (SOM), K-средние, ожидание-максимизация (EM) и KNN. Опишем более подробно все важные звенья этого раздела:

  1. ANN является основой прогнозирования и классификации, но широко используется для классификации признаков. Как следует из названия, она построена на основе архитектуры нейронов.
  2. Naive Bayes – вероятностный классификатор на основе формулы Байеса со строгим (наивным) предположением о независимости признаков между собой при заданном классе, что сильно упрощает задачу классификации из-за оценки одномерных вероятностных плотностей вместо одной многомерной.
  3. SVM – набор схожих алгоритмов обучения с учителем, использующихся для задач классификации и регрессионного анализа.
  4. Random forest – это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев».
  5. SOM – это искусственная нейронная сеть, основанная на обучении без учителя.
  6. K-средние – метод кластеризации, основанный на обучении без учителя.
  7. EM - метод, который опирается на предположение, что множество данных может быть смоделировано линейной комбинацией многомерных нормальных распределений.
  8. KNN — это контролируемый метод машинного обучения, используемый для решения задач классификации и регрессии.

3 Архитектура алгоритма обнаружения аномалий

Выше было описано множество методов, позволяющих пользователю, с высокой долей вероятности, получать только действительные электронные письма. Данные методы созданы для оценки степени риска каждого входящего сообщения, для того, чтобы снизить опасность производится фильтрация аномальных случаев. Это позволяет избежать следующих угроз: фишинг, вредоносные программы, программы вымогатели. Классификатор обучают как на нормальных электронных письмах, так и на нежелательных, что позволяет более точно определять письма, содержащие угрозу. Уже обученный классификатор сортирует письма следующим образом: нормальные письма помещаются в папку «входящие», спам-письма помещаются в папку со спамом, письма содержащие угрозу помещаются в «корзину». Классификатор постоянно обновляется по принципу обратной связи.

На рисунке 1 показана архитектура системы выявления аномалий, принцип работы которой основывается на анализе заголовка сообщения электронной почты. Несмотря на то, что на рисунке 1 представлена работа системы в автономном режиме, ее можно легко адаптировать под онлайн фильтрацию. В следующих подразделах описывается каждый из подкомпонентов архитектуры.

Рисунок12

Рисунок 1. Архитектура предлагаемой системы обнаружения аномалий

А. Описание набора данных.

Следует использовать набор данных, состоящий из спам-сообщений и легитимных сообщений.

- Извлечение набора данных: Для работы с данными необходимо провести обработку. Это позволит нам извлечь данные заголовка. Напрямую оба набора данных использовать нельзя. Обработанные данные представим в виде строк, где в каждой содержится одно электронное письмо, и столбцов, где каждый из них представляет одно поле заголовка. Важно понимать, что это не является извлечением признаков, его мы обсудим позже.

- Извлечение функций: Перед началом извлечения признаков данные нужно проанализировать с целью получения представления о форматах заголовков. Мы выяснили, что многие поля имеют несколько частей и их форматирование часто различается. Например, поле «Получено» часто состоит из нескольких разных строк: в одной строке может быть указано, откуда пришло электронное письмо, в другой — какой сервер его получил, а в третьей — дата и время получения. Более того, конкретный формат даже в пределах одного типа поля заголовка часто был противоречивым. Это связано с отсутствием установленного единого формата, следовательно, разные сервера или почтовые клиенты используют разные форматы. В некоторых электронных письмах поля заголовков отсутствовали, что привело к множеству пропущенных значений для некоторых функций. Неверное форматирование заголовков усложнило предварительную обработку и извлечение признаков.

Для решения проблемы пропущенных значений можно использовать порядковое и горячее кодирование.

Б. Важность и выбор функций. Важность признаков — это степень влияния признака на модель классификации. Выбором признаков называется выявление и удаление маловажных признаков. После того, как важные функции найдены, менее важные функции могут быть исключены без большого влияния на эффективность классификации. Выбор функций может повысить точность, ускорить время обучения и уменьшить вероятность переобучения[4]. Существуют различные алгоритмы выбора функций, которые обычно используются в области классификации электронной почты, включая важность перестановки функций и встроенные методы. Некоторые методы используют модели обучения такие как: регрессия LASSO и RIDGE. В этом исследовании для набора данных A для применения важности функции перестановки использовались три модели обучения: случайный лес, SVM и MLP. Важность функций перестановки также определялась перед тестированием одного класса с моделью OC-SVM, в котором были выбраны 30 лучших функций.

Вывод

В первой части этой работы мы определили, что такое аномалии и что они представляют из себя в контексте почтового ящика. Рассмотрели точечные контекстные и сенсорные аномалии.

Затем рассмотрели подходы к обучению нейронных сетей, а также методы, которые применимы к обнаружению аномалий в почтовом сервисе. Определили наиболее оптимальные методы для обнаружения аномалий.

По итогу предоставили архитектуру системы распознавания аномалий в системах электронной почты. Рассмотрели возможную подготовку набора данных к работе с ними. Изучили метод распределения важности внутри набора данных.

Список литературы

  1. Шмыгарева В.С. Разработка и обучение нейросетей // Молодой ученый. - 2022. - №24 (419). - С. 79-87.
  2. Лукас Руфф, Якоб Р. Кауфманн, Роберт А. Вандермейлен, Грегуар Монтавон, Войцех Самек, Мариус Клофт, Томас Дж. Дитеррих и Клаус-Роберт Мюллер Единый обзор обнаружения глубоких и неглубоких аномалий // Труды IEEE. – 2021.
  3. Спам против фишинга. // [Электронный ресурс]. - URL: https://www.webroot.com/ ca/en/resources/tips-articles/spam-vs-phishing. (дата обращения: 23.03.2024).
  4. Важность выбора функций в машинном обучении // [Электронный ресурс]. - URL: https://www.aretove.com/importance-of-featureselection-in-machine-learning (дата обращения: 23.03.2024).
  5. Введение в методы Feature Selection на примере (или как правильно выбирать переменные?) // [Электронный ресурс]. - URL: https://www.analyticsvidhya.com/ blog/2016/12/introduction-to-feature-selection-methods (дата обращения: 23.03.2024).
  6. Заголовки электронных писем могут рассказать вам о происхождении спама. // [Электронный ресурс]. - URL: https:// www.lifewire.com/ema il-headers-spam-1166360#received-lines (дата обращения: 23.03.2024).