УДК 004                                                                                                                                                       

Обзор алгоритмов машинного обучения в современных средствах защиты информации

Сивков Дмитрий Игоревич – аспирант факультета Безопасности информационных технологий Университета ИТМО

Калугина Алёна Сергеевна – аспирант факультета Безопасности информационных технологий Университета ИТМО

Аннотация: В статье обозреваются системы обнаружения вторжений (Intrusion Detection System, IDS), системы анализа трафика (Network Traffic Analysis, NTA), системы защиты конечных устройств (Endpoint Detection and Response, EDR), системы мониторинга событий информационной безопасности (Security information and event management, SIEM) и системы поведенческого анализа пользователей и сущностей (User and Entity Behavior Analytics, UEBA), их недостатки и направления развития, а также перспективное использование алгоритмов машинного обучения: метод опорных векторов, k ближайших соседей, метод роя частиц, обучение с учителем, с частичным привлечением учителя и без учителя. Рассмотрены достоинства и недостатки различных алгоритмов машинного обучения и наборов данных, по которым проводилось обучение.

Ключевые слова: информационная безопасность, многоэтапная атака, система обнаружения вторжений, анализ сетевого трафика, обнаружение конечных точек и реагирование на них, анализ поведения пользователей и объектов, информация о безопасности и управление событиями, машинное обучение, наука о данных.

Введение

В настоящее время сохраняется тенденция роста сложности кибератак и возникают новые виды атак. Значительную опасность представляют многостадийные (Multistage attack) и целевые кибератаки (Advanced Persistent Threat, APT) [1]. Многие существующие и активно использующиеся методы и подходы к обнаружению кибератак не справляются со своей задачей в таких условиях.

Целевые кибератаки нанесли огромный ущерб организациям и даже государствам, и противодействие им требует в том числе специализированных средств защиты. Однако современные традиционные механизмы обнаружения не могут эффективно детектировать целевые кибератаки [2]. Современные системы защиты от APT включают в себя разнообразный функционал, свойственный другим классам средств защиты, в том числе системам обнаружения вторжений (Intrusion Detection System, IDS), системам анализа трафика (Network Traffic Analysis, NTA), системым защиты конечных устройств (Endpoint Detection and Response, EDR) и (Endpoint Protection Platform, EPP), системы мониторинга событий информационной безопасности (Security information and event management, SIEM) и системы поведенческого анализа пользователей и сущностей (User and Entity Behavior Analytics, UEBA). Следует отметить, что механизмы обнаружения, ориентируемые на конечные устройства, предоставляют больше данных, позволяющих детектировать целевые кибератаки.

На данный момент прослеживается тенденция объединять несколько классов решений для повышения вероятности детектирования целенаправленных атак, так в системых обнаружения вторжений могут присутствовать модули анализа трафика, а в средстве мониторинга событий информационной безопасности есть возможность приобрести расширенный функционал поведенческого анализа пользователей и сущностей [3].

Показатели качества методов обнаружения

Для оценки качества методов обнаружения могут использоваться следующие метрики:

  • accuracy (ACC, точность) представляет собой долю правильных ответов алгоритма;
  • precision (точность) представляет собой долю верно классифицированных как положительные объектов среди всех положительных откликов алгоритма;
  • recall (полнота) представляет собой долю истинно верно классифицированных как положительные объектов среди всех положительных объектов;
  • F-мера представляет собой среднее гармоническое precision и recall.

Следует отметить, что метрика accuracy не является показательной при значительно различающимися по мощности классами объектов. Другие метрики лишены подобного недостатка.

Recall определяет возможность идентификации объектов некоторого класса алгоритмом. Precision показывает способность отличать объекты некоторого класса от объектов остальных классов.

F-мера представляет собой единую метрику качества, учитывающую как precision, так и recall.

В зависимости от задачи может иметь большее значение конкретная метрика.

Защита локальной сети

Для защиты локальных сетей часто используются такие системы, как сетевые системы обнаружения/предотвращения вторжений (Network Intrusion Detection/Prevention System, NIDS/NIPS), межсетевые экраны (Brandmauer, Firewall, FW), межсетевые экраны нового поколения (Next Generation Firewall, NGFW) и системы анализа трафика (Network Traffic Analysis, NTA) [4].

Понятия и отличия

NIDS – это система анализа входящего трафика на предмет наличия вредоносной активности.

NGFW представляет собой комплексное решение по защите периметра и включает в том числе и NIPS и потому для обнаружения атак использует аналогичные методы.

NTA является методом мониторинга и анализа поведения сети на предмет возникновения аномалий, в том числе инцидентов информационной безопасности. Также существуют одноименные системы защиты информации, реализующие указанный функционал.

Следует отметить, что NIDS/NIPS и NGFW не оказывают должного противодействия многоуровневым и целевым кибератакам по ряду причин:

  • располагаются на периметре локальной сети, потому не выполняют анализ внутреннего трафика и не могут обнаружить присутствие злоумышленников в локальной сети;
  • реализуют хранение данных исключительно об обнаруженных сигнатурах, но не обо всем трафике в целом, в связи с чем не могут выполнять комплексный анализ сетевого трафика.

NTA лишены подобных недостатков, потому подходят для обнаружения многоуровневых и целевых атак. В связи с этим, решения указанного класса СЗИ были высоко оценены в операционных центрах безопасности (Security Operations Center, SOC).

Таким образом, для защиты локальных сетей в основном применяются методы обнаружения вторжений и механизмы анализа сетевого трафика.

Методы обнаружения вторжений

В настоящее время существует две группы методов обнаружения вторжений и анализа трафика:

  • методы обнаружения аномалий;
  • методы поиска сигнатур.

Каждая группа обладает некоторыми достоинствами и недостатками, в связи с этим многие системы обнаружения вторжений используют комбинации методов из обеих групп.

Методы поиска сигнатур

Методы поиска сигнатур направлены на обнаружение событий или их последовательностей, определенных как этапы атаки. Задание таких цепочек событий осуществляется при конфигурации системы обнаружения вторжений.

Такие методы позволяют за короткое время обнаруживать известные атаки, однако против неизвестных атаки они фактически бессильны.

Методы обнаружения аномалий

Методы обнаружения аномалий направлены в основном на выявление неизвестных атак и новых путей вторжения. Обычно для этих целей формируется некоторый паттерн или образ функционирования, принимаемый системой за эталонный. Для отнесения текущего поведения к нормальному или аномальному вычисляется его разница с эталонным паттерном поведения.

Выделяют следующие методы обнаружения аномалий:

  • описательная статистика;
  • методы машинного обучения
  • нейронные сети.

Такие методы позволяют выявлять неизвестные атаки, однако требуют большего времени на обнаружение чем сигнатурные методы, а также зависят от обучающей выборки.

Следует также отметить, что используются методы обучения как с учителем, так и без учителя. При этом ACC методов обучения без учителя нередко оказывается выше, чем обучения с учителем.

Недостатки современных решений и направления развития

Ввиду роста числа видов и вариаций различных кибератак, необходимо соответствующее регулярное обновление баз данных сигнатур атак для их обнаружения. Такое решение требует, во-первых, постоянного вмешательства специалистов, а, во-вторых, определенного времени для внесения изменений, что также создает окно опасности для новых атак.

Использование методов обнаружения аномалий требует подготовки обучающего набора данных для обучения модели, что в свою очередь затратно по времени. Также следует отметить, что от качества обучающего набора данных зависит эффективность обнаружения. Также важной задачей является подбор параметров и самого алгоритма машинного обучения.

Отдельным испытанием для методов обнаружения атак стали многостадийные и целевые атаки. Оказалось, что большинство современных методов неспособно обнаруживать такие атаки.

Больший интерес для исследований представляют методы обнаружения аномалий.

Ввиду указанных недостатков возникают следующие направления развития указанных методов:

  • выбор метода машинного обучения и его параметров для различных задач и областей применения;
  • обнаружение неизвестных атак.

Оценка и выбор метода машинного обучения

Aburomman, A. A., Reaz, M. B. I. [5] исследовали методы обнаружения аномалий при помощи методов машинного обучения в NIDS. Для повышения ACC ими были использованы ансамбли различных методов МО, а также методов принятия итогового решения. Наилучший показатель ACC в 0.756 показала комбинация SVM (метод опорных векторов), kNN (k ближайших соседей), PSO (метод роя частиц).

В [6] они исследовали применимость метода SVM для обнаружения сетевых атак. Основное внимание они уделили feature extraction, сравнив методы PCA и LDA, а также предложив использовать их комбинацию. На наборе данных KDD99 предложенный ими метод показал наиболее высокие показатели: accuracy = 0.92162, FP = 0.0196, FN = 0.10849.

Carneiro, J. и др. [7] сравнили две модели машинного обучения, а именно kNN и RF, применительно к обнаружению различных классов сетевых атак в наборе данных CIDDS 001. Обе модели продемонстрировали accuracy более 95%, а Recall, Precision и F1 больше 90 %. Однако авторы отмечают, что такие результаты вероятно получены в связи с переобучением модели.

Hasan, M. и др. [8] исследовали обнаружение аномалий и кибератак в системах интернет-вещей при помощи методов машинного обучения. Ими был выполнен сравнительный анализ таких методов, как LR, SVM, DT, RF и ANN. Наилучший показатель accuracy в 99.4%. Однако авторы отмечают, что такой результат был получен с учетом определенных особенностей проведения эксперимента, потому на практике он может отличаться.

Обнаружение неизвестных и многоуровневых атак

Al-Zewairi, M. и др. [9] исследовали возможность обнаружения неизвестных атак при помощи современных методов обнаружения вторжений. Всего ими были исследованы 92 различных моделей машинного обучения, основанные в основном на алгоритмах классификации. Все рассмотренные модели показали долю ошибочных решений в среднем в 50%, тем самым наглядно продемонстрировав неспособность обнаруживать неизвестные атаки, в связи с чем авторы заключили, что обнаружение неизвестных атак требует иного подхода. Авторы отмечают, что обнаружение ранее неизвестных атак является

Budiarto, R. И др. [10] отмечают, что значительная часть инцидентов безопасности обусловлена инсайдерами и вредоносными программами, что в свою очередь обуславливает необходимость в выявлении инцидентов в том числе во внутренней сети и поведении пользователей в режиме реального времени. Современные методы для обучения используют значительные периоды времени, что не позволяет проводить обучение «на лету». Авторы предложили новую модель обучения без учителя для обнаружения аномалий в поведении пользователей в сетевом трафике в реальном времени. По результатам эксперимента разработанная модель продемонстрировала accuracy в 83%.

Защита конечных устройств

Endpoint Detection & Response (EDR) –  класс решений для обнаружения и изучения вредоносной активности на конечных точках: подключенных к сети рабочих станциях, серверах, устройствах Интернета вещей . Системы класса EDR обеспечивают накопление и анализа информации о поведении рабочих станций, отслеживают повышение локальных привилегий для объектов на компьютерах с компонентом анализа событий на конечных АРМ. Также в системах класса EDR предусмотрен механизм реагирования на события, обнаруженные на рабочих станциях посредством выполнения следующих действий: завершить процесс, удалить файл, получить файл с рабочей станции и отправить для анализа в «песочницу», удалить файл на рабочей станции или отправить в карантин, запустить на рабочей станции исполняемый файл, изолировать рабочую станцию от сети.

Методы и алгоритмы

Sujeong Kim, Chanwoong Hwang и Taejin Lee из университета Хосео в своей статье 2020 года предлагают решение проблемы обнаружения новых и неизвестных угроз в дополнение к уже известным вредоносным способам атак с помощью алгоритма обнаружения неизвестных вторжений на основе аномалий в средах конечных точек, который основан на алгоритме локального уровня выброса и автокодировщике [11].

В этом разделе предлагается метод обнаружения аномалий для журналов событий, таких как файлы, процессы и модули, с использованием локального уровня выброса (LOF) и автокодировщика.

Для обнаружения аномалий, возникающих в конечной точке, используется разница характеристик данных между эталонным и текущим журналом. Модель извлекает различные параметры для анализа аномалий на основе журналов, собранных с конечной точки. LOF и автокодировщик применяются для вычисления показателя аномалии. Эти значения используются для идентификации аномальных данных с аномальными симптомами после вычисления функции кумулятивного распределения (CDF) с использованием стандартного нормального распределения. Сгенерированные значения CDF используются в качестве оценок аномалий для обнаружения одного подозрительного события.

Авторы статьи утверждают, что обнаружение аномалий является важным инструментом для обнаружения отклонений и нарушений во многих различных областях, включая обнаружение финансового мошенничества, вторжение в компьютерную сеть, анализ поведения человека, анализ экспрессии генов и многое другое.

Huan Zhou в своей статье для CNCERT 2018 представляет алгоритм обнаружения вредоносных программ с помощью нейронной сети с использованием комбинированных параметров [12]. Основной поставленной задачей было улучшение возможностей EDR-систем в текущих реалиях стремительного роста числа атак и их разновидностей, что влечет за собой необходимость максимизировать пользу от автоматических систем распознавания уязвимостей.

Весь алгоритм разделен на четыре этапа. Первый извлекает статическую информацию о функциях из исполняемого файла, такую как: гистограмма байтов по всему файлу, импортированные и экспортированные функции, размер файла, его архитектура, операционная система. Второй этап записывает последовательности вызовов системных API с использованием песочницы и обрабатывает их с помощью рекуррентной нейронной сети. На третьем этапе объединяются прежние статические и динамические объекты и преобразуются в фиксированные векторы объектов, которые будут преобразованы в изображения. Далее происходит обучение и классификация изображения, используя разработанную модель на основе сверхточной нейронной сети.

В итоге предложенный в статье алгоритм показывает явное превосходство совмещения статической и динамической информации по сравнению с другими вариациями извлечения параметров.

Недостатки современных решений и направления развития

Инструменты EDR часто удаляют системные журналы вскоре после их захвата. Журналы обычно хранятся в небольшой очереди FIFO, которая буферизует данные аудита всего за несколько дней, так что системные события обычно недоступны при расследовании длительной атаки. Это не только означает, что инструменты EDR не могут воспользоваться преимуществами причинно-следственного анализа во время расследования угроз, но это также означает, что в современных инструментах EDR отсутствует необходимый контекст для понимания взаимозависимости между соответствующими предупреждениями об угрозах.

По мере увеличения числа конечных точек увеличивается и объем данных, которые необходимо защитить. Каждый источник данных имеет свои собственные характеристики, закономерности и отдельную интерпретацию. Это может затруднить аналитикам безопасности ручную идентификацию вредоносных угроз. Автоматизация решения является главным приоритетом для ИТ-специалистов. Возрастает потребность в автоматизации, в частности, в выявлении ложных положительных и ложных отрицательных результатов, которые может дать анализ.  Методы машинного обучения развились эффективнее и стали лучше выявлять угрозы в различных областях, помогая выявлять интересные события, которые выходят за рамки шаблонов. Таким образом можно однозначно сказать, что тренд в развитии EDR-технологий прочно закреплен за ML-алгоритмами и их применением.

Исследователи обозначают немаловажным недостатком EDR-решений небольшое время существования журналов регистрации событий. Указанный недостаток обусловлен хранением журналов в FIFO-очереди, размер которой не позволяет сохранять данные за длительные промежутки времени, что в свою очередь препятствует использованию журналов событий при расследовании длительных атак.

Для проверки и расследования предупреждений, было предложено решение по анализу происхождение данных, которое может быть применено к системным журналам для анализа событий хоста в виде графиков происхождения, которые описывают совокупность выполнения системы и облегчают причинно-следственный анализ системных действий.

В последние годы были достигнуты значительные успехи, которые улучшают точность и эффективности, причинно-следственного анализа, и последние результаты указывают на то, что причинно-следственного анализа может быть даже использованы для улучшения сортировки предупреждение, для обнаружения вторжений, и для определения корреляции предупреждений. Появляются технологии, которые предоставляют улучшенный график происхождения, который абстрагирует системные события низкого уровня для кибераналитиков.

Заключение

В статье были проанализированы следующие классы средств защиты информации: системы обнаружения вторжений (Intrusion Detection System, IDS), системы анализа трафика (Network Traffic Analysis, NTA), системы защиты конечных устройств (Endpoint Detection and Response, EDR), системы мониторинга событий информационной безопасности (Security information and event management, SIEM) и системы поведенческого анализа пользователей и сущностей (User and Entity Behavior Analytics, UEBA). Анализ недостатков и современных направлений решений показал, что наиболее перспективным направление является использование алгоритмов машинного обучения для детектирования целенаправленных атак. Помимо этого, с учетом роста и сложности целенаправленных атак перспективным направлением является комбинировать технологии различных классов систем для комплексной оценки и повышения вероятности реализации угроз.

Список литературы

  1. Anti-Malware. Защита от целевых атак: онлайн-конференция. – 2021. – URL: https://www.anti-malware.ru/event/2021/03/30 (дата обращения: 30.03.2021).
  2. Advanced persistent threat (APT). What is APT: сайт. – Текст: электронный. – URL: https://www.imperva.com/learn/application-security/apt-advanced-persistent-threat/ (дата обращения: 08.05.2021).
  3. Gartner Research. Market Guide for Network Detection and Response: статья. – Текст: электронный. – 2020. – URL: https://www.securitylab.ru/blog/personal/Business_without_danger/346702.php (дата обращения: 04.09.2021) – Загл. с экрана.
  4. ru by Positive Technologies. NTA, IDS, UTM, NGFW – в чем разница? : статья. – Текст : электронный. – 2021. – URL : https://www.securitylab.ru/analytics/517592.php (дата обращения: 09.09.2021) – Загл. с экрана.
  5. Aburomman, A. A., Reaz, M. B. I. A novel SVM-kNN-PSO ensemble method for intrusion detection system : научная статья. – Текст : электронный. – 2016. – URL : https://www.sciencedirect.com/science/article/pii/S1568494615006328 (дата обращения: 12.05.2021).
  6. Aburomman, A. A., Reaz, M. B. I. Ensemble of binary SVM classifiers based on PCA and LDA feature extraction for intrusion detection: научная статья. – Текст : электронный. – 2016. – URL: https://ieeexplore.ieee.org/document/7867287 (дата обращения: 23.10.2020).
  7. Carneiro, J., Oliveira, N., Sousa N., Maia, E., Praça, I. Machine Learning for Network-based Intrusion Detection Systems: an Analysis of the CIDDS-001 Dataset: научная статья. – Текст : электронный. – 2021. – URL: https://arxiv.org/abs/2107.02753 (дата обращения: 13.09.2021).
  8. Hasan, M., Islam, M. M., Zarif, M. I. I., & Hashem, M. M. A. Attack and anomaly detection in IoT sensors in IoT sites using machine learning approaches: научная статья. – Текст: электронный. – 2019. – URL : https://www.sciencedirect.com/science/article/pii/S2542660519300241 (дата обращения: 17.11.2020).
  9. Al-Zewairi, M., Almajali, Sufya S., Ayyash, M. Unknown Security Attack Detection Using Shallow and Deep ANN Classifiers: научная статья. – Текст: электронный. – 2020. – URL: https://www.mdpi.com/2079-9292/9/12/2006 (дата обращения: 16.08.2021).
  10. Budiarto, R.,Alqarni, A.A., Alzahrani, M.Y., Pasha, M.F., Firdhous, M.F.M., Stiawan, D. User Behavior Traffic Analysis Using a Simplified Memory-Prediction Framework: научная статья. – Текст: электронный. – 2021. – URL: https://www.techscience.com/cmc/v70n2/44660 (дата обращения: 01.10.2021).
  11. Kim, S., Hwang, C., Lee T. Anomaly Based Unknown Intrusion Detection in Endpoint Environments: научная статья. – Текст: электронный. – 2020. – URL: https://www.mdpi.com/2079-9292/9/6/1022 (дата обращения: 18.09.2021).
  12. Huan Z. Malware Detection with Neural Network Using Combined Features: научная статья. – Текст: электронный. – 2019. – URL: https://link.springer.com/chapter/10.1007/978-981-13-6621-5_8 (дата обращения: 18.09.2021).

Интересная статья? Поделись ей с другими: