УДК 005

Классификация безопасности Big Data на основе веб-языка онтологий

Голубятников Артем Олегович – студент кафедры защищенных систем связи Санкт-Петербургского государственного университета телекоммуникаций имени профессора М. А. Бонч-Бруевича.

Аннотация: Огромный объем данных (известный как Big Data) теперь может собираться и храниться из различных источников данных, включая журналы событий, Интернет, смартфоны, базы данных, датчики, облачные вычисления и устройства Интернета вещей (IoT). Термин «безопасность Big Data» относится ко всем гарантиям и инструментам, используемым для защиты как данных, так и аналитических процессов от вторжений, краж и других враждебных действий, которые могут поставить их под угрозу или отрицательно повлиять на них. Помимо того, что защита Big Data является ценной и желательной целью, она сталкивается с особыми трудностями. Безопасность Big Data принципиально не отличается от традиционной безопасности данных. Проблемы безопасности Big Data вызваны скорее внешними различиями, чем фундаментальными. В этом исследовании подробно описываются многочисленные трудности безопасности, с которыми сейчас сталкивается аналитика Big Data, и поощряются дополнительные совместные исследования для решения обеих проблем безопасности Big Data с использованием веб-языка Ontology (OWL). Хотя в этом эссе мы фокусируемся на проблемах безопасности Big Data, мы также кратко остановимся на более широких проблемах Big Data. Предлагаемая классификация безопасности Big Data, основанная на онтологическом веб-языке, созданном на основе программного обеспечения-протеже, имеет 32 класса и 45 подклассов.

Ключевые слова: Big Data, Big Data Security, информационная безопасность, безопасность данных, веб-язык онтологий.

1. Введение

Возможность собирать и хранить огромные объемы данных (так называемая Big Data) из различных источников данных, включая журналы событий, Интернет, смартфоны, базы данных, датчики, устройства IoT и т. д., стала возможной благодаря технологическим достижениям последних лет. [1]. Эти данные собираются, изучаются и сравниваются друг с другом для получения значимой информации, которая часто используется при принятии решений.

Системы управления реляционными базами данных и настольное/статическое программное обеспечение неэффективны для обработки Big Data; вместо этого необходимо программное обеспечение с массовым параллелизмом, работающее на десятках тысяч или даже миллионах серверов. Огромное внимание, которое уделяется Big Data, в большей степени связано с тем, что анализ только одного большого набора связанных данных может дать гораздо больше информации, чем анализ меньших отдельных наборов с тем же общим объемом данных, что позволяет найти корреляции. Это позволяет вам выявлять тенденции в бизнесе, оценивать уровень исследований, прогнозировать распространение болезней, предотвращать болезни, бороться с преступностью и многое другое.

Термин «безопасность Big Data» относится ко всем гарантиям и инструментам, используемым для защиты как данных, так и аналитических процессов от вторжений, краж и других враждебных действий, которые могут поставить их под угрозу или отрицательно повлиять на них. Помимо того, что защита Big Data является ценной и желательной целью, она сталкивается с особыми трудностями. Безопасность Big Data по сути не отличается от традиционной безопасности данных. Проблемы безопасности Big Data вызваны скорее внешними различиями, чем фундаментальными.

Типичным определением онтологии является «явная спецификация концепции» [2]. Это указывает на то, что представление спецификации предлагает формальную семантику спецификации и что онтология позволяет определять концепции и взаимодействия между этими концепциями. Из всех распространенных моделей представления знаний онтологии имеют самый высокий уровень семантического богатства [2]. Хотя ни одна из этих моделей не достигает того уровня семантического богатства, который обеспечивают онтологии, они основаны на моделях, которые будут объяснены в последовательности увеличения степени семантического богатства. Из всех перечисленных выше моделей глоссарий обладает наименьшим семантическим богатством. Глоссарий – это список слов в алфавитном порядке с их определениями, но без объяснения того, как эти слова связаны друг с другом. Таксономия – это модель вложенной классификации слов следующего уровня семантического богатства. Для описания отношений между словами используются супер- и суботношения. Эти отношения придают этим понятиям упорядоченность общности. Тезаурус – это расширенная таксономия. Тезаурус объясняет все возможные отношения слов. Модель, которая больше всего напоминает онтологию, – это тематическая карта. Абстрактной моделью и форматом данных для создания структур знаний является тематическая карта. Отношения между различными темами описываются через ассоциации, основанные на тезаурусе. Кроме того, карты тем могут содержать внешние документы, встроенные посредством вхождений [3].

Хотя в этом эссе мы фокусируемся на проблемах безопасности Big Data, мы также быстро рассмотрим общие проблемы, связанные с Big Data.

1.1. Характеристики Big Data

Объем, Разнообразие, Скорость, Достоверность, Ценность, Вариативность, Исчерпывающий, Детализированный и уникально лексический, Реляционный, Экстенсиональный и Масштабируемость – это характеристики, которые лучше всего представляют Big Data, как показано на рисунке 1.

1.2. Технологии Big Data

Существует несколько инструментов для оценки Big Data, включая A/B-тестирование, машинное обучение и обработку естественного языка. Базы данных, облачные вычисления, бизнес-информация и визуальные элементы, такие как графики и диаграммы, как показано на рисунке 2.

image1

Рисунок 1. Характеристики Big Data.

image2

Фигура 2. Технологии Big Data.

1.3. Приложения для Big Data

Правительство, международное развитие, здравоохранение, образование, средства массовой информации, страхование, Интернет вещей и информационные технологии – это отрасли, которые больше всего используют Big Data, как показано на рисунке 3.

1.4. Жизненный цикл Big Data

На протяжении жизненного цикла Big Data существуют различные этапы работы с данными. Ниже приведены эти этапы: интеграция данных, хранение и администрирование, обработка и анализ данных, как показано на рисунке 4.

2. Требования к безопасности Big Data

Управление информационной безопасностью при одновременном контроле огромных и быстрых потоков данных – одна из трудностей в сфере Big Data. Поэтому технологии безопасности должны быть.

image3

Рисунок 3. Приложения для Big Data.

image4

Рисунок 4. Жизненный цикл Big Data.

адаптируемый и простой в масштабировании, чтобы облегчить интеграцию будущих технологических достижений и корректировку потребностей приложений.

Необходимо найти компромисс между различными требованиями безопасности, обязанностями по конфиденциальности, эффективностью системы и быстрым динамическим анализом различных массивных наборов данных (данные в движении или статические, частные и общедоступные, локальные или общие и т. д.).

3. Проблемы безопасности Big Data

Согласно [3][4], существует два основных компонента безопасности в контексте Big Data: информационная безопасность и безопасность данных, как показано на рисунке 5.

Безопасность Big Data обычно направлена на обеспечение мониторинга в реальном времени для выявления рисков безопасности, уязвимостей и аномального поведения; детальный контроль доступа на основе ролей; надежная защита личной информации; и создание показателей эффективности безопасности. В случае инцидента безопасности это способствует быстрому принятию решений. Трудности в достижении этих целей перечислены и объяснены в следующих разделах.

4. Защита данных Big Data

Организации вынуждены искать инновационные способы производства и доставки ценности клиентам посредством управления цепочками поставок из-за быстрого роста мировой экономики и улучшения использования клиентами информационных технологий [4]. Предприятия будут более успешными, если они будут сотрудничать с другими предприятиями для сокращения затрат, производства высококачественных товаров и максимизации добавленной стоимости от обслуживания своих клиентов. Кроме того, утверждалось, что компания будет более конкурентоспособной, если она передаст часть своего производства компаниям, не связанным с ее основной отраслью.

По мнению Арльбьерна и др., цепочка поставок услуг. [5] – это широкое понятие, включающее компании, которые занимаются поставкой запасных частей, сторонними поставщиками, финансами, страхованием, розничной торговлей и государственными услугами. Определение системы цепочки поставок услуг – это сеть поставщиков, поставщиков услуг, потребителей и других вспомогательных единиц, которые осуществляют транзакции с использованием ресурсов, необходимых для производства услуг, преобразуют эти ресурсы в вспомогательные и основные услуги и предоставляют эти услуги клиентам. [3]. Финансы, телефония, интернет-услуги, мобильные приложения и туризм входят в число секторов сферы услуг, представленных в цепочке поставок услуг [5]. Поставщик услуг должен проявлять творческий подход к разработке предложений, которые отличают его от конкурентов [1]. Сканируя бизнес-среду, корпорация может успешно реализовать цепочку поставок услуг, понимая бизнес-процессы, сети цепочек поставок, а также потребности и желания конечных пользователей.

image5

Рисунок 5. Проблемы безопасности Big Data.

В свете того факта, что как внутренние, так и внешние элементы оказывают влияние на расходное поведение клиента, [1] определяет сканирование среды как процесс сбора и применения информации о событиях, тенденциях и отношениях во внутренней и внешней среде организации. Статус-кво, образование, занятость и религия – вот несколько примеров внутреннего влияния. Внешние элементы включают экономику, окружающую среду, семью и друзей [2] [3]. Компания должна время от времени оценивать данные о потребителях, которые были разделены на различные сегменты, чтобы включить как текущих, так и потенциальных клиентов. Корпорация должна приложить немало усилий, чтобы точно предсказать желания клиентов, поскольку сегментация рынка часто меняется [2]. Чтобы добиться снижения операционных расходов, работа цепочки поставок услуг должна быть быстрой и адаптируемой в ответ на потребительский спрос [3]. Создание структуры для измерения эффективности цепочки поставок окажет большое влияние на выявление факторов успеха, узких мест, потерь, операционных проблем, потребностей клиентов, которые должны быть удовлетворены, эффективных бизнес-процедур, принятия фактических решений, отслеживания прогресса и внесения предложений по улучшению [4 ] [5].

Гаванкар и др. [5] утверждает, что дальнейшие исследования по-прежнему необходимы для измерения эффективности цепочки поставок, чтобы продвинуться в изучении и применении. В результате, чтобы разделить сегментацию рынка и прогнозирование спроса с помощью инновационных возможностей цепочки поставок, управление цепочкой поставок услуг требует надежных технологий для анализа данных [1]. Сервисные компании используют аналитику Big Data на основе структурированных и неструктурированных данных, чтобы повысить эффективность цепочки поставок услуг и повысить эффективность работы компаний для оптимизации бизнеса за счет инноваций. Таким образом, технология Big Data стала важным компонентом корпоративных операций и стратегии, чтобы предвидеть и удовлетворять потребности современных клиентов.

Повышенная гибкость, оперативность, обслуживание клиентов и надежность – это лишь некоторые из преимуществ, которые аналитика Big Data предлагает поставщикам услуг [2]. Внедрение аналитики Big Data имеет решающее значение для логистики и операций цепочки поставок, поскольку повышение эффективности цепочки поставок зависит от своевременного и точного выбора цепочки поставок. Эффект кнута в цепочке поставок, который приводит к неэффективности каналов сбыта, можно устранить с помощью анализа Big Data. [3] утверждает, что, поскольку возможности прогнозной аналитики Big Data четко не определены, ее потенциальное влияние на производительность цепочки поставок может быть ограничено.

Существует потребность в эмпирических публикациях, посвященных анализу Big Data, который снижает стандартные отклонения (дисперсию спроса) и добавляет сигнальный аспект в прогнозирование [1]. Тем не менее, ученые и бизнес начали обращать внимание на то, как предприятия используют анализ Big Data, особенно когда возникли опасения по поводу безопасности и конфиденциальности данных. Поставщики услуг собирают информацию в виде видеофайлов, обновлений статуса, лайков, репостов, подписок, ретвитов и комментариев из каналов социальных сетей, которые являются открытыми источниками.

Кроме того, анализ Big Data может использовать информацию из систем управления взаимоотношениями с клиентами и систем планирования ресурсов предприятия. Значительный объем данных, полученных из многих источников, сопряжен с угрозами конфиденциальности и безопасности из-за доступности данных как в структурированных, так и в неструктурированных форматах. Большинство предприятий имеют ограничения на систематические подходы к обеспечению соответствующих механизмов доступа к данным, а существующие решения по обеспечению безопасности, не связанные с Big Data, часто не предназначены для обработки масштаба, скорости, разнообразия и сложности Big Data [2]. В результате сервисным компаниям не хватает аналитических инструментов и методов для получения полезной информации из данных для разработки стратегии и улучшения качества обслуживания и эффективности бизнеса [5].

Несмотря на то, что аналитика Big Data может помочь в процессах принятия решений и управления цепочками поставок, многие предприятия столкнулись с трудностями при внедрении этой технологии. Для этого существуют различные причины. Одной из причин, по которой предприятия не решаются использовать Big Data, является нехватка сотрудников, обладающих необходимым опытом для проведения анализа. Во-вторых, не проводилось большого количества исследований того, как приложения Big Data могут повлиять на цепочки поставок (Уоллер и Фосетт [4]). Доступная в настоящее время литература по этой теме несколько недооценена [3], несмотря на то, что аналитика Big Data полезна для поддержки сервисных организаций в создании новых продуктов и услуг.

5. Информация о безопасности Big Data

В эпоху Big Data читатели сегодня предпочитают электронные литературные ресурсы бумажным. Национальная библиотека Китая сообщает, что к ее электронным литературным ресурсам обращаются более 7 миллионов раз в год, тогда как ее печатные ресурсы берут только от 200 000 до 80 000 человек [4]. Приложения Big Data в библиотеках сталкиваются со сложной проблемой: как управлять и использовать литературные ресурсы.

Интеграция имеет решающее значение для литературных источников, используемых в статьях. Чтобы интегрировать и расположить эти ресурсы бумажной литературы в месте, которое читателям будет легко найти, библиотеки могут использовать данные датчиков для прогнозирования того, какие ресурсы бумажной литературы будут наиболее популярны среди читателей. Другие бумажные литературные ресурсы можно убрать из книжных шкафов или компактно сложить [4]. Библиотеки также могут рассчитать коэффициент использования на основе коэффициента заимствования, чтобы включить ресурс бумажной литературы. Для удовлетворения потребностей читателей интегрированы бумажные литературные ресурсы. Оцифровка имеет решающее значение для ресурсов электронной литературы. Помимо объединения физических и цифровых библиотек, печатных и электронных литературных ресурсов, а также бумажных и электронных литературных ресурсов, оцифровка литературных ресурсов должна стимулировать совместное использование таких ресурсов.

Многие отрасли, включая страхование, телекоммуникации, социальные сообщества и другие, рассмотрели проблему оттока сотрудников. На сегодняшний день предложено множество методов решения проблемы прогнозирования оттока клиентов. Основные методы включают деревья решений 5, логистическую регрессию 3 и машины опорных векторов (SVM) 4. Чтобы спрогнозировать отток клиентов в предоплаченной мобильной телефонии, Archaux et al. [1] использовали SVM, а также оценивали эффективность SVM и ANN (искусственных нейронных сетей)6. Чтобы решить проблему прогнозирования оттока сотрудников, Ауэт предложил систему интеллектуального анализа данных, основанную на эволюционном обучении. Чтобы предсказать отток операторов связи, Идрис и др. [2] использовали случайный лес, ротационный лес, RotBoost и ансамбли украшения.

В своем исследовании трех методов интеллектуального анализа данных для прогнозирования оттока газетных служб Куссемент и ван ден Поел обнаружили, что метод случайного леса превзошел по эффективности логистическую регрессию и SVM. Все эти исследования посвящены использованию методов интеллектуального анализа данных для повышения точности моделей прогнозирования, но ни одно из них не учитывает, как социальные факторы влияют на текучесть пользователей.

Другой метод прогнозирования оттока пользователей – анализ социальных сетей (SNA). 7. Анализ социальных сетей может помочь улучшить текущие модели оттока пользователей, изучая модели общения пользователей. В качестве иллюстрации Нгонманг создал надежную статистическую модель для расчета вероятности того, что пользователь покинет социальную сеть, на основе свойств графа. Чтобы спрогнозировать возможные оттоки, Dasgupta et al. [3] оценили вероятность оттока пользователей на основе соседей, которые уже покинули систему. Одной из форм СНС, которую также можно рассмотреть, является распространение информации.

Чтобы улучшить эффективность прогнозирования оттока клиентов, Фадке и Чжан и др. [4] приняли модель распространения, ориентированную на получателя, и модель распространения, ориентированную на отправителя, соответственно. Однако Кусума продемонстрировал, что метод SNA обычно не применим и что прогнозирование оттока европейских пользователей предоплаты не может быть эффективно улучшено. Кроме того, в ходе углубленных исследований изучалось влияние и распространение информации. Майерс и др. [5] исследовали, как информация достигает узлов социальной сети, и количественно оценили внешние воздействия с течением времени, тогда как Гомес-Родригес сосредоточился на проблеме отслеживания каналов распространения и влияния через сети. В отличие от других исследований, наша работа представляет собой тщательную парадигму анализа оттока, которая учитывает как демографию подписчиков, так и социальное влияние. Наше исследование может не только выявить абонентов с сильными негативными влияниями и важными характеристиками, связанными с текучестью подписчиков, но также может предсказать вероятность оттока подписчиков. Наш анализ основан на реальных Big Data телекоммуникаций, а результаты более тщательны и убедительны.

6. Выводы

Big Data зарекомендовала себя. Правильно анализируя как потоковые, так и массивные массивы статических данных, мы можем добиться прогресса во многих областях науки и медицины и повысить прибыльность многих предприятий. Практически невозможно представить следующее приложение без потребления данных, создания данных и алгоритмов, управляемых данными. Безопасность, контроль доступа, сжатие, шифрование и соответствие требованиям представляют собой проблемы, которые необходимо решать методично, поскольку компьютерные среды становятся более доступными, среды приложений становятся сетевыми, а системные и аналитические среды совместно используются в облаке. Чтобы сделать обработку Big Data и вычислительную инфраструктуру намного безопаснее, в этом исследовании были изложены наиболее актуальные проблемы безопасности Big Data. В предложенной классификации безопасности Big Data, основанной на веб-языке онтологий, созданной программой-протеже, имеется 32 класса и 45 подклассов. Этот отчет побудит научно-исследовательское сообщество вместе сосредоточиться на проблемах, препятствующих повышению безопасности на платформах Big Data и предстоящих проектах.

Список литературы

  1. Красов А. и соавт. Использование методов математического прогнозирования для оценки нагрузки на вычислительные мощности сети IoT // 4-я Международная конференция по будущим сетям и распределенным системам (ICFNDS). – 2020. – С. 1-6.
  2. Гельфанд А. М. и др. Интернет вещей (IoT): угрозы безопасности и конфиденциальности //Актуальные проблемы инфотелекоммуникаций в науке и образовании (АПИНО 2021). – 2021. – С. 215-220.
  3. Гельфанд А. М. и др. Исследование распределенного механизма безопасности для устройств интернета вещей с ограниченными ресурсами //Актуальные проблемы инфотелекоммуникаций в науке и образовании (АПИНО 2020). – 2020. – С. 321-326.
  4. Косов Н. А. и др. Анализ методов машинного обучения для детектирования аномалий в сетевом трафике //Цифровизация образования: теоретические и прикладные исследования современной науки. – 2021. – С. 33-37.
  5. Косов Н. А., Тимофеев Р. С. Сравнение методов обучения свёрточных нейронных сетей //Актуальные проблемы инфотелекоммуникаций в науке и образовании (АПИНО 2021). – 2021. – С. 526-530.

Интересная статья? Поделись ей с другими: