УДК 004.042

Создание системы анализа больших данных на объектах топливно-энергетического комплекса

Гафуров Иван Анатольевич – магистрант Института цифровых технологий и экономики Казанского государственного энергетического университета.

Ситников Сергей Юрьевич – кандидат технических наук, доцент кафедры Института цифровых технологий и экономики Казанского государственного энергетического университета.

Аннотация: В статье рассматривается создание системы анализа больших данных для прогнозирования отказов оборудования на объектах ТЭК. Методом исследования был выбран эксперимент. В результате была разработана система, которая обеспечивает хранение и анализ больших данных. Данная система обеспечивает приемлемый уровень прогнозирования, отказоустойчивость и масштабируемость.

Ключевые слова: большие данные, отказоустойчивость, масштабируемость, обнаружение аномалий.

Отслеживание технического состояния и эффективности эксплуатации производственного оборудования является актуальной задачей для всех предприятий ТЭК. Решение данной проблемы в данной практической работе будет рассмотрено на примере газовых и паровых турбин. На электрических станциях Российской Федерации в настоящее время широко эксплуатируются паровые турбины разной мощности и разных заводов-изготовителей. Основная часть из них выработала свой проектный ресурс, но продолжает нести нагрузку.

Для прогнозирования отказов оборудования используется нейросеть, предварительно обученная на данных, которые содержат случаи отказа и поломок оборудования, используя предиктивный анализ. В качестве технологий на этом этапе используется аналитический инструментарий Spark: язык запросов к базе данных, создание потоков данных для машинного обучения. Для машинного обучения и анализа аномалий применяются нейросетевые технологии, в частности алгоритм Isolation Forest, реализованный с помощью библиотеки TensorFlow,.

В качестве базы данных используется Cassandra, которая обеспечивает быструю скорость на запись данных и их агрегацию и последующий анализ. При этом все незначительные или поврежденные данные игнорируются.

1

Рисунок 1. Архитектура системы анализа больших данных.

Выше приведена архитектура системы. Программа, написана на языке Java. Ее работа разбита на несколько этапов:

  1. Входной точкой является система обработки больших данных, которая поставляет уже структурированные и фильтрованные данные в режиме реального времни, в частности информацию об операциях оборудования;
  2. NoSQL-СУБД Cassandra хранит информацию об операциях оборудования в 3-х таблицах: сама операция, метрики и результаты анализа;
  3. Данные во все таблицы Cassandra вносят задания Apache Spark Structured Streaming;
  4. При запуске нового анализа, входные данные сохраняются в Cassandra, а сообщение об этом записывается в топик Kafka под названием equipment_operation, включая идентификатор операции на оборудовании, идентификатор оборудования и список ML-моделей вывода для запуска;
  5. Сообщение из Kafka используется Spark-заданием, которое отвечает за извлечение отдельных показаний датчиков на оборудовании из предоставленной технологической операции, а также за их постановку в очередь в топике показаний датчиков (sensor_signal) Kafka. Остальные задания Spark также используют этот топик с показаниями датчиков, который содержит идентификатор операции, идентификатор оборудования, номер показания датчика, закодированное в base64 (буфер), временную метку показания датчика в технологической операции и список ML-моделей для запуска;
  6. Spark-задание анализа технологической операции использует модели глубокого обучения (Deep Learning) для учета в прогнозировании каждого извлеченного показания датчика и сохранения их в Cassandra;
  7. Для отображения результатов анализа будет использоваться инструмент визуализации Tableau.

Для простоты развертывания и сопровождения каждый компонент решения (Apache Kafka, Spark и Cassandra) упакован в Docker-контейнер. Взаимодействие с пользователем происходит в рамках веб-интерфейса приложения Tableau для интерактивной визуализации данных.

Для прогнозирования отказов оборудования используется метод обнаружения аномалий в данных, в качестве реализации выбран алгоритм Isolation Forest – неконтролируемого метода обнаружения аномалий.

Isolation Forest, аналогичный случайным лесам, строится на основе деревьев решений. А поскольку в используемых данных нет предопределенных меток, это неконтролируемая модель.

В нашем случае отобранные данные обрабатываются в древовидной структуре на основе случайно выбранных признаков. Образцы, которые перемещаются глубже в дерево, с меньшей вероятностью будут аномалиями, поскольку для их изоляции требуется больше разрезов. Точно так же образцы, которые заканчиваются более короткими ветвями, указывают на аномалии, поскольку дереву было легче отделить их от других наблюдений.

2 1

Рисунок 2. Результаты анализа аномалий.

После обработки с помощью инструмента визуализации Tableau получаем график выше, отражающий аномалии в данных, полученных от работающего оборудования, данные аномалии совпадают с временными промежутками в которых оборудование не функционировало, либо требовало настройки.

Данный программный комплекс позволит на основе больших данных прогнозировать возможности отказов, простоев и неполадок, что позволит планировать мероприятия по обслуживанию оборудования для предотвращения простоев, уменьшить затраты на его обслуживание и продлить срок службы. При этом система обеспечивает высокую надежность и легкость масштабирования.

Список литературы

  1. Bart Baesens, Analytics in a Big Data World: The Essential Guide to Data Science and its Applications. New Jersey: John Wiley & Sons, Inc., 2014. – p. 35-71.
  2. Marz N., Warren J. Big Data: Principles and Best Practices of Scalable Realtime. New York: Manning Publications Co., 2015. – p. 225-241.
  3. Клеппман M. Высоконагруженные приложения – программирование, масштабирование, поддержка. СПб: Питер, 2017. – 95-101 с.
  4. Плотникова Л.В., Байнов А.М., Ситников С.Ю. Программное обеспечение системы управления техническим состоянием основного оборудования тепловых электростанций [Электронный ресурс]. URL: http://www.ivdon.ru/uploads/article/pdf/IVD_12__1_2021_plotnikova_bainov_sitnikov.pdf_334dc58cf3.pdf (дата обращения: 04.03.21).
  5. Plotnikova L.V., Bainov A.M., Torkunova Y.V., Nadezhdina M.E. Digitalizing the Process of Tracking Technical Condition of the Main Equipment of Energy Providing Enterprises // SHS Web of Conferences. 2021, V. 93. P. 1020. URL: https://www.shs-conferences.org/articles/shsconf/pdf/2021/04/shsconf_nid2020_01020.pdf.
  6. Mandic D.P., Chambers J.A. Recurrent neural networks for prediction. NewYork: John Wiley and Sons, Inc., 2001. P. 171-198.

Интересная статья? Поделись ей с другими: