УДК 004:543

Обзор методов интеллектуального анализа химического состава атмосферы

Бильгаева Людмила Пурбоевна – кандидат технических наук, доцент Восточно-Сибирский государственный университет технологий и управления.

Главинская Арина Александровна – магистрант Восточно-Сибирский государственный университет технологий и управления.

Аннотация: Статья посвящена обзору методов интеллектуального анализа данных для изучения химического состава атмосферы. В статье рассматриваются методы ассоциации и кластеризации. Методы ассоциации представлены классическими алгоритмами такими, как Apriori и FP-Growth. В качестве методов кластеризации рассматриваются методы разделения, иерархические методы, методы на основе плотности и методы на основе сетки.

Ключевые слова: интеллектуальный анализ данных, химический состав атмосферы, загрязнение воздуха.

Введение

С ростом объемов данных, получаемых из множества источников, представляющих замеры атмосферного воздуха в различных локациях определенных территорий, возникает необходимость эффективного исследования этих данных. Интеллектуальный анализ данных представляет собой мощный инструмент для выявления закономерностей в больших массивах данных. Состав атмосферы и проблемы, связанные с загрязнением воздуха, достаточно широко изучены, но с учетом постоянных изменений в окружающей среде, связанных с антропологическим воздействием на атмосферу и появлением современных технологических возможностей обработки данных, эта тема остается динамичной и требует постоянного внимания и исследований.

В данной статье предлагается выполнить обзор методов интеллектуального анализа химического состава атмосферы для выявления факторов, оказывающих влияние на уровень качества воздуха, а также определения локаций с наивысшими показателями чистоты воздуха в республике Бурятия.

Для проведения исследований по интеллектуальному анализу данных будут рассмотрены данные постов в городах Республики Бурятия: Улан-Удэ, Гусиноозерск, Селенгинск. Фрагмент набора данных, использованный для предварительного анализа, представлен по адресу http://www.burpogoda.ru/monitoring/zagryaznenie-atmosfernogo-vozduha

Интеллектуальный анализ данных

Интеллектуальный анализ данных можно использовать для решения многих задач, в которых фигурируют различные изменяющиеся с течением времени данные, в том числе и анализ химического состава атмосферы.

К методам интеллектуального анализа данных относятся методы классификации, ассоциации, кластеризации и прогнозирования.

Предварительный анализ данных по химическому составу атмосферы, фрагмент которого представлен на рисунке 1, позволяет предположить, что в дальнейшем будут проведены исследования с использованием методов ассоциации и кластеризации.

1

Рисунок 1. Фрагмент набора данных.

Методы ассоциации

Ассоциативный анализ или поиск ассоциативных правил – это метод обнаружения взаимосвязей и зависимостей между переменными в больших наборах данных.

Рассмотрим алгоритмы поиска ассоциативных правил.

Метод Apriori является наиболее распространённым алгоритмом поиска ассоциативных правил. Он основан на принципе априорного знания, который заключается в том, что если набор предметов часто встречается в данных, то любое его подмножество также часто встречается. Для этого алгоритма характерно заранее заданное требуемое число элементов в найденных шаблонах. Достоинствами алгоритма являются простота и быстрое уменьшение числа сгенерированных кандидатов, при установке высокой минимальной поддержки или относительно разреженном базовом наборе. Недостатками алгоритма является многократное сканирование базового набора, большое число сгенерированных кандидатов, при слишком большом наборе данных или при слишком низкой поддержке. Данный алгоритм эффективен только для небольших наборов, либо при высоком уровне минимальной поддержки [1, 4, 5].

Метод FP-Growth (Frequent Pattern Growth) является более эффективным алгоритмом по сравнению с Apriori. Главным отличием от алгоритма Apriori является то, что алгоритм FP-Growth использует структуру FP-дерева для компактного представления частых наборов в данных. Основными преимуществами данного алгоритма является: сжатие исходного набора данных в компактную структуру, которая обеспечивает наиболее эффективное и полное извлечение частых наборов; использование технология «разделай и властвуй» при построении FP-дерева, которая позволяет выполнить декомпозицию одной сложной задачи на множество более простых; выполнение генерации кандидатов за меньший промежуток времени [2, 4, 5].

Методы кластеризации

Кластеризация – это процесс разбиения набора объектов данных на подмножества. Каждое подмножество представляет собой кластер, причем объекты в одном кластере похожи друг на друга, но не похожи на объекты в других кластерах.

В литературе существует множество алгоритмов кластеризации. Сложно дать четкую классификацию методов, поскольку эти категории могут пересекаться, так что метод может иметь черты нескольких категорий. В целом, основные фундаментальные методы кластеризации можно разделить на следующие категории:

  • методы разделения;
  • иерархические методы;
  • методы, основанные на плотности;
  • методы на основе сетки.

Методы разделения осуществляют одноуровневое разбиение на множества данных. Основные методы разбиения обычно используют эксклюзивное разделение кластеров, т.е. каждый объект должен принадлежать ровно одной группе. Большинство методов разделения основаны на расстоянии.

Часто используемыми методами являются k-means и k-medoids.

Иерархический методы создают иерархическую декомпозицию заданного набора объектов данных. Иерархические методы можно классифицировать на агломеративные или дивизивные, в зависимости от того, как формируется иерархическая декомпозиция. Агломеративный подход, также называемый подходом "снизу-вверх", начинается с того, что каждый объект образует отдельную группу. Он последовательно объединяет объекты или группы, близкие друг к другу, пока все группы не будут объединены в одну (самый верхний уровень иерархии) или не наступит условие завершения. Дивизивный подход, также называемый подходом "сверху-вниз", начинается со всех объектов в одном кластере. На каждой последующей итерации кластер разбивается на более мелкие кластеры, пока в конечном итоге каждый объект не окажется в одном кластере или не будет выполнено условие завершения.

Иерархические методы кластеризации могут быть основаны на расстояниях или на плотности и непрерывности.

Общая идея методов, основанных на плотности, заключается в том, чтобы продолжать выращивать данный кластер до тех пор, пока плотность (количество объектов или точек данных) в "окрестности" превышает некоторый порог. Такой метод можно использовать для отсеивания шумов и выбросов, а также для обнаружения кластеров произвольной формы. Методы, основанные на плотности, могут разделять набор объектов на множество эксклюзивных кластеров или иерархию кластеров.

Методы на основе сетки используют структуру данных с многократным разрешением. Они квантует пространство объектов на конечное число ячеек, образующих структуру сетки, на которой выполняются все операции кластеризации [3, 5].

Краткая характеристика этих методов приведена в таблице 1.

Таблица 1. Методы кластеризации и их характеристики.

Метод

Общая характеристика

Методы разделения

Поиск взаимоисключающих кластеров сферической формы и на основе расстояний. Может использовать среднее значение или медиану для представления центра кластера. Методы эффективны для небольших и средних наборов данных.

Иерархические методы

Кластеризацию можно рассматривать, как иерархическую декомпозицию, т.е. несколько уровней. Невозможно исправить ошибочные слияния или разделения. Эти методы могут включать другие техники.

Методы, основанные на плотности

Эти методы позволяют строить кластеры произвольной формы, которые представляют плотные области объектов в пространстве и разделены областями с низкой плотностью. Каждая точка кластера должна иметь минимальное количество точек в ее "окрестности". Методы могут отсеивать промахи.

Методы на основе сетки

Использование структуры данных с многократным разрешением. Быстрое время обработки, которое не зависит от количества объектов данных, а зависит от размера сетки.

Некоторые алгоритмы кластеризации объединяют в себе идеи нескольких методов кластеризации, поэтому иногда трудно отнести тот или иной алгоритм только к одной категории методов кластеризации. Более того, некоторые задачи могут требовать интеграции нескольких методов кластеризации.

Заключение

В процессе обзора методов ассоциации и кластеризации были рассмотрены ключевые алгоритмы, их особенности. Некоторые методы объединяют в себе черты нескольких категорий, что подчеркивает необходимость гибкого подхода при выборе методов для конкретных задач.

Для анализа химического состава атмосферы поиск ассоциативных правил можно применить для обнаружения взаимосвязей между качеством воздуха и концентрацией веществ в нём, а кластеризацию для группировки схожих наблюдений химического состава атмосферы в различных локациях для выявления качества воздуха.

Список литературы

  1. Кириченко Д.О., Артемов М.А. Оптимизация входных данных в задаче поиска шаблонов и ассоциативных правил // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2014. № 4. с. 63-70.
  2. Пальмов С.В., Французова Е.Н. Алгоритмы поиска ассоциативных правил // Национальная ассоциация ученых (НАУ). 2016. № 10 (26). с. 27-28.
  3. Han, Jiawei. Data mining: concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. – 3rd ed, 2012. - 703 p.
  4. Agrawal, R.; Imieliński, T.; Swami, A. Mining association rules between sets of items in large databases // SIGMOD '93. p. 207-216.
  5. Aggarwal, C. Data Mining: The Textbook. Springer International Publishing Switzerland, – 734 p.

Интересная статья? Поделись ей с другими: