УДК 004.415.2

Разработка информационной системы мониторинга окружающей среды на примере г. Алматы, Казахстан

Семенов Михаил Евгеньевич – кандидат физико-математических наук, доцент кафедры экспериментальной физики Томского политехнического университета.

Алмасбекулы Батухан – магистрант Томского политехнического университета.

Аннотация: Научная статья посвящена актуальной на данной момент теме разработки информационной системы экологического мониторинга, сфокусированной на качестве воздуха в г. Алматы, Казахстан. Эта система использует анализ временных рядов, в частности модель ARIMA, для прогнозирования будущих параметров качества воздуха на основе исторических данных. Такой способ прогнозирования позволит получить ценную информацию о состоянии качества воздуха в Алматы и принять упреждающие меры по снижению рисков загрязнения воздуха.

Ключевые слова: модель ARIMA, экологический мониторинг, стационарность, прогнозирование, моделирование, индекс качества воздуха AQI.

Введение

Прогнозирование качества воздуха является активной областью исследований. В последние годы остро стоит проблема ухудшения качества воздуха в больших городах. Анализ временных рядов, в частности, широко используется благодаря своей эффективности в отражении временных зависимостей экологических данных. В настоящее время различными организациями, занимающимися контролем и оценкой качества воздуха, активно накапливаются исторические данные метеорологических показателей, включая информацию о загрязнении атмосферы. Это приводит к значительному увеличению объема данных, доступных для прогнозирования. В ряде исследований использовалась ARIMA. Например, Кумар и Джайн использовали модель ARIMA для прогнозирования уровней PM2,5 в Дели, Индия. [1] Точно так же Муника и Шастри успешно применили ARIMA для прогнозирования загрязнения воздуха в Вишакхапатнаме, Индия. [2]

Цель статьи – разработка информационной системы экологического мониторинга, сфокусированной на качестве воздуха в г. Алматы, Казахстан. Эта система будет использовать анализ временных рядов, в частности модель ARIMA, для прогнозирования будущих параметров качества воздуха на основе исторических данных.

Объекты и методы исследования

Основное внимание в этом исследовании уделяется проанализированным данным, полученным из aqicn.org – платформы, которая предоставляет подробную информацию об атмосферных условиях в городе Алматы. Набор данных содержит среднесуточные измерения загрязняющих веществ PM2.5, PM10, NO2 и CO. Вышеупомянутые загрязняющие вещества являются основными маркерами загрязнения атмосферы и потенциально могут привести к значительным последствиям для здоровья населения. Целью данного исследования является анализ структуры и тенденций загрязнения с целью получения всестороннего представления об условиях качества воздуха в городе Алматы. Конечная цель состоит в том, чтобы помочь в разработке эффективных стратегий борьбы с загрязнением воздуха и охраны здоровья населения.

Анализ временных рядов

Мы использовали подходы к анализу временных рядов для изучения основных закономерностей, тенденций и зависимостей загрязняющих веществ PM2.5, PM10, NO2 и CO из-за временного характера данных о качестве воздуха. Чтобы понять взаимозависимость и эффекты запаздывания внутри временных рядов, мы исследовали функции автокорреляции и частичной автокорреляции. [3]. Кроме того, мы использовали статистический анализ и визуальный осмотр графиков временных рядов, чтобы оценить стационарность данных. Чтобы установить стационарность, мы использовали соответствующие преобразования или разграничения по мере необходимости. Методы декомпозиции были использованы при анализе сезонности для определения сезонных элементов и закономерностей в данных. Этот этап облегчил выбор моделей, которые должным образом отражали временную динамику загрязняющих веществ.

Модели для прогнозирования

В данной работе мы использовали сложные методы прогнозирования, особенно модели ARIMA (Авторегрессионное интегрированное скользящее среднее) и SARIMA (сезонное авторегрессионное интегрированное скользящее среднее), для прогнозирования будущих уровней загрязнения в городе Алматы. Модель SARIMA включала сезонный компонент, учитывающий сезонные колебания временных рядов по загрязнителям, в то время как модель ARIMA включала только компоненты авторегрессии и скользящего среднего. Поиск по сетке и итеративная подгонка модели были объединены для получения наилучших параметров модели. Прогнозы были составлены с использованием моделей после того, как они были обучены с использованием предыдущих данных о загрязнении. Мы смогли предвидеть уровни загрязняющих веществ в желаемые будущие промежутки времени благодаря методу прогнозирования, который включал повторные вычисления на основе ранее наблюдаемых значений и параметров модели. [4]

Проверка АПД на стационарность

Для оценки стационарности разностных временных рядов был использован расширенный тест Дики-Фуллера (ADF). Расширенный тест Дики-Фуллера (ADF) является распространенным статистическим тестом, используемым для установления существования единичного корня, который указывает на нестационарность данных. Оценка включает в себя вычисление авторегрессионной модели для разностных рядов с последующей оценкой статистической значимости оцениваемых параметров.

Статистика расширенного теста Дики-Фуллера (ADF) может быть выражена как t = (α̂ - 1) / SE(α̂), где α̂ представляет оценку коэффициента, полученную с помощью метода наименьших квадратов, а SE(α̂) обозначает стандартную ошибку оценки коэффициента методом наименьших квадратов, полученной из регрессионная модель. [5]

Значение p, связанное со статистикой расширенного теста Дики-Фуллера (ADF), вычисляется с использованием оценочных значений p Маккиннона. При рассмотрении нулевой гипотезы можно заметить, что асимптотическое распределение тестовой статистики не соответствует стандартному распределению. Маккиннон использует аппроксимации поверхности отклика на моделируемых данных, чтобы получить приблизительное значение p для любого заданного значения статистики теста ADF.

Критические значения, относящиеся к выполненному тесту Дики-Фуллера (ADF), были установлены Маккинноном (2010). Автор представил исчерпывающую формулу для определения критического значения для трех различных уровней значимости, а именно 0,01, 0,05 и 0,1.

Тест ADF был использован для каждой серии загрязняющих веществ (PM2.5, PM10, NO2, CO) в отдельности, что привело к следующим результатам, рассматривается в Таблице 1.

Таблица 1.

Pollutant

ADF Statistic

ADF p-value

ADF Critical Values

PM2.5

-10.5207

9.6997e-9

1%: -3.4367

5%: -2.8643

10%: -2.5683

PM10

-13.7376

1.1098e-25

1%: -3.4425

5%: -2.8669

10%: -2.5696

NO2

-13.8838

6.1416e-26

1%: -3.4425

5%: -2.8669

10%: -2.5696

CO

-9.7989

6.0682e-17

1%: -3.4427

5%: -2.8670

10%: -2.5697

Прогнозирование

Основываясь на оцененных параметрах модели, мы провели прогноз предстоящих уровней загрязняющих веществ, включая PM2.5, PM10, NO2 и CO. Используя модели ARIMA и SARIMA, мы подготовили прогнозы на предстоящие временные интервалы, основанные на предшествующих данных о качестве воздуха. Итеративные расчеты с использованием уравнений модели и имеющихся исторических данных были неотъемлемой частью процесса прогнозирования. Использование этого метода позволило нам спрогнозировать концентрацию загрязняющих веществ в предстоящий период и заранее спланировать атмосферные условия в городской черте Алматы. [6]

Оценка эффективности работы

Для оценки эффективности моделей прогнозирования был использован ряд показателей, при этом особое внимание уделялось среднеквадратичной ошибке (RMSE). Среднеквадратичная ошибка (RMSE) служила показателем для количественной оценки типичной величины расхождений между прогнозируемыми и наблюдаемыми концентрациями загрязняющих веществ. Меньшие значения среднеквадратичной ошибки (RMSE) свидетельствуют о превосходной производительности модели в точном отражении колебаний данных о качестве воздуха. Кроме того, было бы разумно принять во внимание другие показатели эффективности, такие как средняя абсолютная ошибка (MAE) и средняя процентная ошибка (MPE), чтобы обеспечить всестороннюю оценку точности и надежности моделей прогнозирования. [7]

Аналитические выводы

Анализ и расчеты, полученные на основе обработанных данных о качестве воздуха, позволили сделать важные выводы относительно атмосферных условий в городском районе Алматы. Изучив прогнозируемые уровни загрязняющих веществ, мы смогли выявить тенденции, закономерности и колебания в данных, тем самым облегчив наше понимание временной динамики загрязнения атмосферы. Вышеупомянутые наблюдения помогли выявить вероятные источники загрязнения, проанализировать концентрации загрязняющих веществ в установленные сроки и оценить эффективность мер, принятых для регулирования качества воздуха. Расчеты предоставили аналитическую информацию, которая была использована для облегчения процессов принятия решений, информирования о разработке политики и оказания помощи в охране общественного здоровья и улучшении качества воздуха в городе Алматы.

Заключение

Целью данного исследования являлось проектирование и разработка системы экологического мониторинга для прогнозирования качества воздуха в Алматы, Казахстан, с фокусом на четыре основных загрязнителя: PM2.5, PM10, NO2 и CO. В исследовании использовалась модель ARIMA, широко признанная статистическая техника для прогнозирования временных рядов. Первоначальные модели ARIMA обеспечили основу для оценки данных временного ряда. Однако производительность моделей значительно улучшилась после настройки параметров с помощью GridSearchCV. Корневая среднеквадратичная ошибка (RMSE), ключевая метрика оценки, продемонстрировала повышение точности прогнозирования для всех четырех загрязняющих веществ после настройки модели. Значения RMSE уменьшились для PM2.5, PM10, NO2 и CO, что означает лучшее соответствие модели и повышение надежности прогнозов качества воздуха. Хотя улучшения не всегда были значительными, влияние процесса тонкой настройки нельзя недооценивать. Полученные результаты подчеркивают важность тщательной настройки модели при составлении прогнозов временных рядов, особенно при прогнозировании качества воздуха, что имеет значительные последствия для здоровья населения и экологической политики. Несмотря на многообещающие результаты, есть место для дальнейших исследований. К этому набору данных можно применить различные модели или использовать методы ансамбля для потенциального повышения точности прогнозирования. Кроме того, включение в модель других внешних переменных, таких как погодные условия или данные о промышленной деятельности, может улучшить возможности прогнозирования. Данное исследование представляет собой важный шаг на пути к более точному прогнозированию качества воздуха в Алматы, Казахстан. Тем не менее, качество воздуха является глобальной проблемой. Конечной целью является создание более безопасной и здоровой среды обитания для людей во всем мире.

Список литературы

  1. Kumar, S., & Jain, PK (2018). Air quality forecasting using ARIMA model: a case study of Delhi, India. Environmental Science and Pollution Research, 25(22), 21730-21738.
  2. Mounika , M., & Sastry , TV (2019). Forecasting air pollution in Visakhapatnam, India using ARIMA model. Journal of Environmental Management and Tourism, 10(4), 814-823.
  3. Верзунов С.Н. Краткосрочное прогнозирование индекса качества воздуха на основе ARIMA-моделей / С.Н. Верзунов, Н.М. Лыченко // Математическое и компьютерное моделирование: сборник матер. VII межд. научн. конф. (22 ноября 2019 г.). Омск: Изд-во Омск. гос. ун-та, 2019.
  4. Бокс Дж., Дженкинс Г.М. Анализ временных рядов, прогноз и управление. М.: Мир, 1974. 406 с.
  5. Егошин А.В. Анализ и прогнозирование сложных стохастических сигналов на основе методов ведения границ реализаций динамических систем: Автореферат диссертации … канд. техн. наук. Санкт-Петербург, 2009. 19 с.
  6. Portnoff, R.S., Huang, D.Y., Doerfler, P., Afroz, S., McCoy, D.: Backpage and bitcoin: Uncovering human traffickers. In: SIGKDD, ACM (2017) 1595–1604
  7. Moser, M.and Bohme, R., Breuker, D.: An inquiry into money laundering tools in the bitcoin ecosystem. In: eCRS, IEEE (2013) 1–14.

Интересная статья? Поделись ей с другими: