УДК 004.85

Применение глубокого обучения с подкреплением для оптимизации систем энергопотребления

Карманов Александр Арсланович – магистр Департамента анализа больших данных и машинного обучения в экономике и финансах Финансового университета при правительстве РФ

Аннотация: В условиях глобального потепления, роста цен на энергоносители, вызванного энергетическим кризисом, оптимизация систем энергопотребления становится все более и более востребованной, как со стороны бизнеса, так и со стороны государств. Активная цифровизация в энергетической отрасли способствует внедрению технологий искусственного интеллекта для управления энергопотреблением. Целью данного исследования является минимизация затрат на электроэнергию на примере ледовой арены. Используя данные, полученные с датчиков интернета-вещей, необходимо разработать модель глубокого обучения с подкреплением, поддерживающую оптимальное состояние ледового покрытия. Результаты моделирования показывают, что применение алгоритмов обучения с подкреплением приводит к снижению потребления энергии.

Ключевые слова: энергопотребление, затраты, алгоритм, цифровизация.

Введение

Расходы на электроэнергию и обеспечение контроля климата внутри ледовых арен, а также их техническое содержание являются основными проблемами при строительстве и проектировании объектов такого типа.

[1] При использовании на уже построенных ледовых аренах современных технологий удается значительно сократить потребление энергии при одновременном уменьшении эксплуатационных расходов и обеспечении качества поддержания микроклимата внутри помещений.

Для внедрения управления холодильной установкой на ледовой арене, потребление которой составляет от 60 до 80% от всего объекта [1], на этапе предварительного планирования можно недорого установить интеллектуальную систему на основе IoT ("Интернет вещей").

Чтобы создать систему мониторинга и управления, к поверхности здания прикрепляются приборы IoT для выполнения важных задач. Иначе говоря, IoT-устройства устанавливаются на здании и внутри оборудования в непосредственной близости от внешней среды, и это не требует замены тяжелого и дорогостоящего оборудования для реализации интеллектуальной системы управления в эксплуатируемом здании. Кроме всего прочего, датчики и устройства управления IoT монтируются на поверхности объекта для сбора энергетической и климатической информации и интеллектуального управления объектом на основе этой информации. Концепция IoT заключается в использовании больших данных, благодаря которой осуществляется анализ об энергии и окружающей среде из большого количества данных, собранных с IoT-устройств за определенный период времени, в результате чего к системе управления могут быть применены наиболее эффективные рекомендации по энергосбережению. Система управления использует полученные, на основе проанализированных данных, рекомендации для обеспечения оптимальных условий эксплуатации объекта для потребителя при одновременном снижении расхода энергии. В настоящее время искусственный интеллект (ИИ) представляет собой наиболее широко используемую современную технологию для анализа данных. В настоящей статье применение глубокого обучения с подкреплением призвано оптимизировать энергопотребление ледовой арены и продлить срок эксплуатации холодильной установки.

В качестве окружающей среды агента, который учится управлять ступенями компрессора, необходимо получить предиктивную модель, обучая ее на собранных данных с датчиков IoT. Такой способ использования среды направлен на сходимость обучения агента.

Литературный обзор

Подобласть искусственного интеллекта, называемая глубоким обучением с подкреплением, объединяет обучение с подкреплением и глубокое обучение, технику обучения искусственных нейронных сетей [3]. Роботы программируются с помощью набора правил и инструкций, которые определяют, как они должны взаимодействовать с предметами в своем окружении в рамках традиционных методов манипулирования роботами. Этот подход эффективен для простых действий, но по мере увеличения сложности задач он становится все более сложным. Роботы могут манипулировать объектами в своем окружении с помощью процесса, называемого глубоким обучением с подкреплением, который позволяет им совершать ошибки и учиться на них. Глубокое обучение с подкреплением обеспечивает более гибкий и адаптируемый метод, позволяющий роботам учиться на опыте и изменять свое поведение [4,5]. Например, робот получает положительное подкрепление, если он успешно поднимает и перемещает объект в нужное место. Если он роняет предмет или не может перенести его в нужное место, то получает отрицательное подкрепление. Поскольку робот способен соотносить одни действия с хорошими результатами, а другие – с нежелательными, со временем он вырабатывает стратегию выполнения поставленной задачи [6]. Новизной данной работы является реализация управления компрессорами холодильной машины ледовой арены с помощью алгоритмов глубокого обучения с подкреплением. Однако стоит рассмотреть исследования в области управления энергопотреблением в системах охлаждения, вентиляции и кондиционирования (HVAC).

Оборудование для отопления, вентиляции и кондиционирования воздуха (HVAC) является одним из наиболее широко используемых и наиболее энергоемких систем в зданиях. Соответственно, оптимальное управление системами отопления, вентиляции и кондиционирования воздуха может улучшить потребление электроэнергии, снизить цены на электроэнергию и в то же время сократить выбросы экологически чистого газа. Оптимизация функций HVAC не является новой областью исследований. Он широко изучается как часть управления спросом (DR), которое также включает подходы к изменению использования электроэнергии и динамическому контролю ценообразования. Существующие методы повышения энергоэффективности систем отопления, вентиляции и кондиционирования воздуха в зданиях можно разделить на следующие категории: традиционные математические правила, основанные на моделях и управляемые данными (ИИ). Элементы управления, основанные на правилах, являются простыми эвристическими методами. Они, как правило, основаны на известных данных и основаны на мониторинге определенного «триггерного» параметра (например, температуры в помещении), на котором фиксируется пороговое значение для управления системой в соответствии с заранее определенной стратегией.

Так, например, в работе [8] исследовались управляющие алгоритмы на основе правил в нескольких типах домов в Финляндии, базирующиеся на ценах на электроэнергию для контроля заданной температуры в помещении (почасовая цена электроэнергии в реальном времени и предсказанная цена электроэнергии на предыдущий/следующий час). Было обнаружено, что алгоритм управления на основе предыдущих почасовых цен на электроэнергию является наиболее эффективным в большинстве исследованных случаев. По сравнению с эталонным сценарием (уставка температуры отопления в помещении равна 21,0 °C), максимальное общее потребление энергии и затраты, сэкономленные алгоритмами управления, составили около 3% и от 6% до 14%, соответственно, в заисимости от типа дома, системы распределения тепла и параметров, используемых алгоритмами. Тем не менее, стратегии аварийного восстановления на базе правил имеют то преимущество, что они просты. У них есть и несколько недостатков, обычно связанных с их слабой динамикой. Модели на основании правил может быть трудно поддерживать из-за возможных изменений в течение срока службы здания. Невзирая на отсутствие адаптивности, динамичности и предсказуемости, стратегии аварийного восстановления на основе правил составляют большинство коммерческих реализаций аварийного восстановления [9,10]

В основанных на модели алгоритмах управления некоторые из параметров прогнозируются, что приводит к более надежной, но сложной стратегии управления. Так, например были изучены алгоритмы управления HVAC на основе моделей для снижения общих затрат на энергию для конечных пользователей. [11]. Однако подходы на основе моделей имеют ограниченное практическое применение из-за трудности прогнозирующей модели и объема оперативной памяти, требуемой для оптимизации. Вычислительные сложности растут экспоненциально со сложностью здания и структуры энергетической сети [12,13]. В ряде исследований указывается на подходы на основе моделей, преодолевающие и превосходящие ограничения более простых систем управления на основе правил [14,15].

Напротив, методы ИИ, ориентированные на использование данных, обладают большей гибкостью [16] и могут влиять на производительность системы HVAC путем корректировки параметров управления (например, температуры), используя исторические данные о работе здания и количестве людей в нем, а также данные об окружающей среде (например, о погоде). Такая гибкость обусловлена способностью алгоритмов машинного обучения обучаться на основе исторических эксплуатационных данных здания и соответствующим образом регулировать функции HVAC. В дополнение к этому, по сравнению, например, с традиционными моделями, основанными на правилах, подходы на основе данных требуют меньше экспертных знаний и не описывают физическую динамику здания.

Во многих исследованиях, опирающихся на данные, используют методы контролируемого машинного обучения. К примеру, в [17] была применена глубокая детерминированная политика градиента (DDPG) к краткосрочному потреблению энергии в системах HVAC для отопления и охлаждения в небольших офисах [17]. Сообщается, что предложенная модель дает более точный результат, чем обычные модели контролируемого обучения, такие как метод опорных векторов (SVM) и нейронные сети (NN). Крупные коммерческие здания были исследованы Риной [7], где моделирование структурных уравнений (SEM) было представлено для улучшения прогнозирования температуры в пределах области с целью создания энергоэффективных систем HVAC.

Изучение поведения жильцов и их взаимодействия с системами HVAC также может способствовать лучшему тепловому комфотру для жильцов при экономии энергии. В работе Raza et al. разработана модель машинного наклона для отопления в помещениях, которая может определить поведение человека, приводящее, как правило, к потерям энергии в системах HVAC [18].

Анализ влияния разнообразных моделей предсказания занятости с использованием методов машинного обучения был выполнен Эсрафилианом-Наджафабади [19]. Несколько методов машинного обучения (деревья решений, kNN, многослойный персептрон и замкнутые рекуррентные блоки) были использованы для предсказывания типов и моделей занятости и обеспечения точных и надежных оценок эффективности модели занятости для связи с системами управления HVAC. Некоторые модели машинного обучения под наблюдением: машины опорных векторов (SVM), искусственные нейронные сети (NN), логистическая регрессия (LR), линейный дискриминантный анализ (LDA), метод ближайшего соседа (KNN) и деревья классификации предложены Чоудхури для прогнозирования уровня комфорта пассажиров [20].

Материалы и методы

В этой статье была создана интеллектуальная IoT-система для реального здания ледовой арены. Одним из важных аспектов этой работы является исследование работы сложной энергетической системы ледовой арены, для того чтобы определить важность отдельных признаков для обучения модели среды агента и правильно определить функцию вознаграждения в контексте обучения с подкреплением.

Установка холодильная машина состоит из разных элементов (рисунок 1):

компрессоры, чья работа направлена на поддержание пониженного давления и определенной температуры в испарителе, чтобы позволить жидкому хладагенту испаряться при температуре ниже средней вокруг испарителя, что в конечном итоге приводит к поглощению тепла;
испаритель;
конденсатор;
регулирующий клапан;
система управления.

В компрессоре пар приобретает высокое давление и температуру выше температур охлаждающей среды, в связи с чем тепло выделяется в конденсатор.

Рисунок 1. Устройство холодильной машины.

В процессе теплообмена с хладагентом хладагент поступает в охлаждающие трубки, откуда передает холод на поверхности льда. По завершении процесса конденсации хладагент в жидком состоянии выпускается через регулирующий клапан обратно в испаритель под давлением. Следовательно, для оптимизации регулируемого использования агрегата компрессорные насосы состоят как минимум из 2 компрессоров.

Рисунок 2. Взаимодействие между агентом и средой в марковском процессе принятия решений.

Марковский процесс принятия решений лежит в основе обучения в результате взаимодействия для достижения цели. Объект, который обучается и принимает решения, называется агентом. Агент, непрерывно взаимодействуя с окружающей средой, осуществляет выбор действия, что приводит к изменению этой среды. Ее реакция на стратегию агента выражается в виде вознаграждения. Задача агента сводится к максимизации награды путем выбора оптимальных действий.

А ожидаемые вознаграждения для состояния-действие-следующее состояние как функцию от трех аргументов

Фактор дисконтирования определяет ценность будущих вознаграждений с точки зрения текущего временного шага: награда за действие, полученная сейчас, спустя временных шагов будет в меньше, чем в будущем. Если коэффициент дисконтирования меньше единицы, то в пределе ожидаемая награда примет конечное значение. Если данный коэффициент равен нулю, то такого агента называют близоруким, т.е. он использует жадную стратегию, максимизируя немедленное вознаграждение. Но зачастую такой подход снижает ожидаемую награду в силу близорукости данной стратегии. Когда коэффициент дисконтирования стремится к единице, то влияние будущих вознаграждений на ожидаемое вознаграждение увеличивается.

Ожидаемая награда на соседних временных шагах связана друг с другом:

[23] Большинство алгоритмов обучения с подкреплением используют функцию ценности – это функция состояний (или пар состояние – действие), которые показывают оптимальность нахождения агента в текущем состоянии или насколько данное действие оптимально для текущего состояния.

Функция ценности состояния при стратегии определяется:

для всех , где – математическое ожидание случайной величины, при условии того, что агент придерживается стратегии , а t – произвольный временной шаг. Ценность последнего состояния всегда равна нулю.

Тогда функция ценности действия при стратегии :

Основополагающее свойство функций ценности в обучении с подкреплением, лежит в том, что они имеют рекуррентный характер. Для любой стратегии и любого состояния s можно выразить уравнение, описывающее связь между ценностью состояния s и ценностями возможных будущих состояний:

для всех

Описанное выше равенство называется уравнением Беллмана для функции ценности состояния . Данное выражение описывает соотношение между ценностью состояния и ценностями следующих за ним состояний. Грубо говоря, ценность начального состояния должна быть равна ценности следующего ожидаемого состояния плюс полученное в процессе вознаграждение.

Уравнение Беллмана лежит в основе многих способов вычисления, аппроксимации и обучения .

Используемый здесь алгоритм RL называется двойной глубинной Q-сетью (double DQN). В Q-обучении [21] выбор наилучшего действия осуществляется путем вычисления качества всех действий в текущем состоянии и выбора действия, максимизирующего значение функции качества (Q-функции).

В двойном DQN [22] значения Q-функции оцениваются и обновляются с помощью двух глубоких нейронных сетей: Q-сети и целевой сети. Q-сеть принимает наблюдения из окружающей среды в качестве входных данных и возвращает Q-значения для каждого действия в качестве выходных. В качестве наилучшего действия выбирается действие с наибольшим значением из Q-сети.

Обучение Q-сети проводится с помощью целевой сети и воспроизведения опыта [23]. На каждом шаге исходное состояние (), выбранное действие (), а также вознаграждение () и результирующее состояние (), хранятся в базе данных воспроизведения опыта. Q-сеть обновляется на основе случайных мини-пакетов этих данных путем вычисления дисконтированной награды () с уравнением (9).

где является немедленным вознаграждением после совершения действия, γ является фактором дисконтирования, определяющим важность будущих вознаграждений, – параметры Q-сети и параметры целевой сети. Это означает, что Q для будущих действий оценивается с помощью целевой сети, тогда как действие выбирается путем максимизации Q-сети. Целевая сеть, в свою очередь, периодически обновляется путем копирования параметров из Q-сети.

Чтобы иметь возможность постоянно учиться, алгоритм должен балансировать между эксплуатацией (выбором тех действий, с помощью которых он уже научился получать наилучшие результаты) и исследованием (пробными действиями, которые еще не протестированы). Это реализуется с помощью ε-жадной стратегии: с вероятностью ε вместо оптимального на основе текущей Q-функции совершается случайное действие.

На рисунке 3 показан реализованный пример обучения с подкреплением для нахождения наилучших заданных значений заданного значения температуры толщи ледового покрытия через 30 минут для достижения оптимального вознаграждения (поддержка уставки – 3.5°С).

Рисунок 3. Пример обучения с подкреплением для нахождения наилучших заданных значений заданного значения температуры толщи ледового покрытия.

Результаты

В данной работе принято изменение состояния среды раз в минуту, поэтому собранный набор данных агрегирован по минутным значениям. Для показаний с датчиков потребления проведена агрегация по сумме, а по остальным параметрам системы агрегация по среднему.

Параметры набора данных:

dehumidifier – потребление осушителя воздуха над ледовой ареной. Влажность влияет на количество конденсата на поверхности льда, кВт*ч;
pump – потребление циркуляционного насоса, который характеризует производительность теплообмена между гликолем и льдом, напрямую влияя на объем прокачки теплоносителя, кВт*ч;
compressors – суммарное потребление 4 ступеней компрессоров, кВт*ч;
hum_inside – относительная влажность внутри арены, %;
illum – уровень освещенности внутри арены, единица измерения – условная;
max_motion – уровень максимально зафиксированного движения на льду, единица измерения – условная;
cur_motion – уровень текущего движения, единица измерения – условная;
temp_inside – внутренняя температура ледовой арены, °C;
temp_outside – внешняя температура, °C;
temp_supply_glyc – температура подаваемого гликоля (теплоносителя) в контур теплоносителя, °C;
temp_return_glyc – температура возвращаемого гликоля из контура теплоносителя, °C;
time – время в минутах.

Агент, в данном случае контроллер управления ступенями компрессоров, пытается поддерживать температуру толщи льда на уровне – 3.5°С, изменяя заданное количество работающих ступеней каждую минуту. Он имеет пять различных вариантов допустимых действий: заданные значения от 0 до 4.

В этой работе функция вознаграждения имеет квадратичную функцию:

Где – наблюдаемая температура толщи льда.

Отклонение от целевой уставки в – 3.5°С штрафует агента, наиболее высокая награда будет при достижении целевой уставки.

Состоянием окружающей среды в данной работе принят прогноз состояния толщи льда () через 30 минут. В качестве признаков для обучения использовались агрегированные поминутные данные, собранные с датчиков, установленных на ледовой арене.

Рисунок 4. График функции вознаграждения агента.

Таблица 1. Характеристики набора данных.

Признаки					25%	50%	75%
	143394	-3,88	0,55	-5,75	-4,23	-3,94	-3,56	-0,38
	143394	29,53	17,32	0	15	30	45	59
	143394	1,45	0,87	0	1	1	2	4
	143394	7,99	0,82	5,2	7,45	7,95	8,45	11,3
	143394	-8,21	1,73	-12,15	-9,74	-8,45	-6,8	-3,03
	143394	-5,62	0,89	-7,48	-6,4	-5,81	-4,77	-1,75
	143394	0,79	6,67	-19,29	-3,48	-0,28	5,46	20,01

Для прогнозирования толщи льда были рассмотрены архитектуры DNN, CNN, RNN, CNN+LSTM. Мы наблюдали, как в сети используется операция свертки и как она эффективно фильтрует входную последовательность с помощью ядра. Затем мы реализовали архитектуру CNN и объединили ее с архитектурой LSTM для создания двух новых одношаговых моделей, многошаговых моделей и многовыходных моделей.

Рисунок 5. Прогноз модели CNN + LSTM.

Использование CNN улучшило результаты. Фактически, она показала значительно лучшие результаты, чем только LSTM. Для многошаговых моделей мы наблюдали небольшой рост производительности и получили лучшую многошаговую модель с комбинацией CNN и LSTM.

Рисунок 6. Производительности моделей.

Важно рассматривать архитектуру CNN как инструмент в вашем наборе инструментов, когда речь идет о моделировании с помощью глубокого обучения. Модели будут работать по-разному в зависимости от набора данных и цели прогнозирования. Оценка всех моделей с помощью по сравнению с базовыми моделями рисунок 6.

Таким образом была выбрана модель CNN + LSTM в качестве окружающей среды, где ее состоянием является прогноз температуры толщи льда через тридцать минут.

Таблица 2. Сравнение MAE обученных моделей.

Модель	MAE
Базовая	0.5881
Линейная	0.5282
DNN	0.5946
LSTM	0.5409
CNN	0.4036
CNN + LSTM	0.3837

Для оценки энергоэффективности в результате обучения агента наиболее оптимальной политике необходимо обучить базовую модель потребления холодильной машины.

Базовая модель потребления – это модель поведения объекта до внедрения комплекса мер по энергоэффективности. Обучать модель необходимо на данных мониторинга до реализации управления.

Обучена линейная регрессионная модель базового уровня потребления на данных за период 21.09.22 – 20.10.22, которая учитывает режим нагрузки на лед, сезонность и строит потребление энергии компрессоров в час:

Рисунок 7. Базовый уровень потребления компрессоров.

Где суммарное потребление компрессоров в час,

– Режим нагрузки на лед: равен 0 с 01:00 до 12:00 и 1 с 13:00 до 01:00

season – Фактор сезонности вносит корректировку относительно базового уровня, построенного на данных октября в температурном диапазоне от – 2°C до 15°C. При температуре ниже – 2°C в период с 01:00 до 12:00 от базового уровня потребления компрессоров отнимается значение потребления одного компрессора 38 кВт*ч. При температуре выше 15°C в период с 01:00 до 12:00 к базовому уровню потребления компрессоров добавляется значение потребления одного компрессора 38 кВт*ч

– среднечасовая внешняя температура

Средняя абсолютная относительная ошибка модели составила:

Выбор правильной функции вознаграждения имеет решающее значение для обучения агента. В данной работе использовалась квадратичная функция вознаграждения, представленная в главе 1. Таким образом отклонение от целевой уставки температуры толщи льда в -4.5°C в большую и меньшую сторону одинаково приводило к штрафу или меньшей награде. Соответственно, при резком изменении температуры толщи льда из-за фактора заливки приводило к штрафу, что заставляло агента увеличивать мощность компрессоров, путем увеличения их работающих ступеней (рисунок 39). В данном случае агенту для выбора оптимального действия помогал прогноз на 30 минут вперед состояния толщи льда, который учитывает фактор заливки. Таким образом имея прогностическую модель окружающей среды, агент мог заранее наморозить лед, чтобы скомпенсировать резкое оттаивание льда. В отсутствии игр на льду в ночное время таких резких возмущающих факторов как заливка не было, что позволяло агенту получать максимальную награду, так как в этом случае прогноз модели среды был максимально точен.

За все время обучения средняя награда составила 7.33 при средней температуре толщи льда – 3.87.

Рисунок 8. Температура толщи льда, действия и вознаграждения.

Смещение температуры толщи льда относительно целевой уставки обусловлено неконтролируемым фактором заливки, из-за чего температура

льда резко возрастала.

Рисунок 9. Потребление суммы компрессоров в сутки.

Снижение энергопотребления относительно базового уровня потребления составило порядка 42%, что на 27% выше, чем у алгоритмов реализованных работающих уставке.

Обсуждения

С практической точки зрения развертывание система столкнется с рядом проблем в будущем. Первая проблема связана с инициализацией агента. В частности, в реальных случаях контроллер не может вести себя случайным образом в течение длительного времени, поэтому следует изучить, может ли алгоритм адаптироваться к новому зданию достаточно быстро, или агент должен быть предварительно обучен на симуляторе. Кроме того, после капитального ремонта система должна быть в состоянии перестроиться на новое потребление и быть в состоянии забыть старое поведение во время спуска.

Данная проблема была рассмотрена в контексте марковского процесса принятия решений, лежащего в основе обучения с подкреплением. Для решения этой задачи определили агента и его действия, сформулировали и решили задачу модели окружающей среды, которая использовалась для определения состояния марковского процесса. В дополнении была задана квадратичная функция вознаграждения агента.

Агент не нацелен напрямую на минимизацию затрат на электроэнергию, но за счет поддержки температуры толщи льда на уровне целевой уставки, было исключено излишнее промораживание льда, соответственно была достигнута экономия энергии.

Заключение

В данной работе была описана энергетическая система ледовой арены и решена проблема оптимизации энергопотребления с помощью глубокого обучения с подкреплением. Главной причиной низкой энергоэффективности ледовых арен является избыток потребления холодильной установки, так как ледовое покрытие зачастую перемораживается что приводит к необходимости дополнительного обогрева воздуха внутри арены, для того чтобы поддерживать целевую уставку внутренней температуры. Также это приводит к дополнительным затратам для охлаждения хладагента и большей эксплуатационной нагрузке на компрессоры холодильной установки.

Были обучены и сравнены между собой различные архитектуры моделей глубокого обучения для определения окружающей среды агента, такие как нейронная сеть с двумя скрытыми слоями, сверточная нейронная сеть, сеть с долгой краткосрочной памятью, а также комбинация сверточной и рекуррентной сетей, которая, по итогу, оказалась самой производительной.

Таким образом была обучена модель окружающей среды агента, где ее состоянием является прогноз температуры толщи льда через тридцать минут.

Был описан и реализован алгоритм глубокого q-обучения. Результаты моделирования показывают, что с помощью обучения с подкреплением можно значительно снизить расходы на электроэнергию.

Следующим этапом данной работы является внедрение агента в реальную систему на контроллер, управляющий компррессорами.

Для будущей работы следует изучить подходы к тонкой настройке энергосберегающего агента с учетом остального оборудования ледовой арены, например осушителя и циркуляционного насоса.

Выбор правильной функции вознаграждения оказывает большое влияние на результаты. Поэтому стоит модифицировать и рассчитать более оптимальную функцию вознаграждения Изменяя вознаграждение, алгоритм может сосредоточиться на различных целях, например, на экономии энергии или минимизации отклонения от целевых параметров объекта. Тем не менее, он должен балансировать между экономией и качеством обслуживания.

Список литературы

Международная федерация хоккея на льду. Руководство ИИХФ по ледовым аренам.
Саттон Р. С., Барто Э. Дж. Обучение с подкреплением: Введение. 2-е изд. / пер. с англ. А. А. Слинкина. – М.: ДМК Пресс, 2020. – 552 с.: ил.
Hafiz, A.; Hassaballah, M.A.H. Reinforcement Learning with an Ensemble of Binary Action Deep Q-Networks. Syst. Sci. Eng. 2023.
Hafiz, A.M.; Hassaballah, M.; Binbusayyis, A. Formula-Driven Supervised Learning in Computer Vision: A Literature Survey. Appl. Sci. 2023.
Morales, E.F.; Murrieta-Cid, R.; Becerra, I.; Esquivel-Basaldua, M.A. A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning. Intell. Serv. Robot. 2021, 14, 773-805.
Rubagotti, M.; Sangiovanni, B.; Nurbayeva, A.; Incremona, G.P.; Ferrara, A.; Shintemirov, A. Shared Control of Robot Manipulators With Obstacle Avoidance: A Deep Reinforcement Learning Approach. IEEE Control.
Knapik, O. Modeling and Forecasting Electricity Price Jumps in the Nord Pool Power Market; CREATES Research Paper 2017-7; Department of Economics and Business Economics, Aarhus University: Aarhus, Danmark, 2017.
Alimohammadisagvand, B.; Alam, S.; Ali, M.; Degefa, M.; Jokisalo, J.; Sirén, K. Influence of Energy Demand Response Actions on Thermal Comfort and Energy Cost in Electrically Heated Residential Houses. Indoor Built Environ. 2017.
Behl, M.; Jain, A.; Mangharam, R. Data-Driven Modeling, Control and Tools for Cyber-Physical Energy Systems. In Proceedings of the 2016 ACM/IEEE 7th International Conference on Cyber-Physical Systems (ICCPS), Vienna, Austria.
Péan, T.Q.; Salom, J.; Costa-Castelló, R. Review of Control Strategies for Improving the Energy Flexibility Provided by Heat Pump Systems in Buildings. J. Process Control 2019.
Avci, M.; Erkoc, M.; Rahmani, A.; Asfour, S. Model Predictive HVAC Load Control in Buildings Using Real-Time Electricity Pricing. Energy Build 2013.
Li, X.; Malkawi, A. Multi-Objective Optimization for Thermal Mass Model Predictive Control in Small and Medium Size Commercial Buildings under Summer Weather Conditions. Energy 2016.
Zhang, H.; Seal, S.; Wu, D.; Bouffard, F.; Boulet, B. Building Energy Management with Reinforcement Learning and Model Predictive Control: A Survey. IEEE Access 2022, 10, 27853-27862.
Fischer, D.; Bernhardt, J.; Madani, H.; Wittwer, C. Comparison of Control Approaches for Variable Speed Air Source Heat Pumps Considering Time Variable Electricity Prices and PV. Appl. Energy 2017
Vandermeulen, A.; Vandeplas, L.; Patteeuw, D.; Sourbron, M.; Helsen, L. Flexibility Offered by Residential Floor Heating in a Smart Grid Context: The Role of Heat Pumps and Renewable Energy Sources in Optimization towards Different Objectives. In Proceedings of the IEA Heat Pump Conference, Rotterdam, The Netherlands.
Ala’raj, M.; Radi, M.; Abbod, M.F.; Majdalawieh, M.; Parodi, M. Data-Driven Based HVAC Optimisation Approaches: A Systematic Literature Review. J. Build. Eng. 2022, 46, 103678.
Liu, T.; Xu, C.; Guo, Y.; Chen, H. A Novel Deep Reinforcement Learning Based Methodology for Short-Term HVAC System Energy Consumption Prediction. Int. J. Refrig. 2019.
Raza, R.; Hassan, N.U.; Yuen, C. Determination of Consumer Behavior Based Energy Wastage Using IoT and Machine Learning. Energy Build 2020.
Esrafilian-Najafabadi, M.; Haghighat, F. Impact of Occupancy Prediction Models on Building HVAC Control System Performance: Application of Machine Learning Techniques. Energy Build 2022.
Chaudhuri, T.; Soh, Y.C.; Li, H.; Xie, L. Machine Learning Based Prediction of Thermal Comfort in Buildings of Equatorial Singapore. In Proceedings of the 2017 IEEE International Conference on Smart Grid and Smart Cities (ICSGSC), Singapore, 23-26 July 2017.
Watkins, C.J.C.H. Learning from Delayed Rewards; King’s College: Cambridge, UK, 1989.
van Hasselt, H.; Guez, A.; Silver, D. Deep Reinforcement Learning with Double Q-Learning. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, Phoenix, AZ, USA, February 2016.
Mnih, V.; Kavukcuoglu, K.; Silver, D.; Rusu, A.A.; Veness, J.; Bellemare, M.G.; Graves, A.; Riedmiller, M.; Fidjeland, A.K.; Ostrovski, G.; et al. Human-Level Control through Deep Reinforcement Learning. Nature 2015.

Интересная статья? Поделись ей с другими: