УДК 004

Методы борьбы с переобучением при разработке искусственных нейронных сетей

Козлов Илья Олегович – студент бакалавриата факультета «Сети и системы связи» Московского технического университета связи и информатики

Аннотация: Искусственные нейронные сети являются одним из наиболее актуальных инструментов при решении задач в различных профессиональных областях жизнедеятельности человека. При этом основной трудностью, с которой можно столкнуться при разработке интеллектуальных решений является переобучение нейронных сетей. Автором выявлена проблема, связанная с отсутствием стандартизированных подходов к выбору метода борьбы с переобучением нейронных сетей. В работе проанализированы и выявлены особенности применения различных методов борьбы с переобучением в зависимости от задач, для решения которых разрабатываются искусственные нейронные сети. Автором рассмотрены наиболее эффективные методы борьбы с переобучением и их технические аспекты, а также сформирована методика выбора каждого из них при решении конкретной задачи. Основным результатом работы стало формирование авторской методики выбора метода борьбы с переобучением в зависимости от решаемых задач.

Ключевые слова: искусственные нейронные сети, обучение, борьба с переобучением, ранняя остановка, Dropout.

Введение

Начало 2024 года ознаменовано существенным повышением внимания в сторону разработки и использования технологий искусственного интеллекта (далее – ИИ) при решении как бытовых, так и профессиональных задач в жизнедеятельности человека. Об этом свидетельствуют данные статистических исследований – 56% прироста общего объема мирового рынка и 45% прироста российского рынка интеллектуальных технологий в период с 2018 по 2023 год [1]. Возможность решения широкого круга задач, высокие показатели эффективности и непрерывный рост рынка подтверждают актуальность развития ИИ в современном мире.

Однако, несмотря на ряд объективных преимуществ, которые достигаются в результате разработки и использования интеллектуальных решений, на текущий момент времени существуют некоторые сложности при их создании. В первую очередь таковой является проблема переобучения при разработке искусственных нейронных сетей (далее – ИНС). Именно данной проблеме уделяется значительное внимание со стороны современных исследователей, в работе каждого из которых более подробно рассматриваются аспекты работы и применения данных методов.

Так, в работе Е. М. Бадика, и З.В. Марченков 2021 года анализируются наиболее распространенные методы борьбы с переобучением [2]. Автором ставится цель общего представления данных методов, а основным недостатком работы является отсутствие указаний и правил выбора использования того или иного метода борьбы с переобучением. Афанасьевым Д.Ю. в работе от 2022 года рассматриваются отдельные аспекты решения проблемы с переобучением, однако отсутствуют рекомендации по их применению при решении других задач, подразумевающих разработку ИНС [3]. В материалах В.В. Брыкина, М.Я. Брагинского, И.О. Таракановой и Д.В. Таракановой 2022 года более подробно рассмотрен метод Dropout, недостатком исследования является отсутствие комплексного подхода и неприменимость результатов работы при решении иных задач [4].

В связи с этим выявляется проблема, связанная с отсутствием на сегодняшний день практических рекомендация по выбору и использованию того или иного метода борьбы с переобучением. Так, основной целью текущей статьи является формирование и систематизация ключевых аспектов относительно технических особенностей методов борьбы с переобучением. Подзадачами работы является выполнение анализа относительно принципов работы и формирования методики выбора методов борьбы с переобучением при разработке искусственных нейронных сетей.

Результаты и обсуждение

Переобучение является одной из основных проблем при обучении искусственных нейронных сетей. Оно возникает, когда модель слишком хорошо «запоминает» тренировочные данные, вместо того чтобы обобщать обученные закономерности на новые данные. Переобучение может проявляться в различных формах [5]. Например, нейронная сеть может становиться слишком сложной, чтобы правильно обрабатывать данные из-за большого числа параметров. Это, в свою очередь, способно привести к тому, что ИНС начнет искать случайные закономерности в тренировочных данных, которые не будут иметь отношения к действительности [6]. В результате чего, модель будет показывать плохие результаты на новых данных.

Одним из методов борьбы с переобучением является регуляризация. Регуляризация добавляет к функции потерь некоторую пенализацию за сложность модели или за большие значения параметров [7]. Это помогает ограничить переобучение путем уменьшения значимости маловажных параметров. Также важно иметь достаточное количество данных для обучения и валидации модели. Если обучающая выборка слишком мала, то модель может запомнить все данные, что приведет к переобучению. В связи с этим необходимо иметь большое разнообразие данных для более точного обучения модели [8]. Как видно, переобучение - это серьезная проблема, которая может негативно повлиять на качество работы искусственной нейронной сети. Однако с помощью правильного подхода к обучению модели и использованием различных техник, можно снизить риск переобучения и достичь более точных и обобщающих результатов.

Среди наиболее распространенными и эффективными методами борьбы с переобучением при разработке ИНС необходимо выделить:

  • увеличение объема данных – один из способов борьбы с переобучением нейронных сетей, который заключается в увеличении объема данных для обучения. Это позволяет модели обучаться на большем количестве примеров, что может помочь избежать переобучения;
  • регуляризация – это метод, который добавляет штраф к функции потерь модели за большие значения параметров [9]. Это помогает сделать модель менее склонной к переобучению, ограничивая значения параметров. При этом существует два основных типа регуляризации: L1 регуляризация (Lasso) и L2 регуляризация (Ridge), математическая интерпретация которых представлена в таблице 1. L1 регуляризация уменьшает веса модели за счет добавления модуля суммы весов к функции потерь, что позволяет делать отбор признаков и уменьшать количество ненужной информации. L2 регуляризация уменьшает веса модели за счет добавления квадрата суммы весов к функции потерь, что помогает уменьшить влияние больших весов и сделать модель более устойчивой;

Таблица № 1. Математическая интерпретация L1 и L2 регуляризации.

L1 регуляризация

L2 регуляризация

 image001  image002
  • Dropout – метод борьбы, который случайным образом «выключает» некоторые нейроны во время обучения. Это позволяет предотвратить переобучение, заставляя модель обучаться на разных Подмножествах данных на каждой итерации [10]. Данный метод применим для большинства видов ИНС. На рис. 1 представлена графическая интерпретация структуры нейронной сети до применения Dropout (слева), и после его применения (справа);
  • image003

Рисунок 1. Применение метода Dropout.

  • кросс-валидация – это метод, который разделяет данные на несколько подмножеств и проводит несколько итераций обучения и оценки модели на каждом из них. Это позволяет более надежно оценить производительность модели и избежать переобучения.

Как видно, на текущий момент существует целое множество эффективных методов борьбы с переобучением при разработке ИНС. Однако главным вопросом остается выбор того или иного метода при решении задач с различными условиями и данными. Для этого необходимо систематизировать данные методы по их основным особенностям, преимуществам и недостаткам. В результате этого станет возможным обобщение ключевых факторов использования и применимости данных методов в зависимости от исходных условий задачи. В табл. 2 представлены результаты исследования методов борьбы с переобучением ИНС.

Таблица № 2. Особенности использования методов борьбы с переобучением ИНС.

Метод борьбы с переобучением

Преимущества

Недостатки

Применимость

1

Увеличение объема данных

Увеличение объема данных помогает модели лучше обобщать и обучаться на различных вариациях данных, снижая склонность к переобучению

Может потребовать больше вычислительных ресурсов и времени, особенно для генерации синтетических данных

Техника эффективна в случаях, когда у модели ограниченный объем обучающих данных или когда вариаций данных не хватает для достижения хорошего обобщения

2

Регуляризация

Регуляризация может помочь в контролировании сложности модели, предотвращая искажение результатов из-за переобучения

Слишком сильное ограничение параметров может привести к потере важной информации, что может негативно повлиять на производительность модели

Регуляризация полезна, когда модель имеет большое количество параметров и небольшой обучающий набор данных

3

Dropout

Снижает шансы на переобучение, поскольку модель не может полагаться только на отдельные нейроны, таким образом, вынуждая другие нейроны брать работу на себя

Процесс обучения может занимать больше времени, так как каждый раз происходит удаление и восстановление некоторых нейронов

Dropout хорошо работает для любых типов нейронных сетей и особенно эффективен в случаях, когда у модели слишком много параметров

4

Early stopping

Early stopping позволяет сохранить лучшую модель с наименьшей ошибкой на валидационных данных, предотвращая переобучение и максимизируя обобщение

В некоторых случаях early stopping может привести к прекращению обучения модели слишком рано или слишком поздно, что может привести к неоптимальным результатам

Данная техника особенно полезна, когда нет достаточного количества данных для выполнения кросс-валидации или при ограниченных вычислительных ресурсах

5

Кросс-валидация

Кросс-валидация позволяет более надежно оценить предсказательную способность модели и выявить возможное переобучение

Кросс-валидация может быть затратной по вычислительным ресурсам и порой требует больше времени, особенно при выполнении на больших наборах данных

Данная техника подходит для любых видов задач и при любых моделях, когда имеется достаточно данных для разделения на обучающий и тестовый наборы

Заключение

Таким образом, основной целью представленной статьи являлось выполнение анализа относительно проблемы переобучения при разработке искусственных нейронных сетей. Автором более подробно рассмотрены наиболее эффективные методы борьбы с переобучением, а также выявлены основные особенности и аспекты использования каждого из них. Основным результатом работы стала систематизация основных аспектов относительно преимуществ, недостатков и применимости в зависимости от исходных условий задачи разработки ИНС каждого из методов борьбы с переобучением.

В результате работы подтверждается использование методов борьбы по следующим условиям (метод-применимость): увеличение объема данных – при ограниченном объеме обучающих данных у модели; регуляризация – при большом количестве параметров и небольшом обучающем наборе данных; Dropout – применим для модели с любыми исходными условиями, особенно эффективен при наличии у модели слишком большого числа параметров; Early Stopping – эффективен при недостаточном количестве данных для выполнения кросс-валидации или ограниченных вычислительных ресурсах; кросс-валидация – подходит для любых моделей и задач при условии достаточных данных для разделения на обучающий и тестовый наборы.

В заключение необходимо отметить, что представленные материалы могут стать полезны для разработчиков в сфере интеллектуальных решений, раскрывая особенности и применимость каждого из методов борьбы с переобучением искусственных нейронных сетей. Автором проведен комплексный анализ исходного вопроса и представлены материалы, позволяющие решить проблему, связанную с отсутствием единого подхода к выбору и использованию методов борьбы с переобучением искусственных нейронных сетей.

Список литературы

  1. Гурьянов А.И., Гурьянова Э.А. Анализ рынка искусственного интеллекта Российской Федерации // Интеллект. Инновации. Инвестиции. 2023. № 3. С. 61-71.
  2. Бадика Е. М., Марченков З.В. Проблема переобучения нейронных сетей. Способы устранения переобучения // Инновационные идеи молодых исследователей. 2021. С. 236-243.
  3. Афанасьев Д.Ю. Применение аугментации для улучшения качества классификации // StudNet. 2022. № 4. С. 2397-2411.
  4. Брыкин В.В., Брагинский М.Я., Тараканова И.О., Тараканов Д.В. Анализ состояния растений с применением технологий искусственного интеллекта // ВК. 2022. № 4 (48). С. 6-13.
  5. Чекмарев М.А. Методы обеспечения безопасности процессов машинного обучения // Научные исследования и инновации. 2021. №1. С. 40-44.
  6. Менщиков А.А., Федосенко М.Ю. Методы и подходы к предобработки данных платежей при условии сильной несбалансированности классов // StudNet. 2021. №9. С. 132-138.
  7. Агарков Ю.Ю. Методы машинного обучения для оптимизации проектирования нейроморфных систем // Инновации и инвестиции. 2023. № 6. С. 313-319.
  8. Ишкина Ш.Х. Комбинаторные оценки переобучения пороговых решающих правил // УМЖ. 2018. №1. С. 50-65.
  9. Созыкин А.В. Обзор методов обучения глубоких нейронных сетей // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2017. № 3. С. 28-59.
  10. Гермиханова Х.Р. Методы обучения нейронной сети (некоторые аспекты) // Инновационные аспекты развития науки и техники. 2020. № 2. С. 6-10.

Интересная статья? Поделись ей с другими: