УДК 004

Исследование эффективности семантической сегментации изображений при помощи модифицированной архитектуры U-Net

Божимов Александр Дмитриевич – студент магистратуры Самарского национального исследовательского университета им. академика С.П. Королева

Солдатова Ольга Петровна – кандидат технических наук, доцент Самарского национального исследовательского университета им. академика С.П. Королева

Аннотация: Целью данной работы является исследования эффективности модифицированной архитектуры U-Net с внедрением U-образной структуры в каждый вычислительный блок для задачи семантической сегментации изображений. Исследование проводилось на разработанной автоматизированной системе сегментации, предоставляющей возможность задания конфигурации сети, параметров выборки, параметров обучения. Результаты полученных исследований сравнивались с результатами работы системы сегментации, созданной на основе оригинальной архитектуры U-Net. На основе полученных результатов были даны оценочные суждения, позволяющие выбрать подходящую под требуемую задачу архитектуру.

Ключевые слова: CNN, U-Net, сверточная сеть, компьютерное зрение, нейронные сети, сегментация изображений, задача семантической сегментации.

Задача семантической сегментации изображений – одна из основных задач современного компьютерного зрения, которое в наши дни используется повсеместно. Системы наблюдения, способные автоматически определять появление потенциальных нарушителей, автономные транспортные средства с распознаванием дорожной разметки и других участников движения, алгоритмы обработки фотографий в современных смартфонах, способные создавать искусственную глубину резкости или подавлять шум, сохраняя четкую текстуру конкретных материалов. Поле применения технологий данной группы ограничено только человеческой фантазией и точностью средств. Даже при расчете прогноза погоды на основе спутниковых снимков ежедневно применяются системы сегментации изображений.

На текущий момент существует множество способов сегментации изображений, включающие классические алгоритмические средства. Однако, когда речь заходит именно о семантике, наиболее эффективными считаются средства на базе машинного обучения. Это обусловлено схожестью его принципов с основами человеческого мышления. Развитие вычислительных устройств предоставило машинным системам на базе нейронных сетей возможность «обучения» – выявления неочевидных зависимостей в бескрайней толще данных. Иногда эти возможности превосходят человеческие – трудноразличимые мозгом мелочи отлично поддаются беспристрастным математическим моделям.

Одной из уже классических вариантов сверточной сети для задачи сегментации изображений является архитектура U-Net, ее можно увидеть на рисунке 1.

image001

Рисунок 1. Архитектура U-Net.

Данная архитектура состоит из сужающегося и расширяющегося путей, и если первый довольно типичен для сверточных сетей, то второй обеспечивает высокую точность распознавания при помощи конкатенации с соответствующей картой признаков. Это и придает так называемую U-образную форму. Отличительной чертой сети U-Net является способность обучаться сквозным образом на малом наборе данных, также стоит отметить быстроту работы итоговой модели [1].

 Обучение сети происходит с помощью стохастического градиентного спуска, используя входные изображения и их карты сегментации. Выходное изображение меньше входного сигнала из-за операций свертки.

Попиксельная функция softmax определяет величину ошибки по карте свойств совместно с кросс-энтропией. Приоритезация пикселей позволяет явно указать интересующие в процессе обучения элементы изображения.

В данном случае кросс-энтропия для каждой точки выглядит так:

image002

где x – позиция пикселя; image003– истинная метка пикселя; w – карта весов; введенная для приоритизации отдельных пикселей в процессе обучения.

После этого происходит вычисление карты весов:

image004

где image005– веса для балансировки классов; image006– определяет расстояние до границы ближайшей ячейки; image007– определяет расстояние до границы второй ближайшей ячейки.

Архитектура U-Net прекрасно выделяет общие контуры объектов на изображении, но часто упускает мелкие графические детали по периметру, обрабатываемые на глубоких слоях [2].

Учитывая то, что данный тип сетей не может в полной мере удовлетворить потребности в сегментации мелких элементов на изображении, предлагается модификация архитектуры для более качественной проработки содержимого глубоких слоев.

За основу модификации была взята идея вложенной U-образной структуры, описанной участниками соревнования Pattern Recognition.

Данная архитектура, называемая также U2-Net (U Square Net), позволяет кратно увеличить точность на нижних слоях. Такой подход позволяет собирать больше контекстной информации из разных масштабов изображения благодаря U-образным блокам. Ориентировочную структуру описанной сети можно увидеть на рисунке 2.

image008

Рисунок 2. Архитектура U2-Net.

В сети U2-Net приоритетными значениями считаются полученные от более глубоких энкодеров, это позволяет получить крайне высокую детализацию. Это заметно, например, на ветках деревьев, волосах и прочих мелких объектах.

Наиболее подходящий вариант обучения – обучение с учителем. Для моделей семейства U-Net его эффективность подтверждена многократно [3]. В этом случае значение ошибки получим таким образом:

image009

где image010– это ошибка для карты «заметности» объектов; image011– ошибка для финального слияния карты «заметности»; image012и image013– веса для каждого выражения ошибки.

Для каждого элемента image003используем стандартную бинарную кросс-энтропию, чтобы подсчитать ошибку:

где image016– координаты конкретного пикселя; image017– высота и ширина изображения; image018– значение настоящего пикселя; image019– значение предсказанного пикселя.

В процессе обучения мы стремимся минимизировать значение image020, а при тестировании используем image021в качестве конечной карты «заметности».

Использование общей карты параметров для изображения упрощает процесс обучения, а наличие вложенных U-образных блоков позволяет не терять мельчайшие детали, но и не зацикливаться на них, теряя общую форму объектов

Выбранная в данной статье модификация архитектуры подразумевает использование в каждом типовом блоке сети U-Net вложенной U-образной структуры.

Для исследования эффективности сегментации эксперименты проводились на наборе данных “iMaterialist (Fashion)”, содержащем набор изображений с картами наложения объектов. Первая представляет собой набор статей с заданными тематиками. В качестве критерия оценки качества сегментации был выбран коэффициент Дайса. Чем выше значение данного коэффициента, тем большее число предсказанных пикселей выделения объекта совпало с настоящим [4]. Используя данный критерий, можно оценить эффективность операции сегментации, повышение которой является ключевой задачей данной работы. В данном случае коэффициент Дайса можно описать следующим образом:

image022

где image023– предсказанная часть; image024– верно размеченная маска; image025– мощность множества image023; image026– мощность множества image024; image027– пересечение image023и image024.

При исследовании будем использовать структуру модели с числом U-блоков равным 7. Тестовая выборка размером в 400 изображений также будет взята из набора данных «iMaterialist (Fashion)», общий объем которого составляет около 50 тысяч изображений.

Создадим маску наложения для объекта типа «платье» на изображении для визуального сравнения работы модифицированной и оригинальной модели. Пример сравнения можно наблюдать на рисунке 3.

image028

Рисунок 3. Сравнение работы моделей.

Как видно, модель U2-Net лучше справилась со сложными краями и внутренними областями, дав более применимый в реальных условиях результат. Модель U-Net обеспечила лишь приблизительную сегментацию, что может быть недостаточно для точных систем.

Результаты эксперимента с зависимостью от числа эпох обучения модели представлены на рисунке 4.

image029

Рисунок 4. Оценка точности сегментации в зависимости от числа эпох.

Как видно из результатов работы, точность сегментации при 20 эпохах обучения для сети U2-Net составила 96.7%, а для U-Net – 94.73%. Пик потребления памяти в процессе составил 1311 МБ для U2-Net и 1179 МБ для оригинальной U-Net.

Из полученных результатов можно сделать вывод, что для задач семантической сегментации изображений, объекты на которых обладают сложными границами и мелкими деталями, такими как участки ткани, волосы и подобное, предпочтительней использовать U2-Net. Учитывая незначительную с точки зрения современных систем разницу в пиковой потребляемой памяти, можно рекомендовать данную архитектуру для решения большого класса задач, связанных с максимально точным определением границ объектов. Для систем, где приоритетом является сам факт обнаружения объекта, а также необходима экономия аппаратных ресурсов, стоит ограничиться использованием базовой архитектуры U-Net.

Список литературы

  1. UNet – Line by Line Explanation [Электронный ресурс]. – URL: https://towardsdatascience.com/unet-line-by-line-explanation-9b191c76baf5.
  2. Segmentation with Residual Attention U-Net and an Edge-Enhancement Approach Preserves Cell Shape Features [Электронный ресурс]. – URL: https://www.chenliu1996.com/publication/pub_2022_num1_embc/.
  3. U-Net Convolutional Model [Электронный ресурс]. – URL: https://www.researchgate.net/figure/U-net-Convolutional-Neural-Network-model-The-U-net-model-contains-two-parts_fig6_317493482.
  4. Индекс Соренсена-Дайса [Электронный ресурс]. – URL: https://ru.frwiki.wiki/wiki/Indice_de_S%C3%B8rensen-Dice.

Интересная статья? Поделись ей с другими: