УДК 004.852

Классификация изображений в частотной области

Алексеев Владислав Вячеславович – аспирант Тихоокеанского государственного университета.

Шоберг Анатолий Германович – доцент кафедры Вычислительной техники Тихоокеанского государственного университета.

Аннотация: В данной работе исследуется обработка изображений в частотной области, в частности классификация с использованием машинного обучения. В типичную для данной сети модели встраивается дискретно-косинусное преобразование (DCT) без изменений работы алгоритма.

Ключевые слова: дискретно-косинусное преобразование, JPEG, остаточные сверточные нейронные сети, ResNet.

Введение

Нейронные сети “глубокого обучения” на данный момент широко распространены и добились значительных успехов в задачах компьютерного зрения. Большая часть нейронных сетей обрабатывающих изображения работают в пространственной области с фиксированными размерами входных данных. Для практических применений, большие по размеру изображения обычно должны быть уменьшены до заданного размера входных данных нейронных сетей. Несмотря на то, что операции с понижающей дискретизацией сокращают вычисления и требуемую пропускную способность, они удаляют как избыточную, так и важную информацию, что приводит к снижению точности. Для частичного улучшения результатов можно использовать дискретное косинусноее преобразование, в котором отдельные блоки изображения, размер которых заранее определен, переводятся из пространственной области в частотную [1].

В основе работы лежит сверточная нейронная сеть (CNN) и ее модификация ResNet (остаточная сверточная нейронная сеть). Данная сеть произвела огромное влияние на обработку изображений позволяя производить сложные операции: классификации, сегментации, обнаружения объектов и т.д.

 Ограниченные вычислительными ресурсами и ограничениями памяти, большинство моделей CNN принимают только изображения в формате RGB с низким разрешением (например, 224 × 224). Однако в настоящее время изображения в значительной мере превышают эти значения. Например, размеры 1920 x 1080 уже считаются относительно небольшими в сравнении с новыми форматами. Даже в современных наборах данных для машинного обучения используются данные размером 482 × 415, что примерно в четыре раза превышает размер, принятый большинством моделей CNN. Поэтому большая часть изображений уменьшена до 224×224, чтобы удовлетворить требования сетей классификации к вводу данных. Однако уменьшение размера изображения неизбежно приводит к потере информации и снижению точности [2].

В этой статье предлагается использование изображений с высоким разрешением, представленные в частотной области, т.е. выполнять дискретное косинусное преобразование вместо изменения их размера в пространственной области, а затем передавать измененные коэффициенты преобразования в модели сверточной нейронной сети для вывода.

Данный метод требует небольшой модификации существующих моделей CNN, которые принимают изображения RGB в качестве входных данных. Таким образом, предлагается замена обычным блокам предварительной обработки данных.

Дискретное косинусное преобразование

Поскольку любое изображение или его фрагмент можно рассматривать как функцию изменения яркости (цветности) как по оси Х, так и по оси Y, то дискретное преобразование Фурье будет представлять собой замену массива отсчетов изображения соответствующего фрагмента на массив коэффициентов, соответствующих амплитудам частотных составляющих Фурье.

Объем расчетов для нахождения этих коэффициентов весьма значителен. Поэтому преобразования осуществляются над небольшими по размеру фрагментами, обычно 8×8 элементов.

Дискретно-косинусное преобразование в определенной степени минимизирует объем этих вычислений использованием в качестве набора преобразующих (базисных) функций только косинусных составляющих. В результате массиву исходных значений сигнала соответствует массив из такого же числа коэффициентов, представляющих собой амплитуды этих косинусных составляющих.

Аналитически двумерное дискретно-косинусное преобразование описывается следующим образом

f1   (1)

где C(m) = 1 при m ≠ 1; С(m) = f2 при m = 0;

C(n) = 1 при n ≠ 1; С(n) = при n = 0;

f(x, y) – отсчеты изображения с пространственными координатами x,y (от 0 до N-1);

N – размер блока изображения (N×N элементов);

F(m, n)– коэффициенты, характеризующие изображение в спектральной плоскости m, N (от 0 до N-1) [3-4].

Остаточная сверточная нейронная сеть для классификации изображений

Для решения поставленной задачи сеть ResNet модифицируется. Данная сеть была разработана для решения проблемы при выполнении операций свертки, когда с увеличением глубины сети уменьшается точность в несколько раз. Для решения данной проблемы реализовано остаточное обучение. При данном методе вводятся остаточные блоки, которые содержат “обходную связь идентичности” для обхождения одного или нескольких слоев. Это изменяет цель использования набора слоев с обучения идеальных весов и порогов F(x) на обучение выхода остаточного блока

H(x) = F(x) + x.

Переставив члены этого уравнения, получаем

F(x) = H(x) – x,

а это значит, что остаточный блок пытается обучать вход минус выход, иными словами остаточную функцию F(x) – отсюда и название "остаточный блок". Можно считать, что каждый блок теперь настраивает вывод предыдущего блока, и ему не приходится генерировать желаемый вывод с нуля. [5]

Данную модель можно перестроить для работы в частотной области. Используемые операции выполнения дискретно-косинусного преобразования группируют двумерные коэффициенты в трехмерный куб. Поскольку стандарт сжатия JPEG использует преобразование 8 x 8, в цветовом пространстве YCbCr группируются компоненты одинаковой частоты во всех блоках 8 × 8 в один канал, сохраняя их пространственные отношения на каждой частоте. Таким образом, каждый из компонентов Y, Cb и Cr обеспечивает 8 × 8 = 64 канала, по одному на каждую частоту, в общей сложности 192 канала в частотной области. Измененная схема изображена на рисунке.

1

Рисунок 1. Схема применения ДКП в ResNet.

Предположим, что форма исходного входного изображения RGB равна

H ×W × C,

где C = 3, а высота и ширина изображения обозначаются как H и W, соответственно. После преобразования в частотную область форма входного объекта становится H / 8×W / 8×64C сохраняя тот же размер входных данных. Поскольку входные данные в частотной области меньше в измерениях H и W, но больше в измерении C, в отличии от аналога в пространственной области, пропускается входной слой обычной модели сверточной сети, которая обычно представляет собой операцию свертки. Если операция пулинга (субдискретизации) сразу следует за входной сверткой, то также пропускается эту операция. Затем корректируется размер канала следующего уровня, чтобы он соответствовал количеству каналов в частотной области.

Проверка результатов

Для проверки результатов использовался готовый набор данных для машинного обучения “ImageNet”. Модифицированная модель “ResNet” была обучена на основе подхода, описанного выше. Входные объекты в частотной области генерируются из изображений с гораздо более высоким разрешением, чем аналог в пространственной области. Однако некоторые изображения в наборе данных “ImageNet” имеют более низкое разрешение. Ввыполнялись те же этапы предварительной обработки, что и в пространственной области, включая изменение размера и обрезку до большего размера изображения, при необходимости повышая дискретизацию.

Для моделирования применялись три модели: с 192, 64 и 24 частотными каналами. Для сравнения результатов использовали изначальную модель RGB, работающую в пространственной области. Результаты представлены в таблице.

Таблица 1. Работа моделей при различном количестве частотных каналов.

Модель

Кол-во каналов

Размер изображения

Коэффициент точности (%)

1

24

56x56

93.504

2

64

56x56

93.624

3

192

56x56

93.454

RGB

-

224x224

91.850

Как видно из таблицы, точность классификации улучшилась на 1,8 процента в сравнении с изначальным вариантом. Это говорит о том, что данный метод можноиспользовать в выполнение ряда задач, не пренебрегая при этом параметрами исходного изображения.

Другое важное наблюдение заключается в том, что модели, обученные с подмножеством каналов, могут работать лучше, чем модель, обученная со всеми 192 каналами. Такой эффект показывает, что небольшого числа (например, 24) низкочастотных каналов достаточно для захвата полезных характеристик, а дополнительные частотные компоненты могут создавать шум. Дальнейшие исследования предполагают использование модифицированных вариантов ДКП.

Список литературы

  1. Галушкин А. И. Нейронные сети: основы теории. – М. // РиС, 2014. – 496c
  2. Ding C. et al. Cir-CNN: Accelerating and compressing deep neural networks using block-circulant weight matrices // MICRO-50. – 2017. – P. 395–408.
  3. Гонсалес Р., Вудс Р. Цифровая обработка изображений. – М. // Техносфера, 2005. – 1066 с.
  4. Ростовцев В.С. Искусственные нейронные сети: учебник // Киров: ВятГУ, 2014. – 208 с
  5. Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. A. (2017). Inception-v4, inception-resnet and the impact of residual connections on learning. Thirty-First AAAI Conference on Artificial Intelligence.

Интересная статья? Поделись ей с другими: