Разработка метода описания изображения лесного массива

Гурьев Тимур Михайлович – магистр Северного (Арктического) федерального университета имени М.В. Ломоносова.

Аннотация: В работе рассмотрен метод получения текстового описания фронтального изображения лесного массива. Метод основан на использовании комплекса сверточных нейронных, которые служат основном механизмом определения признаков (критериев) дальнейшего описания.

Цель работы – получение семантического описания фронтального изображения лесного массива.

Ключевые слова: Метод, фронтальное изображение, семантическое описание изображения, сверточные нейронные сети, изображение лесного массива, глубокое обучение, модель нейронной сети.

Задача «автоматической аннотации изображений» или, говоря более простым языком, задача текстового описания изображения, до сих пор является одной из менее формальных и сложно реализуемых задач в сфере машинного обучения. Беглого взгляда на изображение достаточно, чтобы человек указал и описал огромное количество деталей о визуальной сцене. В свою очередь модели визуального распознавания так и не приблизились к подобным результатам. Методы описания должны сочетать в себе как компьютерное зрение, так и обработку естественного языка, что представляет собой действительно сложную проблему в искусственном интеллекте. Применение подобной технологии в более специализированных сферах, где помимо способности человека к распознаванию образов и группировки полученных фактов в осмысленные предложения требуются знания предметной области и особенностей объектов, находящихся на изображении, помогло бы упростить работу специалистам или вовсе заменить их в процессе обработки графической информации. К подобным случаям можно отнести описание изображений лесного массива: распознавание пород деревьев, их возраста и т.д.

Анализ и описание фронтальных изображений лесного массива плохо освещен в научной литературе. В большей степени это вызвано сложностью сбора исходных данных и спецификой самих изображений (много данных о площади лесных насаждений).

Из методов описания аэрокосмических снимков возьмём наиболее распространённые концепты описания лесного массива. В рамках данной работы апробация метода буде производится на определении породы деревьев и её процентном содержании на изображении.

В качестве пород были выбраны наиболее распространённые породы деревьев в Архангельской области: Ель, Сосна, Осина и Береза.

В случае процентного содержания были выделены четыре условных класса, определяемых по следующим правилам:

  • порядка 90% - выбранная порода дерева занимает большую (подавляющую) часть лесного массива, находящегося на изображении;
  • порядка 50% - на изображении присутствует две распознаваемые породы деревьев в примерно равных пропорциях;
  • порядка 30% - на изображении присутствует более двух пород деревьев в примерно равных пропорциях;
  • менее 10% - выбранная порода деревьев занимает незначительную часть от объема лесного массива, находящегося на изображении.

Для выделения концептов используются сверточные нейронные сети, а если быть точнее комплекс нейронных сетей: для каждой породы дерева обучается отдельная нейронная сеть, при этом в рамках одного концепта модель нейронной сети одна и та же, отличаются только веса. Данный подход может показаться избыточным, но в свою очередь он имеет ряд преимуществ: гибкая масштабируемость (добавление новой породы дерева не требует изменение модели нейронной сети), относительная простота необходимых моделей нейронных сетей, а значит и более быстрое обучение. 

Набор данных для обучения представляет из себя массив размеченных изображений 224x224x3 лесных массивов. В рамках работы было собрано порядка 1500 уникальных изображений по 300-400 на каждую из пород деревьев плюс изображения со смешанным лесом.

Перейдем непосредственно к методу. Формально его можно описать в виде DFD-диаграммы (рисунок 1).

1

Рисунок 1. DFD диаграмма метода.

Ключевыми объектами в методе является пользователь инициализирующий процесс преобразования изображения и автоматизированная система, выполняющая требуемое преобразование.

На рисунке 2 изображена декомпозиция основного элемента диаграммы метода.

После получения изображения его необходимо предварительно обработать и привести к единому формату. Унифицированным форматом в данном случае является многомерный массив, хранящий нормализованное значение цветов пикселей в зависимости от кодировки цвета.

Следующим шагом происходит выделение признаков. На диаграмме и в рамках метода это набор независимых механик, с помощью которых на изображении могут быть выделены необходимы характеристики и признаки. В рамках данной работы будет рассмотрена реализация с использованием глубоких нейронных сетей.

2

Рисунок 2. Декомпозиция основного элемента диаграммы метода.

Как видно на диаграмме в данном процессе используются хранилище данных. Нейросетевые модели или иные параметры, необходимые для выделения признаков на изображении, вынесены из программного модуля и могут заменятся в процессе работы системы без необходимости переписывать программный код системы.

Список выделенных признаков передается далее в процесс их интерпретирования в конечный текстовый результат.

В рамках работы был разработан модуль для описания изображения лесного массива. Для определения породы дерева использовалась сверочная нейронная сеть, состоящая из 11 чередующихся слоёв свертки и пулинга и из двух слоев в полносвязной части. В качестве функции активации использовал функция ReLU.

Для интерпретации использовались список строгих правил. Данный подход даёт возможность формировать однотипные тексты, что достаточно на данном этапе работ.

На рисунке 3 представлен пример вывода программного модуля.

3

Рисунок 3. Пример вывода программного модуля.

Разработанный метод показал хорошие результаты в процессе апробации и может быть адаптирован для решения практических задач. Дальнейшее развитие в данном направлении будут направлены на повышение точности и функциональности итогового решения.

Список литературы

  1. Франсуа Шолле. Глубокое обучение на Python [Текст]. – СПб.: Питер, 2018. – 400 с.
  2. Лесной план Архангельской области [Electronic resource]: [site]. – Electronic text data. – Mode of access: http://extwprlegs1.fao.org/docs/pdf/rus155906.pdf (15.06.2020).
  3. Райченко Н.Э. Пособие по дешифрированию древесной растительности на сверхдетальных изображениях [Текст]: учеб. пособие. – Москва. – 2014.

Интересная статья? Поделись ей с другими: