УДК 339.54.012

Использование алгоритмов компьютерного зрения для анализа качества видеопотока

Сигалов Давид Игоревич – магистрант Московского инженерно-физического института

Аннотация: В статье рассматривается разработка систем компьютерного зрения (CV) реального времени, в которых объекты, события и/или угрозы анализируются автоматически с помощью алгоритмов CV. Основным примером таких систем является автоматизированное видеонаблюдение. В этих системах несколько источников видео (т. е. видеокамеры и/или датчики) передают видео в центральную систему мониторинга. Эти системы имеют ограничения, в том числе по энергопотреблению и пропускной способности, поэтому различные видеопотоки должны динамически адаптироваться на основе доступных ресурсов и желаемой производительности. Адаптация достигается путем изменения параметров захвата и кодирования исходного видео, а именно разрешения, битрейта (или параметра квантования) и/или частоты кадров. В силу своей природы основным показателем производительности систем CV является точность алгоритма(ов) CV.

Ключевые слова: алгоритм, комьютерное зрение, видеопоток, адаптация.

Компьютерное зрение (CV) – это наука, целью которой является электронное восприятие и понимание изображения или последовательности изображений (например, видео) [1]. Популярные алгоритмы CV включают обнаружение, распознавание и отслеживание объектов/событий [2]. CV недавно был использован в широком спектре приложений, включая наблюдение и автомобильную промышленность. К таким CV-системам относятся автоматизированное видеонаблюдение [3, 4], беспроводные видеосенсорные сети (WVSN) [5, 6, 7, 8], мобильные системы наблюдения [9], усовершенствованные системы помощи при вождении (ADAS) [10], автомобильные системы видеонаблюдения. видеосвязь «автомобиль/транспортное средство-инфраструктура» (V2V/V2I), системы мониторинга дорожного движения и другие интеллектуальные транспортные системы (ИТС). Согласно недавнему отчету Tractica [4], рынок CV-технологий вырастет с $5,7 млрд в 2019 году до $33,3 млрд к 2025 году.

Скоростно-энергетические характеристики необходимы для проектирования эффективных систем компьютерного зрения, таких как AVS. Методы адаптации анализируемых потоков включают пространственную, временную и SNR. При использовании SNR уровнями интенсивности кадра можно управлять, изменяя целевой битрейт или напрямую изменяя параметр квантования, оба из которых изучаются в этой главе. Для пространственно-адаптированных видео мы анализируем масштабирование видеокадров, чтобы повысить точность в пункте назначения, экспериментируя с пятью алгоритмами сверхвысокого разрешения.

Приведем видео в стандартах кодирования H.264 и MPEG-4 и проанализируем результаты с точки зрения точности, битрейта и энергопотребления источника. Для обеспечения точности мы учитываем три показателя: среднюю точность обнаружения, количество обнаружений (ненормализованная точность обнаружения) и индекс ложных срабатываний. Первую метрику, также называемую индексом обнаружения, можно определить как количество правильно обнаруженных лиц, разделенное на общее количество лиц во всех видеокадрах. Он используется для стандартных последовательностей, тогда как второй показатель используется для набора данных реальных видео, поскольку общее количество лиц в каждом видео неизвестно. Индекс ложноположительного результата – это вероятность ложноположительного результата.

Таблица 1. Пример иллюстрации модели ABE_OF.

Первый ряд матрицы адаптации (точность, битрейт, энергия)	0,99, 32, 2,33	0,98, 30, 2,29	0,30, 26, 2,28	0,05, 11, 2,25
Второй ряд матрицы адаптации (точность, битрейт, энергия)	0,95, 30, 2,29	0,97, 29, 2,28	0,28, 24, 2,21	0,04, 10, 2,18
Первая строка матрицы целей	0,68	0,96	0,27	0,04

Поскольку разные методы адаптации имеют разные характеристики с точки зрения точности, скорости передачи данных и энергопотребления, объединение различных методов может быть очень полезным. Поэтому мы разрабатываем целевую функцию, называемую целевой функцией точности-битрейта-энергии (ABEOF), которая помогает определить конкретную адаптацию или комбинацию адаптации, которую можно использовать. Эта целевая функция учитывает точность, битрейт, энергопотребление и скорость изменения каждого из них.

Занимает матрица адаптации размера N × M, строки которой представляют разные параметры квантования (или разные битрейт) в порядке возрастания, а столбцы, представляющие различные разрешения, в порядке убывания. Каждая запись представляет собой кортеж со значениями точности, битрейта и энергии для соответствующей адаптации. Применение ABEOF к матрице адаптации создает матрицу целей, которая включает общее целевое значение для каждой комбинации адаптации, причем более крупные значения являются предпочтительными.

Помимо более высокой точности, более низкого битрейта и более низкой энергии, целевая функция исследует скорость изменения каждого из этих показателей и отдает предпочтение настройке с большим последующим падением точности, меньшим последующим падением битрейта и меньшим последующим падением энергии.

Чтобы проиллюстрировать влияние скорости изменения точности, если две последовательные строки в матрице адаптации такие, как показано в первых двух строках таблицы 1, второй кортеж в первой строке будет иметь наибольшее значение ABEOF (т. е. 0,96). из-за большого падения точности впоследствии. Третья строка таблицы показывает первую строку целевой матрицы.

Общую функцию можно определить следующим образом:

(1)

где параметры A, B, E, g_A, g_B и g_E — нормированная точность обнаружения, нормированный битрейт,нормируемую потребляемую энергию и скорость изменения каждой из них соответственно. Следовательно, эти параметры имеют значения в замкнутом вещественном интервале [0, 1]. Константы m, p, u, n, q и v — это назначенные веса со значениями от 0 до 1 включительно для нормализованной точности, нормализованного битрейта, нормализованной потребляемой энергии и скорости их изменения соответственно. Каждый из этих весов используется в качестве показателя степени (т. е. степени) в уравнении для получения значения 1 (т. е. отсутствия эффекта) для соответствующего фактора (битрейт, точность, энергия и т. д.), когда этот фактор не учитывается целевой функцией.

Есть возможность игнорировать скорость изменения точности, битрейта и/или энергопотребления в ABE_OF, выбрав ноль для n, q и/или v соответственно. Кроме того, мы можем игнорировать влияние битрейта и энергопотребления, установив p и u равными нулю. Значение каждого члена в , находится внутри замкнутого вещественного интервала [1, 2].

Добавленный к каждому из этих терминов не должен влиять на ABE_OF, если соответствующий коэффициент равен нулю в матрице адаптации.

Скорость изменения можно смоделировать с помощью производной, которая может быть производной второго порядка, производная первого порядка, или диагональная разность двумерной функции f(x, y). Мы используем разницу по диагонали, потому что она обеспечивает наименьшее время выполнения при сопоставимых результатах. Диагональную разность функции f между двумя последовательными точками (x, y) и (x + 1, y + 1) можно выразить следующим образом:

(2)

Далее обсудим, как можно выбрать веса, а затем проанализируем временную сложность оценки.

Веса m, p, u, n, q и v могут быть заданы системными администраторами или предпочтительно изменяться динамически в зависимости от текущих состояний системы и контролируемого объекта. Веса точности, скорости передачи данных и энергии можно адаптировать на основе обнаруженных событий/объектов, доступной полосы пропускания и оставшегося уровня заряда батареи соответственно. Поскольку точность в автоматизированном видеонаблюдении имеет первостепенное значение, его вес (м) обычно следует устанавливать на высокое значение и увеличивать еще больше при обнаружении критических объектов или событий. Аналогично, вес потребляемой энергии (u) может основываться на уровне заряда батареи источника, тогда как вес битрейта (p) может основываться на использовании полосы пропускания носителя. Например, u можно установить равным 0, если уровень заряда батареи-источника превышает определенный порог (например, 70%), значению 1, если заряд ниже другого порога (например, 30%), и значению, обратно пропорциональному заряду батареи. взимать плату в противном случае. Аналогично, p может быть установлен в 0, если использование полосы пропускания не превышает определенного порога (например, 50%), в 1, если использование превышает другой порог (например, 80%), и в значение, пропорциональное использованию в противном случае. Использование полосы пропускания можно измерить с помощью сглаженного коэффициента занятости канала, который представляет собой процент среднего времени, в течение которого канал отображается занятым в течение заданного момента времени, как указано в стандартах IEEE 802.11p и SAE J2945.1 [6].

Скорость изменения показателей (т. е. точности, энергии и битрейта) имеют второстепенное значение к фактическим метрикам, и, таким образом, их веса могут быть установлены как доли весов соответствующих весов метрики.

Предлагаемый процесс поиска наилучшей адаптации можно резюмировать следующим образом. Во время калибровки системы и возможной повторной калибровки система записывает короткое видео, включая цели, которые необходимо измерить/

Затем система кодирует записанное видео, используя различные адаптации с точки зрения разрешения и параметра квантования или разрешения и битрейта. Впоследствии строится матрица адаптации путем определения точности, потребляемой энергии и битрейта для каждой адаптации. Чтобы избежать ручной проверки видеопотоков, точность можно определять относительно адаптации с наибольшей точностью. Битрейт можно получить из закодированного видео, тогда как энергопотребление можно оценить на основе пространственного разрешения и параметра квантования (или битрейта), используя аналитические модели из [4]. После создания матрицы адаптации для получения целевой матрицы применяется целевая функция. Наконец, проводится поиск максимального значения в целевой матрице. Этот процесс повторяется только в случае значительных изменений в системе (например, используемый кодировщик и параметры системы) или на контролируемом объекте.

Временная сложность зависит от количества сгенерированных адаптаций. К счастью, количество различных комбинаций адаптации практически ограничено из-за небольшого количества поддерживаемых разрешений и битрейтов. Параметр квантования также можно изменять с определенными шагами и в узком диапазоне практически подходящих значений. В большинстве случаев нам нужно изучить всего от 10 до 25 различных адаптаций. Для каждой адаптации нам нужно закодировать короткое видео, найти различные метрики, запустить целевую функцию и затем найти максимум. Предполагая, что N является количеством адаптаций в одном параметре/размере (разрешение или битрейт/квантование), временная сложность равна O(N²). Учитывая узкое пространство поиска, для поиска максимального значения в целевой матрице можно просто использовать метод грубой силы. Кроме того, матрица адаптации может быть предварительно отфильтрована на основе наших знаний о доступной полосе пропускания путем исключения тех адаптаций, которые превышают доступную полосу пропускания.

Всякий раз, когда веса в целевой функции изменяются динамически, целевую матрицу следует пересчитывать, а затем выбирать адаптацию с наибольшим значением. Этот процесс вызывается чаще, чем во время калибровки и повторной калибровки, но при различных адаптациях кодирование не требуется.

Таблица 2. Характеристики выбранных стандартных видеопоследовательностей [частота кадров: 30 кадров в секунду].

Последовательность	Продолжительность (с)	Разрешение	# Кадров
Silent	10	СИФ	300
Akiyo	10	СИФ	300
Deadline	45,8	СИФ	1374
SignIrene	18	СИФ	540
vtc1nw	12	4SIF (ВГА)	360

Таблица 3. Характеристики собранного набора видеоданных [частота кадров: 30 кадров в секунду].

Описание	# Видео	Продолжительность (с)	Разрешение	# Кадров
Security	100	2857	QVGA	85 710
News	200	66096	QVGA	1 982 880
Total	300	68953	QVGA	2 068 590

Применяется та же временная сложность, но фактические вычислительные затраты незначительны по сравнению с другими задачами, выполняемыми станцией мониторинга, включая выполнение алгоритмов CV.

Таким образом, проанализировали характеристики точности скорости четырех методов видеоадаптации (пространственной, пространственной с масштабированием, временной и SNR), проведя реальные эксперименты со стандартами кодирования H.264 и MPEG-4, рассматривая девять стандартных последовательностей и набор данных. из 300 реальных видео по безопасности и новостных видеороликов. Результаты показывают, что адаптация SNR обычно обеспечивает лучшие характеристики скорости и точности, за которой следует пространственная адаптация с масштабированием, но последняя работает лучше с точки зрения индекса ложных срабатываний. Мы сравнили производительность пяти алгоритмов масштабирования. Результаты показывают, что масштабирование обеспечивает выдающиеся улучшения точности обнаружения, но различные алгоритмы масштабирования работают близко друг к другу. Бикубический алгоритм обеспечивает лучший компромисс между точностью и сложностью.

Список литературы

Милан Шонка, Вацлав Главац и Роджер Бойл, Обработка изображений, анализ и машинное зрение, Cengage Learning, 2014.
Ричард Селиски, Компьютерное зрение: алгоритмы и приложения, Springer Science & Business Media, 2010.
Павел Коршунов и Вэй Цанг Оой, «Критическое качество видео для распределенного автоматизированного видеонаблюдения», в материалах 13-й ежегодной международной конференции ACM по мультимедиа, ноябрь 2005 г.
Павел Коршунов. Соотношение скорости и точности в автоматизированных распределенных системах видеонаблюдения // Cб. «Материалы 14-го ежегодного международного конгресса ACM. Конференция по мультимедиа», 2006, с. 887-889.
Чжихай Хэ, Юнфан Лян, Лулин Чен, Ишфак Ахмад и Дапенг Ву, «Анализ искажений мощности для беспроводной видеосвязи в условиях энергетических ограничений», IEEE Transactions on Circuits and Systems for Video Technology, vol. 15, нет. 5, с. 645-658, май 2005 г.
Аиша Арар, Амр Эль-Шериф, Амр Мохамед и Виктор Люнг, «Оптимальное распределение мощности и скорости в кластерных сетях видеосенсоров», в материалах Международной конференции IEEE по вычислениям, сетям и коммуникациям (ICNC), 2015 г., стр. 183–188.
Сон-Пин Чуа, Яп-Пенг Тан и Чжэньчжун Чен, «Распределение скорости и мощности для совместного кодирования и передачи в приложениях беспроводного видеочата», 2015, том. 17, с. 687-699.
Бамбанг А.Б. Шариф, М.Т. Пуразад, П. Насиопулос и В.К.М. Люнг, «Анализ энергопотребления сетей видеосенсоров на базе h.264/avc посредством моделирования сложности кодирования и скорости передачи данных», в материалах Международной конференции по цифровому обществу. (ИКДС), 2014.
Вакас А. Латиф и Чиу К. Тан. Smartargos: Улучшение мобильных систем наблюдения с помощью программно определяемых сетей // Конференция IEEE по коммуникациям и сетевой безопасности (CNS), 2015.
Мэн Го, Мостафа Х. Аммар и Эллен В. Зегура, «V3: архитектура потокового видео в реальном времени между транспортными средствами», Pervasive and Mobile Computing, vol. 1, нет. 4, с. 404-424, 2005.

Интересная статья? Поделись ей с другими: