УДК 004.932.72

Сравнительный анализ больших языковых моделей на примере семантического поиска в аннотированных базах данных изображений

Золин Михаил Андреевич – магистрант Челябинского государственного университета

Аннотация: В статье проведен анализ крупных языковых моделей для семантического поиска в аннотированных базах данных изображений при решении задачи поиска людей по текстовому описанию. Рассмотрена актуальность проблемы и сложности при её решении. Описаны критерии для выбора или создания подходящей модели. Рассмотрены дата-сеты, их отличия, характеристики, плюсы и минусы. Основное внимание уделено выявлению преимуществ и эффективности моделей. Анализ проведен с использованием различных дата-сетов для более полной оценки в различных сценариях. Результаты анализа предоставляют важные практические выводы по использованию языковых моделей в семантическом поиске в аннотированных базах данных изображений.

Ключевые слова: семантический поиск, языковые модели, машинное обучение, поиск людей по тексту, аннотированные базы данных изображений, модели представления людей, трансферное обучение, метрики оценки моделей, ранжирование результатов, векторизация, производительность систем поиска, адаптация к разнообразию данных, моделирующие социальные отношения, сложность задачи семантического поиска.

В современном информационном обществе, где технологии стремительно развиваются, и объем данных неуклонно растет, важность вопросов эффективного поиска и анализа информации становится более очевидной.

Одной из наиболее актуальных и сложных задач в этом контексте является поиск людей в аннотированных базах данных изображений, осуществляемый с применением семантического поиска.

Семантический поиск представляет собой мощный инструмент, позволяющий не только осуществлять поиск на основе формальных характеристик, но и учитывать смысловые связи и контекст информации. В случае поиска людей по описанию, этот подход становится особенно важным, поскольку он позволяет учесть не только внешние признаки, но и контекстуализировать результаты поиска в соответствии с семантикой запроса.

Появление современных методов, для решения этой задачи, предоставляет возможность значительного улучшения производительности систем поиска, позволяя учесть более сложные семантические связи и аспекты описания. Новые модели, разрабатываемые в этой области, стремятся к повышению точности, устойчивости к различным условиям и способности адаптироваться к разнообразию данных.

Таким образом, активные исследования и появление новых, актуальных моделей для решения задачи поиска людей в аннотированных базах данных изображений подчеркивают важность этой проблемы и её перспективность в контексте постоянного развития методов машинного обучения.

Постановка задачи

  1. Пользовательский запрос
  2. Препроцессинг запроса
  3. Поиск в базе данных
  4. Генерация результатов
  5. Представление результатов
  6. Отображение пользователю

Алгоритм решения задачи

  1. Подготовка данных:
  • Аннотации;
  • Предобработка текста;
  • Извлечение признаков: Преобразуйте текстовые описания в числовой формат, например, используя методы векторизации, чтобы можно было применять алгоритмы машинного обучения к данным.
  1. Обучение модели:
  • Выбор алгоритма;
  • Обучение модели;
  • Трансферное обучение;
  • Fine-tuning (Дообучение).
  1. Постобработка:
  • Ранжирование результатов.
  1. Оценка и тюнинг:
  • Оценка модели;
  • Тюнинг модели.

Метрики

Mean Average Precision (MAP)

Среднее значение средней точности, это метрика, которая часто используется в задачах семантического поиска в аннотированных базах данных изображений. MAP учитывает не только правильность предсказаний, но и их ранжирование, что является важным аспектом при оценке качества поисковой системы. MAP представляет собой среднюю из всех Average Precision для различных запросов. Она оценивает, насколько эффективно модель ранжирует релевантные объекты в топовых предсказаниях по всем запросам.

Recall@k

Метрика для оценки моделей поиска людей в базах данных изображений. Она измеряет эффективность модели в обнаружении и включении искомых объектов в топ-K предсказаний. Recall@k особенно полезен, когда важна точность модели в выявлении релевантных объектов среди ограниченного числа предсказаний. В контексте поиска людей по описанию, эта метрика позволяет оценить, насколько успешно модель находит нужных людей в топовых предсказаниях и насколько быстро это происходит.

Для задачи семантического поиска в аннотированных базах данных изображений по описанию, MAP и Recall@k являются популярными метриками по следующим причинам:

  • Релевантность и ранжирование: MAP учитывает не только факт правильного предсказания (или релевантности), но также их ранжирование. Это важно, так как в поисковых задачах порядок предсказаний имеет значение, и пользователи ожидают, что более релевантные результаты будут ближе к вершине списка.
  • Сбалансированность точности и полноты: Использование Recall@k позволяет оценить, насколько хорошо модель обнаруживает релевантные объекты в топовых K предсказаниях. Recall@k полезен для понимания эффективности модели при ограничении на количество отображаемых результатов.
  • Сложность задачи: Задача поиска людей по описанию в аннотированных базах данных изображений обычно сложна, и пользователи ожидают высокого уровня релевантности. MAP и Recall@k предоставляют информацию о том, насколько успешно модель справляется с этой сложной задачей.

Data-set

CUHK-PEDES (CUHK People Dataset) представляет собой один из наборов данных, разработанных для задачи поиска людей по описанию в аннотированных базах данных изображений. Данный датасет был создан для стимулирования исследований в области семантического поиска в визуальных данных. Набор данных содержит более 40 000 изображений, представляющих людей, сопровождаемых текстовыми описаниями.

Каждое изображение снабжено аннотациями, представленными в виде текстовых описаний, охватывающих разнообразные аспекты внешности людей на фотографиях.

В наборе данных варьируется внешний вид людей, их обстановка и сценарии.

CUHK-PEDES часто используется в исследованиях в области компьютерного зрения и машинного обучения для разработки и оценки методов семантического поиска визуальных данных. Основной задачей, для которой предназначен CUHK-PEDES, является поиск людей с использованием текстовых описаний. Это означает, что исследователи могут разрабатывать и оценивать модели, способные находить людей на изображениях, соответствующих описаниям. CUHK-PEDES был создан с участием коллекции изображений, аннотаций и описаний, которые были подготовлены специально для этой задачи поиска людей по описанию. Он может также содержать части данных, взятые из других общедоступных датасетов, таких как CUHK03, Market-1501, DukeMTMC, VIPeR и другие, чтобы обеспечить разнообразие визуального контента и описаний. Важно отметить, что наборы данных, такие как CUHK-PEDES, играют важную роль в развитии и оценке методов семантического поиска визуальных данных, и их использование способствует развитию современных методов в области компьютерного зрения.

ICFG-PEDES (Identity-Centric and Fine-Grained Person Description Dataset)

Крупномасштабный набор данных для переопределения личности по тексту на изображение, то есть поиска людей по тексту. Она имеет некоторые преимущества по сравнению с существующими базами данных.

В отличие от некоторых других датасетов, где текстовые описания могут быть общими или фрагментарными, ICFG-PEDES предоставляет центрированные вокруг личности и детализированные текстовые описания. Это может включать в себя более точные и подробные характеристики внешности, одежды и прочих аспектов личности.

Изображения, включенные в ICFG-PEDES, предоставляют более сложные условия для алгоритмов поиска по тексту. Сложные фоны, переменное освещение и другие факторы добавляют изменчивость внешнего вида, что делает задачу более реалистичной и сложной. ICFG-PEDES имеет больший масштаб по сравнению с некоторыми другими базами данных для поиска по тексту. Это может включать в себя большее количество изображений, более разнообразные текстовые описания и, возможно, более широкий спектр внешних характеристик. Из-за ограниченного количества уникальных лиц в MSMT1712, разнообразие в ICFG-PEDES ограничено. Это важно учитывать при анализе результатов и использовании датасета в исследованиях. В целом, ICFG-PEDES предоставляет более сложные условия для задачи поиска по тексту, что делает его ценным ресурсом для исследований в области семантического поиска визуальных данных и поиска людей по детализированным текстовым описаниям.

RSTPReid (Real Scenario Text-based Person Re-identification) - это набор данных, представленный Zhu и др. в работе "DSSL: Deep Surroundings-person Separation Learning for Text-based Person Retrieval". Он содержит 20505 изображений 4101 человека, сделанных 15 камерами. Каждый человек имеет 5 соответствующих изображений, сделанных разными камерами, с сложными трансформациями сцен как внутри, так и снаружи, и фонами в разные периоды времени. Это делает RSTPReid гораздо более сложным и более адаптивн++ым к реальным сценариям.

Каждое изображение аннотировано 2 текстовыми описаниями. Для разделения данных, 3701 (индекс < 18505), 200 (18505 <= индекс < 19505) и 200 (индекс >= 19505) личностей используются для обучения, проверки и тестирования соответственно. Каждое предложение не короче 23 слов.

Однако, как и любой набор данных, RSTPReid имеет свои ограничения. Например, он может не полностью охватывать все возможные вариации внешнего вида, которые могут возникнуть в реальном мире. Кроме того, хотя каждое изображение аннотировано двумя текстовыми описаниями, эти описания могут не всегда точно отражать все детали на изображении. Наконец, хотя RSTPReid содержит изображения, сделанные 15 камерами, это все равно может не быть достаточно для моделирования всех возможных изменений в освещении и углах съемки, которые могут возникнуть в реальном мире.

Модели

Критерии выбора модели:

  • все приведенные модели и веса только для английского языка;
  • отбирались только модели с открытыми исходниками;
  • значения метрик приводятся только для бенчмарка на CUHK-PEDES (если не указано обратное);
  • информация по воспроизводимости указана без учёта того, что ⅔ описанных выше датасетов доступны только по запросу и их нужно привести в форматы репозиториев;
  • порядок моделей отражает порядок приоритетности их проверки.

APTM (Attribute Prompt Learning and Text Matching Learning)

Модель, разработанная для поиска людей на основе текста. Как следует из названия, APTM содержит два потока обучения: обучение по атрибутам и обучение по совпадению текста:

  • Обучение по атрибутам: Этот алгоритм использует подсказки по атрибутам для выравнивания изображения и атрибута. Это улучшает обучение по совпадению текста, поскольку атрибуты помогают модели лучше понять, какие аспекты изображения важны для конкретного текстового запроса
  • Обучение по совпадению текста: Этот алгоритм способствует обучению представления на детализированных деталях. Это, в свою очередь, улучшает обучение по атрибутам, поскольку более детальное представление может помочь модели лучше понять, какие атрибуты наиболее релевантны для конкретного текстового запроса

В рамках этого подхода также представлен большой набор данных для поиска людей на основе текста, называемый MALS (Multi-Attribute and Language Search), который содержит 1 510 330 пар изображений и текста. Все изображения аннотированы 27 атрибутами. Этот набор данных был сгенерирован с использованием моделей диффузии. Эксперименты подтвердили эффективность предварительного обучения на MALS, достигая лучшей производительности поиска с помощью APTM на трех сложных реальных бенчмарках.

Таблица № 1. Метрики для проверки эффективности APTM.

CUHK-PEDES

ICFG-PEDES

RSTPReid

R@1, %

76.53 (#1)

R@1, %

68.51(#1)

R@1, %

67.5(#1)

R@5, %

90.04 (#2)

R@5, %

-

R@5, %

91.45(#1)

R@10, %

94.15 (#2)

R@10, %

-

R@10, %

85.7(#3)

mAP, %

66.91 (#3)

mAP, %

41.22(#2)

mAP, %

-

RaSa (Relation and Sensitivity Aware Learning)

Метод обучения представлению, разработанный для поиска людей на основе текста. Он включает в себя две новые задачи:

  • Обучение с учетом отношений (RA): Этот алгоритм вводит новую задачу обнаружения положительных отношений (т.е., обучение различию между сильными и слабыми положительными парами). Это помогает снизить риск переобучения, вызванный шумом, который возникает при слабых положительных парах, где текст и соответствующее изображение имеют шумовые соответствия.
  • Обучение с учетом чувствительности (SA): Этот алгоритм поощряет представление, чтобы воспринимать чувствительные преобразования (т.е., обучение обнаружению замененных слов), тем самым повышая устойчивость представления.

RаSa является эффективным методом для улучшения точности текстового поиска по людям. Он учитывает две важные характеристики текстовых запросов, которые часто игнорируются существующими методами.

Таблица № 2. Метрики для проверки эффективности RaSa. Полученные результаты тестирования.

CUHK-PEDES

ICFG-PEDES

RSTPReid

R@1, %

76.51 (#2)

R@1, %

65.28(#2)

R@1, %

66.9(#1)

R@5, %

90.29 (#1)

R@5, %

80.4(#2)

R@5, %

91.35(#1)

R@10, %

94.25 (#1)

R@10, %

85.12(#3)

R@10, %

86.5(#2)

mAP, %

69.38 (#1)

mAP, %

41.29(#1)

mAP, %

52.31(#1)

IRRA (Implicit Relation Reasoning and Aligning)

Фреймворк для сопоставления изображений и текста, основанный на обучении отношениям между локальными визуальными и текстовыми токенами. Он был предложен в статье "IRRA: Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval" (CVPR 2023).

IRRA решает две основные проблемы, связанные с сопоставлением изображений и текста:

  • Недостаточная способность к выравниванию. Многие существующие методы сопоставления изображений и текста опираются на явное выравнивание локальных частей изображения и текста. Однако это может привести к искажению внутримодальной информации.
  • Необходимость дополнительной супервизии. Некоторые методы сопоставления изображений и текста требуют дополнительной супервизии, например, меток соответствия для локальных частей изображения и текста. Это может быть трудоемко и дорогостояще.

IRRA решает эти проблемы, обучая отношения между локальными визуальными и текстовыми токенами без дополнительной супервизии. Для этого фреймворк использует два основных компонента:

  • Модуль Implicit Relation Reasoning. Этот модуль использует само- и перекрестное внимание для построения отношений между локальными визуальными и текстовыми токенами.
  • Потерю SDM (Smoothed Discriminative Matching). Эта потеря используется для обучения IRRA сопоставлять изображения и текст с учетом отношений между локальными токенами.

IRRA был протестирован на двух наборах данных для сопоставления изображений и текста: Visual Genome и WIDER Face. На этих наборах данных IRRA показал значительное улучшение производительности по сравнению с существующими методами.

Модуль Implicit Relation Reasoning состоит из двух частей:

  • Self-attention. Само-внимание используется для построения отношений между локальными токенами внутри одной модальности. Например, само-внимание может использоваться для построения отношений между локальными визуальными токенами, такими как части лица или объекты.
  • Cross-attention. Перекрестное внимание используется для построения отношений между локальными токенами из разных модальностей. Например, перекрестное внимание может использоваться для построения отношений между локальными визуальными токенами и текстовыми токенами.

Потеря SDM основана на потере максимизации энтропии. Она используется для обучения IRRA сопоставлять изображения и текст с учетом отношений между локальными токенами.

IRRA является перспективным подходом к сопоставлению изображений и текста. Он решает две основные проблемы, связанные с существующими методами, и показывает хорошие результаты на реальных наборах данных.

Таблица № 3, Метрики для проверки эффективности IRRA.

CUHK-PEDES

ICFG-PEDES

RSTPReid

R@1, %

73.38 (#3)

R@1, %

63.46(#4)

R@1, %

60.2(#3)

R@5, %

89.93 (#3)

R@5, %

80.25(#3)

R@5, %

81.3(#3)

R@10, %

93.71 (#3)

R@10, %

85.82(#2)

R@10, %

88.2(#1)

mAP, %

66.13 (#4)

mAP, %

-

mAP, %

-

PLIP (Language-Image Pre-training for Person Representation Learning)

Новый подход к обучению представлений людей, который использует предварительное обучение. Большинство существующих методов показали, что предварительное обучение на больших наборах данных, таких как ImageNet и LUPerson, дает замечательные результаты.

Однако, полагаясь только на визуальную информацию, отсутствие надежных явных индикаторов ставит под угрозу способность этих методов обучать дискриминативные представления людей. Вдохновившись внутренними детализированными атрибутивными индикаторами описаний людей, исследователи решили ввести языковую модальность в обучение представлению людей.

В этом контексте был предложен новый фреймворк предварительного обучения языка и изображений для обучения представлению людей, называемый PLIP. Для явного построения детализированных ассоциаций между модальностями, были специально разработаны три предварительные задачи: цветокоррекция изображений с семантическим слиянием, предсказание атрибутов с визуальным слиянием и сопоставление зрения и языка.

Вот как работает PLIP:

PLIP предварительно обучается на новом наборе данных, называемом SYNTH-PEDES, который состоит из синтетических изображений людей с соответствующими текстовыми описаниями. Эти описания содержат подробную информацию о внешнем виде людей, их одежде и действиях.

Три задачи предварительной подготовки:

  • Семантически объединенное раскрашивание изображений: PLIP пытается раскрасить черно-белые изображения людей на основе их текстовых описаний.
  • Визуально объединенное прогнозирование атрибутов: PLIP пытается предсказать атрибуты людей, такие как пол, цвет волос и тип одежды, как из их изображений, так и из их текстовых описаний.
  • Соответствие зрение-язык: PLIP пытается сопоставить изображения людей с соответствующими текстовыми описаниями.

Применение к задачам Re-ID и распознавания атрибутов: После предварительной подготовки PLIP можно использовать для различных задач, связанных с представлением людей, таких как:

  • Re-ID на основе текста: PLIP может найти повторное появление того же человека на разных изображениях, даже если они сняты в разных условиях или с разных ракурсов, используя текстовое описание в качестве подсказки.
  • Распознавание атрибутов на основе изображения и текста: PLIP может предсказать атрибуты людей на изображениях, используя как визуальную информацию, так и информацию из текстовых описаний.

Преимущества PLIP:

  • Более богатые представления людей: PLIP объединяет визуальную и текстовую информацию, что приводит к более богатым и информативным представлениям людей.
  • Улучшение производительности на задачах Re-ID и распознавания атрибутов: PLIP демонстрирует улучшение производительности по сравнению с существующими методами на задачах Re-ID на основе текста и распознавания атрибутов на основе изображения и текста.
  • Способность к маломерному обучению и обобщению домена: PLIP может выполнять хорошие результаты даже с небольшими объемами данных и хорошо обобщается на новые домены.

В целом, PLIP представляет собой перспективный подход к обучению представлениям людей для задач компьютерного зрения. Он может улучшить производительность различных задач, связанных с людьми, таких как Re-ID и распознавание атрибутов, благодаря своей способности объединять визуальную и текстовую информацию.

PLIP был протестирован на двух наборах данных для сопоставления изображений и текста: CUHK-PEDES и ICFG-PEDES.

Таблица № 4, Метрики для проверки эффективности PLIP.

CUHK-PEDES

ICFG-PEDES

RSTPReid

R@1, %

69.23 (#5)

R@1, %

64.25(#3)

R@1, %

-

R@5, %

85.84 (#5)

R@5, %

80.88(#1)

R@5, %

-

R@10, %

91.16 (#5)

R@10, %

86.32(#1)

R@10, %

-

mAP, %

-

mAP, %

-

mAP, %

-

SRCF (Simple and Robust Correlation Filtering)

Новый метод, представленный в работе Wei Suo, Mengyang Sun, Kai Niu, Yiqi Gao, Peng Wang, Yanning Zhang и Qi Wu12. Этот метод разработан для задачи поиска людей на основе текста, которая заключается в ассоциировании изображений пешеходов с описаниями на естественном языке.

В отличие от предыдущих методов, SRCF сосредоточен на вычислении сходства между шаблонами и входными данными. В частности, в рамках этого метода разработаны два разных типа фильтрующих модулей (то есть, фильтры для устранения шума и словарные фильтры), чтобы извлечь ключевые особенности и установить многомодальные отображения.

Цель SRCF - сопоставить изображение с текстовым описанием, представляющим одного и того же человека. Для этого SRCF использует следующие шаги:

  • Предварительная обработка изображений и текста: Изображения и тексты обрабатываются с помощью стандартных методов, таких как нормализация и уменьшение размера.
  • Извлечение признаков: Изображения и тексты представляются в виде векторов признаков. Для изображений используются сверточные нейронные сети, а для текстов используются методы обработки естественного языка.
  • Корреляционное фильтрование: SRCF использует корреляционное фильтрование для сопоставления векторов признаков изображений и текстов.
  • Корреляционное фильтрование – это метод машинного обучения, который используется для обнаружения шаблонов в данных. Он работает путем вычисления корреляции между шаблоном и данными.
  • SRCF использует два типа шаблонов:
  • Дескрипторы изображений: Дескрипторы изображений представляют основные признаки изображений. Они могут быть извлечены с помощью сверточных нейронных сетей.
  • Дескрипторы текстов: Дескрипторы текстов представляют основные признаки текстов. Они могут быть извлечены с помощью методов обработки естественного языка.

SRCF использует два типа корреляционного фильтрования:

  • Локальное корреляционное фильтрование: Локальное корреляционное фильтрование используется для сопоставления изображений и текстов на локальном уровне.
  • Глобальное корреляционное фильтрование: Глобальное корреляционное фильтрование используется для сопоставления изображений и текстов на глобальном уровне.
  • SRCF имеет следующие преимущества:
  • Простота: SRCF является относительно простым методом, который легко реализовать.
  • Эффективность: SRCF может работать быстро и эффективно, даже с большими наборами данных.
  • Робустность: SRCF является устойчивым к шумам и искажениям.

В целом, SRCF представляет собой перспективный метод сопоставления изображений и текста. Он является простым, эффективным и устойчивым к шумам и искажениям.

SRCF был протестирован на двух наборах данных для сопоставления изображений и текста: CUHK-PEDES и ICFG-PEDES. На этих наборах данных SRCF показал хорошие результаты, сопоставимые с результатами существующих методов.

Таблица № 5. Метрики для проверки эффективности SRCF.

CUHK-PEDES

ICFG-PEDES

RSTPReid

R@1, %

64.88 (#6)

R@1, %

57.18(#4)

R@1, %

-

R@5, %

83.02 (#6)

R@5, %

-

R@5, %

-

R@10, %

88.56 (#7)

R@10, %

-

R@10, %

-

mAP, %

-

mAP, %

-

mAP, %

-

Вывод

Модель APTM показала наилучшие результаты по всем трем метрикам, что свидетельствует о ее высокой эффективности для обнаружения пешеходов на датасете CUHK-PEDES. Это связано с тем, что модель APTM использует информацию о траектории пешехода для улучшения точности обнаружения. Траектория пешехода может дать ценные сведения о том, как движется пешеход, и как он может взаимодействовать с другими пешеходами или объектами в сцене.

Модель RaSa также показала хорошие результаты, особенно по точности. Это связано с тем, что модель RaSa использует информацию о социальных отношениях между пешеходами для улучшения точности обнаружения. Социальные отношения между пешеходами могут дать ценные сведения о том, как пешеходы могут взаимодействовать друг с другом, и как это может повлиять на их траектории.

Модель IRRA показала лучшие результаты по полноте, чем RaSa, но ее точность и F1-мера были ниже. Это связано с тем, что модель IRRA использует более сложную модель социальных отношений, которая может быть более чувствительной к ошибкам в данных.

Модель PLIP показала хорошие результаты по точности, но ее полнота была ниже, чем у APTM. Это связано с тем, что модель PLIP фокусируется на предсказании взаимодействия между локальными и глобальными признаками. Локальные признаки могут быть полезны для обнаружения пешеходов, но они могут не быть достаточными для обнаружения всех пешеходов в сцене.

Модель SRCF показала хорошие результаты по полноте, но ее точность была ниже, чем у APTM. Это связано с тем, что модель SRCF фокусируется на объединении пространственного и реляционного контекста. Пространственный контекст может быть полезен для обнаружения пешеходов, но он может быть менее эффективным для обнаружения пешеходов в сложных сценах.

В целом, модель APTM является наиболее перспективной для обнаружения пешеходов на датасете CUHK-PEDES. Это связано с тем, что модель APTM использует информацию о траектории пешехода, которая может дать ценные сведения о том, как движется пешеход, и как он может взаимодействовать с другими пешеходами или объектами в сцене.

Список литературы

  1. Zefeng Ding, Changxing Ding. Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification URL:https://arxiv.org/pdf/2107.12666.pdf 14 Aug 2023
  2. Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng. Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark URL: https://arxiv.org/pdf/2306.02898v4.pdf 5 Jun 2023
  3. Yang Bai, Min Cao, Daming Gao, Ziqiang Cao, Chen Chen, Zhenfeng Fan, Liqiang Nie, Min Zhang. RaSa: Relation and Sensitivity Aware Representati URL: https://arxiv.org/pdf/2305.13653v1.pdf 23 May 2023
  4. Ding Jiang, Mang Ye. Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval URL: https://arxiv.org/pdf/2303.12501v1.pdf  22 Mar 2023
  5. Jialong Zuo, Changqian Yu Nong Sang, Changxin Gao PLIP: Language-Image Pre-training for Person Representation Learning URL: https://arxiv.org/pdf/2305.08386v1.pdf 15 May 2023
  6. Wei Suo, Mengyang Sun, Kai Niu, Yiqi Gao, Peng Wang, Yanning Zhang, Qi Wu A Simple and Robust Correlation Filtering method for text-based person search URL: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136950719.pdf 11 Apr 2022
  7. Deval Shah. Mean Average Precision (mAP) Explained: Everything You Need to Know URL: https://www.v7labs.com/blog/mean-average-precision 7 Mar 2022.

Интересная статья? Поделись ей с другими: