УДК 004.89

Анализ признаков, влияющих на популярность видео на Youtube

Рубин Иван Максимович – магистрант Университета ИТМО

Аннотация: В статье исследуется вопрос прогнозирования популярности видеоконтента на платформе YouTube, которая является неотъемлемой частью современной цифровой культуры. Работа начинается с обзора ключевых научных статей, посвященных этой проблематике, и выявления основных подходов и методов, предложенных в них. Затем представлена собственная методика оценки популярности видео, а также проанализировано влияние различных факторов на её уровень. Используя выгруженные данные из YouTube Data API v3 и обработку с помощью PySpark, было проведено исследование, включающее в себя анализ влияния дня недели и времени публикации, а также оценку популярности видео в зависимости от его категории и продолжительности. Дополнительно рассматривались различные признаки, такие как разрешение видео, наличие тегов и описания, которые могут влиять на его успешность. В конечном итоге, проведен анализ признаков, влияющих на популярность видео, с применением моделей машинного обучения, включая линейную регрессию и GBT. Полученные результаты позволили выявить наиболее значимые факторы для прогнозирования популярности видео на YouTube.

Ключевые слова: анализ данных, машинное обучение, Youtube, аналитика социальных медиа.

Введение

В наше время онлайн-платформы для обмена видеоконтентом, такие как YouTube, становятся неотъемлемой частью нашей цифровой культуры. Феноменальные успехи видео, набирающих миллионы просмотров в течение короткого времени, привлекают внимание исследователей, аналитиков и маркетологов. Предсказание популярности видео на YouTube становится важной задачей для создателей контента, рекламодателей и аналитиков социальных медиа.

Сперва рассмотрим несколько ключевых работ, посвященных предсказанию популярности видео на YouTube, и выделим основные подходы и методики, предложенные в них. Для начала, работа "Predicting Popularity of Online Videos Using Support Vector Regression" [1] предлагает метод регрессии на основе метода опорных векторов для предсказания популярности онлайн-видео. Затем, "Will This Video Go Viral? Explaining and Predicting the Popularity of Youtube Videos" [2] обсуждает практический инструмент HIPie для анализа и прогнозирования популярности видео на YouTube. Статья "YouTube Videos Prediction: Will this video be popular?" [3] предлагает методику для классификации видео на основе различных признаков. " LARM: A Lifetime Aware Regression Model for Predicting YouTube Video Popularity" [4] представляет модель LARM для предсказания популярности видео на YouTube с учетом времени жизни контента. В "Video Popularity Prediction by Sentiment Propagation via Implicit Network" [5] предлагается модель DSHP для предсказания популярности видео на основе анализа настроений пользователей. " Characterizing Feature Influence and Predicting Video Popularity on YouTube " [6] представляет метод прогнозирования популярности онлайн-видео на основе различных признаков и методов классификации и регрессии. И, наконец, "A Peek Into the Future: Predicting the Popularity of Online Videos" [7] рассматривает предсказание популярности онлайн-видео как важную задачу для различных аспектов обслуживания, рекламы и управления сетью. Эти работы представляют разнообразные подходы к предсказанию популярности видео на YouTube и предлагают ценные инструменты для анализа и оптимизации контента на этой платформе.

В данной же статье предложена своя метрика оценки популярности видео, а также изучено влияние различных факторов на эту популярность, в том числе с помощью машинного обучения.

Выгрузка данных

Выгрузка данных производилась с помощью youtube data api v3 по определенному алгоритму. Сначала был сформирован список популярных запросов, такие как «Хобби», «Новости», «Игры» и т. д. По каждому запросу формировался список каналов, и с каждого канала из списка скачивалась информация обо всех видео.

Данные об 1 видео содержат информацию: о названии, описании, времени и дате публикации, категории, длительности, разрешении, количестве комментариев, тегах, лайках и просмотрах. Итоговые данные содержали информацию о 5489 каналах, 3977563 видео и весели 7,5 ГБ. Обработка данных проводилась с помощью PySpark.

Оценка популярности в зависимости от признаков

В качестве критерия оценки выбрана популярность "popularity" содержащая сумму масштабированных значений просмотров, лайков и комментариев для каждого видео.

Сперва была проанализирована популярность в зависимости от дня недели, в который видео было выложено (рисунок 1). Было определено, что видео, выложенные в понедельник и воскресенье, имеют повышенное значение популярности.

image001

Рисунок 1. Популярность видео в зависимости от дня недели.

Также влияет на популярность время, в которое видео было опубликовано (рисунок 2). Время с 8 до 18 является наиболее удачным.

image002

Рисунок 2.  Популярность видео в зависимости от времени.

Наиболее популярными оказались следующие темы: Comedy, Gaming, Pets & Animals, Howto & Style, Entertainment (рисунок 3):

image003

Рисунок 3. Популярность видео в зависимости от темы.

Также было выявлены резкие изменения в некоторых темах. В 2020 году снизилась популярность видео на тему Travel & Events и возросла популярность видео Nonprofit & Activism (рисунок 4). Это можно связать с пандемией covid19. А в 2022 популярной стала тема News & Politics (рисунок 5).

image004

Рисунок 4. Популярность тем Travel & Events и Nonprofit & Activism в зависимости от года публикации.

image005 

Рисунок 5. Популярность темы News & Politics в зависимости от года публикации.

Продолжительность видео также имеет свое значение (рисунок 6):

image006

Рисунок 6. Популярность видео в зависимости от масштабированных значений длительности.

Далее будет рассмотрен некоторый ряд дополнительных признаков, которые могут влиять на популярность видео, который включает в себя: разрешение видео (hd, sd) (рисунок 7), наличие тегов (рисунок 8), наличие заглавных букв в названии (рисунок 9), наличие знака вопроса или восклицательного знака в названии (рисунок 10), наличие смайлов в названии (рисунок 11), наличие описания (рисунок 12), наличие хештегов в описании (рисунок 13), наличие ссылок в описании (рисунок 14).

image007

Рисунок 7. Популярность видео в зависимости от разрешения.

image008

Рисунок 8. Популярность видео в зависимости от наличия тегов.

 image009

Рисунок 9. Популярность видео в зависимости от наличия заглавных букв в названии.

image010 

Рисунок 10. Популярность видео в зависимости от наличия знака вопроса или восклицательного знака в названии.

 image011

Рисунок 11. Популярность видео в зависимости от наличия смайлов в названии.

image012

Рисунок 12. Популярность видео в зависимости от наличия описания.

 image013

Рисунок 13. Популярность видео в зависимости от наличия хештегов в описании.

image014

Рисунок 14. Популярность видео в зависимости от наличия ссылок в описании.

Однако наибольшее значение на популярность оказывает средняя популярность видео на канале за последний месяц (рисунок 15):

image015

Рисунок 15. Популярность видео в зависимости от средней популярности видео за последний месяц на канале.

По итогу видео, которое будет иметь больше шансов на успех, должно быть на одну из популярных тем, иметь достаточную длительность, качество видео должно быть высоким. При опубликовании необходимо заполнить теги, добавить описании со ссылками и хештегами, а в названии использовать заглавные буквы, смайлы, восклицательные знаки и знаки вопроса. Лучшим временем для публикации будет с 8 до 18 в понедельник или воскресенье. Также желательно, чтобы канал уже имел положительный опыт ранее и видео на нем были относительно успешными.

Прогнозирование популярности видео с помощью машинного обучения

Для прогнозирования популярности в рамках Pyspark использовались следующие модели машинного обучения: линейная регрессия и GBT. Метрики качества используемых алгоритмов представлены в таблице 1. GBT  в данном случае показывает лучший результат.

Таблица 1. Метрики качества используемых алгоритмов.

Модель

RMSE

R2

Линейная регрессия

0.188958

0.834815

GBT

0.179347

0.851191

 

Также была проанализирована важность признаков с помощью машинного обучения (рисунок 16). Наиболее важным признаком, как и ожидалось, является средняя популярность канала за последний месяц.

image016

Рисунок 16. Важность признаков.

Заключение

Анализ признаков, влияющих на популярность видео на YouTube, является сложной задачей, так как на успех видео влияет множество факторов. Однако, изучив различные аспекты, такие как тематика видео, качество контента, время публикации, количество просмотров, лайков, комментариев и другие параметры, можно выделить некоторые закономерности и определить, какие признаки наиболее сильно влияют на популярность видео. Это поможет создателям контента оптимизировать свои стратегии продвижения и улучшить показатели своих видео на платформе.

Список литературы

  1. Trzcinski, Tomasz и Przemysław Rokita. "Предсказание популярности онлайн-видео с использованием метода SVR". // IEEE Transactions on Multimedia, том 19, выпуск 11, ноябрь 2017, стр. 2561–2570. DOI: 10.1109/TMM.2017.2695439.
  2. Kong, Quyu, Marian-Andrei Rizoiu, Siqi Wu и Lexing Xie. "Будет ли это видео вирусным? Объяснение и прогнозирование популярности видео на YouTube". // WWW '18: Сопутствующие материалы конференции The Web Conference 2018, апрель 2018, стр. 175–178. DOI: 10.1145/3184558.3186972.
  3. Li, Yuping, Kent Eng, и Liqian Zhang. "Прогнозирование популярности видео на YouTube: будет ли это видео популярным?" // Department of Civil and Environmental Engineering, Stanford University, Stanford, CA 94305.
  4. Ma, Changsha, Zhisheng Yan и Chang Wen Chen. "LARM: Модель регрессии, учитывающая время жизни, для прогнозирования популярности видео на YouTube". // CIKM '17: Proceedings конференции по информационному и управленческому менеджменту ACM, ноябрь 2017, стр. 467–476. DOI: 10.1145/3132847.3132997.
  5. Ding, Wanying, Yue Shang, Lifan Guo, Xiaohua Hu, Rui Yan и Tingting He. "Прогнозирование популярности видео на основе распространения настроения через неявную сеть". // CIKM '15: Proceedings 24-й международной конференции ACM по информационному и управленческому менеджменту, октябрь 2015, стр. 1621–1630. DOI: 10.1145/2806416.2806505.
  6. Абдихаким, А. Characterizing Feature Influence and Predicting Video Popularity on YouTube // Diva-portal.org. 2021. [Онлайн]. Доступно: [https://www.diva-portal.org/smash/get/diva2:1603397/FULLTEXT01.pdf].
  7. Ouyang, Shuxin, Chenyu Li и Xueming Li. "Взгляд в будущее: прогнозирование популярности онлайн-видео". // IEEE Access, том 4, июнь 2016, стр. 3026–3033. DOI: 10.1109/ACCESS.2016.2580911.

Интересная статья? Поделись ей с другими: