УДК 004.052

Оценка точности рекомендательных систем: исследование, проблемы и перспективы

Симаненко Юлия Александровна – магистр Национального исследовательского университета ИТМО.

Аннотация: Данная статья предоставляет всесторонний обзор методов, используемых для оценки точности рекомендательных систем. Она анализирует преимущества и недостатки этих методов и предлагает способы преодоления вызовов, связанных с оценкой рекомендательных систем. Кроме того, в статье обсуждается текущее состояние исследований в этой области и определяются будущие направления развития точных и эффективных методов оценки.

Ключевые слова: рекомендательная система, оценка, точность, перспектива.

Существующие метрики и способы оценки работы рекомендательной системы

Чтобы определять схожесть объектов, используется понятие расстояния. Мера расстояния между объектами может высчитываться различными способами.

  • Евклидово расстояние - классическая метрика, квадратов разностей соответствующих координат.
  • Расстояние Минковского – общий случай евклидового расстояния
  • Косинусово расстояние. Измеряет угол между двумя номинальными векторами, где меньший угол указывает на большее сходство, а больший на меньшее сходство [10].
  • Коэффициент Жаккарда или cходство Жаккарда это отношение числа общих элементов для множеств к общему числу элементов в них. Используется при сравнении изображений [10].

Хотя мер расстояний существует намного больше, чем представленных (наиболее популярных), Lathia N., провел исследование и пришел к выводу, что в среднем точность рекомендательных систем не зависит от выбора метрики схожести [1].

Как таковых единых методов и рекомендаций для оценки эффективности работы рекомендательной системы, а значит и точности нет.

На разных этапах могут оцениваться различные характеристики. Сама оценка точности может проводиться как аналитически, то есть offline так и online на уже работающей системе с помощью оценок самих пользователей [2].

Также можно выделять метрики в зависимости от уровня оценки системы [12].

Уровень машинного обучения

На уровне машинного обучения определяется точность прогнозирования, методы оценки аналитические и проведения эксперимента не требуют.

Используемые характеристики:

MAE (Mean Absolute Error) – средняя абсолютная ошибка, оценивается как разница между расчётной и фактической оценкой по модулю [3].

RMSE (Root Mean Squared Error) – среднеквадратичная ошибка [4].

Основное отличие между ними состоит в результатах при больших ошибках. RMSE является более чувствительной к ним. Но обе эти метрики плохо походят для оценки работы классификаторов [5], хотя и являются одними из наиболее популярных для оценки точности сделанных рекомендаций.

Уровень поиска информации

На уровне поиска для оценки системы так же не требуется проводить эксперимента с участием пользователей, все оценки вычисляются аналитически. Оценивать систему можно в нескольких направлениях:

Точность рекомендаций

Accuracy – общий показатель точности для всех классов, отношение верных предсказаний к общему количеству предсказаний. Почти не используется на практике, так как плохо показывает себя при неравномерной выборке.

Precision – определяется как отношение соответствующих рекомендаций к длине всего списка представленных рекомендаций. Характеризует способность системы отличать классы объектов друг от друга. Отвечает на вопрос сколько отобранных объектов действительно актуально. Доля ошибки системы [4].

Recall – полнота. Характеризует способность системы определять класс вообще. Отношение рекомендаций, определенных как верные ко множеству всех действительно верных рекомендаций. То есть отвечает на вопрос сколько соответствующих объектов выбрано из множества подходящих. Охват выборки положительных (верных) рекомендаций.

F-мера – это компромисс между точностью и отзывом [12], так как учитывает оба эти параметра.

ROC – график, соотношение ложных и истинных срабатываний. Площадь под этом графиком производительность системы. Чем она больше, тем лучше производительность РС

Точность ранжирования рекомендуемых товаров

MRR (Mean Reciprocal Rank) метрика связанная с первым верно определенным элементом в списке рекомендаций, средне арифметическое оценок пользователей (отношение порядкового номера первого верного элемента к длине списка). Минус в том, что метрика не оценивает остальную часть рекомендаций, а также не подходит для ранжированных списков рекомендаций с числовым рейтингом

MAP (Mean Average Precision) – схожа с предыдущей метрикой, но оценивает среднее всех верных предсказаний в последовательности. Чем выше окажутся верные рекомендации в списке, тем больше будет MAP и MRR.

nDCG (Normalize Discounted Cumulative Gain) – оценивает не только точность, но и порядок расположения рекомендаций, располагается в диапазоне 0-1. Метрика сравнивает идеально расположенный список рекомендаций от более интересного к менее интересному и реально созданный системой. nDCG плохо показывается себя с неоцененными объектами или объектами с недостаточной информацией [6].

Охват пользователей и товаров

Coverage Как отмечает Chen M. [12] хорошая рекомендательная система требует не только высокой точности, но и высокого охвата предлагаемых объектов.

Пользовательский опыт

На уровне взаимодействия пользователя и компьютера используется уже не только аналитические методы, но и методы с непосредственным участием пользователя.

Оцениваются:

Diversity – разнообразие рекомендуемых объектов

Trust – пользовательское доверие рекомендательной системе

Novelty – новизна рекомендуемых объектов, то, что пользователь еще не видел

Serendipity – случайность рекомендуемых товаров, то что пользователь сам вряд ли нашел бы, но что ему могло бы понравиться.

Уровень разработки программного обеспечения

На этом уровне в основном используется онлайн-эксперимент с участием пользователей. Оцениваются следующие метрики:

Real-time – производительность рекомендательных систем в реальном времени. Так как число пользователей и объектов рекомендации может быть довольно значительным, сложность и трудоемкость вычислений начинает играть значительную роль.

Robustness – прочность или надежность рекомендательной системы.

Scalability – масштабируемость рекомендательной системы.

В целом система проходит три этапа оценки: аналитический (теоретический), исследование пользователей (работа тестировщиков), реальный эксперимент (пользователи).

Значительный скачок в качестве работы РС был совершен в 2006 году. Netflix объявил о соревновании на повышение точности рекомендательной системы фильмов. В итоге даже улучшение на 10% по метрике RMSE (среднеквадратичное отклонение) дало колоссальное повышение точности [4], а следовательно, и интереса пользователей к сервису.

Направления развития методов оценки качества работы рекомендательных систем

В одной из работ посвященной повышению качества метрик оценки РС было предложено усовершенствовать показатель для рейтинговых списков nDCG. Одним из решений по усовершенствованию оценки РС было внесение изменений в существующую метрику nDCG. Новая метрика αβ-nDCG [6] учитывает конкретные виды моделей. Параметр α (константа) отражает разные сценарии при отсутствии рейтинга у объекта (одна из проблем классической метрики nDCG). Параметр β является регулятором для влияния предыдущего параметра, а также моделирует стремление пользователя просматривать объекты, расположенные ниже в рейтинге. Чем выше этот параметр, тем больше удовлетворенность пользователя и тем меньше требуется элементов для исчерпания интереса к области товаров.

Часто проводится оценка по нескольким параметрам. В статье (Anelli V.) [7] есть пример анализа работы системы на основе двух модулей accuracy (nDCG, Prec, MAP) и beyond-accuracy (EFD, EPC – обеспечивают показатель способности системы рекомендовать соответствующие товары с длинным списком [8])

Другое решение – это вероятностная структура для оценки РС с точки зрения пользователей и товаров на основе перекрестной энтропии [10]. Ключевой плюс такого решения – это прозрачность и гибкость, потому что здесь используются сведения о предметной области, а также информация о том, какие аспекты пользователя или товара представляются чрезмерно или недостаточно для эффективной работы. Такие особенности обуславливают объективность этого решения.

В другой статье [13] отмечают, что, сейчас высчитанные аналитически оценки не всегда могут точно предсказать как система окажется себя при online-эксперименте и выделяют три способа улучшить offline оценку (временная оценка, off-policy оценка, использование более сложных данных о взаимодействии). Разработанные подходы успешно предсказывают поведение системы в реальных условиях.

Ряд исследователей (Monti D., Palumbo E., Rizzo G.) [11] в 2019 году представили готовую автономную систему оценки РС для генерации последовательности элементов – Sequeval. В ней используется восемь метрик, таких как coverage, precision и novelty. Сервис находится в свободном доступе. Авторы отмечают, что наличие такого количества метрик может привести к результатам, которые трудно интерпретировать, поэтому направление дальнейшей работы это исследование спецификации РС для фокуса на определенных метриках и сравнение наиболее популярных алгоритмов.

Хотя исследование в области оценки рекомендательных систем на данный момент является востребованным, работ в этом направлении не много. Исследование литературы показало, что в основном для оценки используются различные комбинации существующих метрик.

Список литературы

  1. Bag S., Kumar S. K., Tiwari M. K. An efficient recommendation generation using relevant Jaccard similarity //Information Sciences. – 2019. – Т. 483. – С. 53-64.
  2. Lathia N., Hailes S., Capra L. The effect of correlation coefficients on communities of recommenders //Proceedings of the 2008 ACM symposium on Applied computing. – 2008. – С. 2000-2005.
  3. Cañamares R., Castells P., Moffat A. Offline evaluation options for recommender systems //Information Retrieval Journal. – 2020. – Т. 23. – №. – С. 387-410.
  4. Игнатьев В. Ю. и др. Построение гибридной рекомендательной системы с улучшением точности //Известия Российской академии наук. Теория и системы управления. – 2018. – №. 6. – С. 101-108.
  5. Павлов П. С. Методы оценки качества рекомендательных систем //Международный журнал гуманитарных и естественных наук. – 2018. – №. 6-1.
  6. Заграновская А. В., Митюра Д. Ю. Математические основы рекомендательных систем //Теория и практика трансдисциплинарных исследований в современном мире. – 2019. – С. 112-117.
  7. Parapar J., Radlinski F. Towards Unified Metrics for Accuracy and Diversity for Recommender Systems //Fifteenth ACM Conference on Recommender Systems. – 2021. – С. 75-84.
  8. Anelli V. W. et al. V-elliot: Design, evaluate and tune visual recommender systems //Fifteenth ACM Conference on Recommender Systems. – 2021. – С. 768-771.
  9. Sheu H. S. et al. Knowledge-Guided Article Embedding Refinement for Session-Based News Recommendation //IEEE Transactions on Neural Networks and Learning Systems. – 2021.
  10. Deldjoo Y. et al. Recommender systems fairness evaluation via generalized cross entropy //arXiv preprint arXiv:1908.06708. – 2019.
  11. Monti D. et al. Sequeval: An offline evaluation framework for sequence-based recommender systems //Information. – 2019. – Т. 10. – №. – С. 174.
  12. Chen M., Liu P. Performance evaluation of recommender systems //International Journal of Performability Engineering. – 2017. – Т. 13. – №. – С. 1246.
  13. Jeunen O. Revisiting offline evaluation for implicit-feedback recommender systems //Proceedings of the 13th ACM Conference on Recommender Systems. – 2019. – С. 596-600.

Интересная статья? Поделись ей с другими: