Конкурс. Бесплатная публикация

Наше издательство занимается выпуском печатного издания «Научный аспект» с 2012 года.

В текущем году мы также учредили одноименное сетевое издание.

Объявляем прием статей для формирования первого выпуска издания и подачи заявки на включение в РИНЦ.

Более подробная информация представлена на странице сетевого издания.

УДК 004

Применение методов машинного обучения для задач прогнозирования вероятности невыкупа

Змеева Юлия Львовна – студент Челябинского государственного университета.

Аннотация: Данная работа посвящена изучению возможности использования методов машинного обучения для построения моделей прогнозирования вероятности отказа от покупки в интернет-магазине. Предлагаются к рассмотрению подходы к решениям, ранее не использовавшиеся в рамках конкретной задачи. В качестве примеров используются данные о заказах и клиентах. Приводится описание и сравнительный анализ наиболее распространенных методов решения подобных задач. Также в рамках работы выбираются признаки, оказывающие наибольшее влияние на точность модели. Рассмотрены метрики для оценки результатов прогнозирования факта невыкупа. Полученные результаты показывают, что случайные леса дают наиболее точные оценки в рамках задачи вероятностного прогнозирования.

Ключевые слова: машинное обучение, прогноз вероятности,отбор признаков, сравнительный анализ, классификация.

На сегодняшний день интернет-торговля стремительно развивается.

Часто, когда люди говорят о продаже в интернет-магазине, они в первую очередь имеют в виду, что заказ оформлен. Ведь именно на них направлены усилия маркетологов по увеличению трафика и конверсий и внимательному отслеживанию поведения своей клиентской базы. Однако главный результат работы интернет-магазина – это фактические продажи, заказы, которые были выкуплены клиентом и не возвращены, а не оформлены. Понять, почему клиент отказался от продукта, и предсказать вероятность отказа может быть очень сложно.

Невыкупленные заказы – это повышенные затраты на ведение бизнеса. Одна только логистика в одну сторону стоит в среднем 300 рублей за посылку. Интернет-магазины стараются минимизировать все потери от возвратов.

Данная работа посвящена решению задач прогнозирования вероятности отказа от покупки клиентом. Решение данной проблемы является крайне актуальной задачей.

Обзор методов прогнозирования

Таким образом, наша задача состоит в том, чтобы предсказать вероятность невыкупа по определенной причине. Прогнозирование используется во многих областях, таких как экономика и медицина. Прогнозирование означает определение будущей стоимости на основе имеющихся данных. На данный момент существует более 100 методов прогнозирования, рассмотрим их классификацию и основные [1].

Все методы можно разделить на два типа: интуитивные методы и формальные методы. Интуитивные методы основаны на экспертных оценках и используются, когда данных недостаточно, а то, что нужно спрогнозировать, либо очень простое, либо, наоборот, очень сложное[2]. Сюда входят методы интервью, методы коллективной экспертной оценки, мозговой штурм, методы Дельфи, матричные методы. Формализованный метод – это такой метод прогнозирования, результатом которого является построение модели прогнозирования. То есть он определяет математические зависимости, по которым можно рассчитать будущую стоимость процесса, т. е. сделать прогноз. Формализованные методы делятся на статистические модели и структурные модели. Рассмотрим некоторые из них.

Логистическая регрессия [5]

Это базовая модель, которая некоторое время использовалась для прогнозирования и предсказания определенных событий. Есть только две переменные, 0 и 1. Они представляют информацию о том, должно ли произойти событие. Этот метод требует применения несколько более сложных формул. Однако современные компьютеры помогают нам быстро производить расчеты. Эта модель использует зависимые и независимые переменные для оценки вероятности возникновения события.

Дерево решений

Это простая техника, широко используемая в маркетинге моделей склонностей. Это алгоритм машинного обучения, на который администраторам следует обратить внимание. Он фокусируется на определенных целевых переменных. Затем модель делит его по функциям, используя узлы, чтобы дать ответы да/нет.

По сути, вы строите структуру, применяя ответы «да/нет» на конкретные вопросы, чтобы сузить свою клиентскую базу. Например, это помогает ответить на вопрос, могут ли покупатели определенного возраста, статуса и национальности продлевать свои покупки.

Случайный лес

Это продвинутый метод моделирования склонностей, который использует регрессию и классификацию для прогнозирования поведения клиентов. Создавайте прогностические модели, используя комбинацию методов логистической регрессии и дерева решений. Однако в модели используется множество деревьев для применения различных условий.

Каждое дерево предлагает определенную склонность к покупке результатов. Чем больше деревьев, тем больше результатов можно получить. Затем формула применяется к результату. Это помогает повысить точность оценки склонности за счет анализа различных результатов и выбора наиболее популярных результатов.

Нейронные сети [3]

Это самый продвинутый тип моделирования тренда, вдохновленный нервной системой человека. Нейронные сети имеют многоуровневую структуру, при этом входные и выходные узлы фактически являются основными слоями структуры. Между ними бесчисленное количество скрытых слоев, взаимосвязанных друг с другом.

В работе мы проведем сравнительный анализ двух моделей – логистической регрессии и случайный лес, и на практике будет использовать та модель, которая покажет более точный результат.

Первый этап работы – подготовка датасета с оптимальными признаками, которые влияют на отказ от покупки. Изначально датасет состоит из 11 признаков, среди которых 6 категориальных. Одной из тестируемых моделей является логистическая регрессия, поэтому коэффициент корреляции Пирсона можно использовать для количественной оценки взаимосвязи между переменными. Одним из способов изучения влияния категориальной переменной (принимающей только ограниченный набор значений) на цель является построение графика плотности с использованием библиотеки Seaborn. Пример графика изображен на рисунке 1.

Рисунок 1. Частота по типу доставки.

Поскольку в дальнейшем мы будем использовать обе модели в сравнительном анализе, рассмотрим еще один метод подбора индикаторов – встроенный метод. Встроенный метод выполняет выбор признаков во время обучения модели, чтобы оптимизировать набор и повысить точность. Используем встроенный метод RandomForestClassifier чтобы найти важные признаки для случайного леса. Таким образом мы отобрали 5 важный признаков для наших моделей – это сумма, прибыль с клиента, процент выкупа, наличие акции, длительность сеанса и канал.

Мы будем использовать готовые модели от sklearn. Для этого мы разделим набор данных на обучающий набор для обучения модели и тестовый набор для проверки модели.

Диагностика моделей

В задаче прогнозирования вероятности покупки клиентом в качестве критериев были выбраны такие метрики, как точность, отзыв и f-оценка.

Внутриклассовая точность – это доля всех объектов, определенных моделью, которые действительно принадлежат этому классу.

где TP – истинно положительный, TN – истинно отрицательный, FP – ложноположительный, а FN – ложноотрицательный.

Полнота – это отношение найденных объектов, принадлежащих к определенному классу, ко всем объектам этого класса в тестовом наборе.

К сожалению, в реальной жизни максимальная точность и полнота одновременно достигаются очень редко.

F1-оценка (f1-оценка) определяется как взвешенное среднее гармоническое значение точности и отзыва.

Таблица 1. Результаты прогнозирования.

Модель	Accuracy	Recall	Precision	F1-score
Logistic Regression	0.686	0.66	0.69	0.68
Random Forest	0.808	0.8	0.82	0.81

Таким образом, результаты работы, представленные в таблице 1, показывают, что реализация Random Forest (RF) дает наиболее точные ответы как с точки зрения точности, так и полноты. С другой стороны, логистическая регрессия работает с этим набором данных хуже. В этой главе мы исследовали возможность использования методов машинного обучения для прогнозирования вероятности отказа от покупки в интернет-магазине. В качестве исходных данных использовались данные о клиентах и их заказах из базы данных. Следующие модели машинного обучения, логистическая регрессия и случайный лес, были построены и обучены для задачи прогнозирования вероятностей невозмещения. В рамках нашей задачи Random Forest показал лучшие результаты, поэтому мы решили использовать именно эту модель в дальнейшем. В результате сократится процесс проверки клиента, так как будет введен один показатель, а также сократятся расходы на доставку.

Список литературы

Тихонов Э.Е. Прогнозирование в условиях рынка. Невинномысск, 2006. 221 с.
Селиверстова А. В. Сравнительный анализ моделей и методов прогнозирования / А.В. Селиверстова //Современные научные исследования и инновации. – М: МГТУ, 2016. – №. – С. 241-248.
Limsombunchai, V. House price prediction: hedonic price model vs. artificial neural network // In New Zealand agricultural and resource economics society conference. 2004. P. 25–26.
Breiman L., Cutler A. 2005. Random Forests. Berkeley. 56 p.
Логистическая регрессия [Электронный ресурс]. URL: http://statistica.ru/theory/logisticheskaya-regressiya/ (Дата обращения 13.12.2022).

Интересная статья? Поделись ей с другими: