УДК 004.032.26

Возможность применения искусственного интеллекта в проведении статистического анализа данных

Ежов Алексей Олегович – бакалавр Владивостокского государственного университета

Погоришный Илья Константинович – бакалавр Дальневосточного федерального университета

Кузнецов Руслан Владимирович – студент Владивостокского государственного университета

Красько Андрей Александрович – кандидат экономических наук, старший преподаватель кафедры Математики и Моделирования Владивостокского государственного университета

Аннотация: В работе апробирована возможность использования искусственного интеллекта, на примере чат-бота Chat-GPT, основанного на современной языковой модели, для автоматизации части расчетов в статистическим исследовании и построении аналитических выводов на их основе для дальнейшего их использования в работе с данными. Отличительной чертой подхода к проведению первичного статистического анализа является низкий входной порог для понимания основ работы с чат-ботом Chat-GPT, а также возможность консультироваться с чат-ботом для разъяснения результатов или хода анализа. В качестве примера проведен анализ двух наборов данных. На основе сгенерированного набора данных была проверена способность ИИ к отслеживанию задаваемых закономерностей в описывающих переменных. На реальном наборе данных была оценена возможность чат-бота анализировать и интерпретировать реальные данные.

Ключевые слова: Chat GPT, нейросеть, искусственный интеллект, ИИ, OpenAI, статистический анализ.

Введение

Нейронные сети постепенно стали неотъемлемой частью нашей повседневной жизни, органично интегрируясь в различные процессы, связанные как с повседневной жизнью, так и с работой. Персональные рекомендации на потоковых платформах, голосовые помощники на наших смартфонах – всё заслуга работы нейронных сетей, что используются в различных сферах жизнедеятельности человека. Крайней вехой в развитии нейронных сетей стало появление и развитие языковых моделей.

Языковые модели, в свою очередь, стоят за чат-ботами, такими как Chat GPT. Одно из самых значительных влияний GPT – поддержка клиентов. Многие компании теперь используют чат-боты на базе GPT, чтобы быстро и эффективно помогать своим клиентам. Они обеспечивают быстрые ответы, экономя время и ресурсы для бизнеса. Также, GPT сильно повлиял на создание контента. Он может генерировать статьи, сообщения в блогах и подписи в социальных сетях, и любой другой письменный контент. Это в значительной мере повлияло на создателей контента, которые часто борются с плагиатом в своих работах или сжатыми сроками. Так, например, студент московского РГГУ написал диплом с помощью чат-бота.

Анализ современных исследований показал, что Chat-GPT активно применяется в различных сферах человеческой жизни. Например, в своей статье Nair M. [1] приходит к выводу, что чат-бот может оказывать значительную поддержку при ведении деятельности отдела кадров и служить незаменимым инструментом в администрировании кадровой деятельности. В работе [2] авторы сравнивали ответы на вопросы на тему офтальмологии данные реальным человеком, GPT-3.5 и GPT-4.0. Был сделан вывод, что модель GPT-4.0 превосходит по качеству ответов как более раннюю свою версию, так и специалистов по офтальмологии. Авторы отмечают, что при том, что всё ещё существуют проблемы с качеством полученного результата, однако заметны явные улучшения. Так же авторы отмечают наличие потенциала этой технологии в сферах образования и медицины.

В [1] поднимается вопрос первичного использования ограниченного искусственного интеллекта в различных сферах жизни информационного общества, указывают на необходимость использования ИИ и называют этот переход — единственной возможной альтернативой. Янковский Р. М. в ходе своего исследования [2] составил теоретическую часть своей научной статьи исключительно из ответов чат-бота. По ходу работы он поднимает темы возможности использования ИИ в написании текстов для научных статей и авторских прав на подобные работы. Автор также делает вывод, что нейросеть является мощным инструментом для написания различного рода, в том числе, научных текстов, и может быть для этого использована, при условии рецензирования и правки итоговой работы экспертом.

В работе [5] автор рассматривает возможность применения Chat-GPT для решения проблем ожирения у пациентов, к которым сложно применимы традиционные методы лечения. В работе рассматривается применение чат-бота как источника персональных рекомендаций по таким темам, как планы питания, программы упражнений и психологическая поддержка. Автор утверждает, что план лечения, полученный таким образом будет в большей степени учитывать индивидуальные потребности, что в свою очередь даст более эффективный подход к лечению. Однако автор упоминает, что при использовании этой технологии следует также учитывать некоторые вопросы этики и безопасности.

В работе [3] авторами применялся чат-бот для сбора данных и анализа в социальной сети Twitter постов про искусственный интеллект и Chat-GPT в общем и целом. В исследовании проводилось сравнение результатов работы специализированного сервиса по сбору данных Rapidminer с результатом сбора Chat-GPT. По результатам исследования, чат-бот отставал от конкурента в точности лишь на 1.76%, что является незначительным отклонением. В исследовании отмечено, что чат-бот может являться альтернативой предобработки наборов данных для анализа.

В [7] рассматривается текущее и потенциальное будущее применение технологии Chat-GPT в сфере образования. Результаты исследования показали, что данная технология может преобразовать образование, улучшая учебный процесс для учащихся, обеспечивая им индивидуальное обучение и автоматизируя административные задачи. При этом автор отмечает, что технология обладает значительным неиспользуемым потенциалом для повышения доступности и качества образования.

Все больше ученых склоняется к повсеместному применению технологий искусственного интеллекта при решении статистических задач. В работе [4] автор указывает на проблему аналитики и общего взаимодействия с большими данными в большинстве государственных и коммерческих предприятиях и отмечает возможности машинного обучения для решения этой проблемы. В настоящее время нейросети стали рассматриваться не только как объект или результат исследования, но и в качестве его актора, помощника в достижении конкретного результата.

Учитывая изложенное выше, можно сделать вывод, что сфера применения нейросетей достаточно велика, они используются как для автоматизации выполнения рутинных задач, так и для написания научных работ и применются в исследованиях. При этом исследования, посвященные тематике применения нейросетей или чат-ботов для автоматизации рутинных задач при работе с данными встречаются реже. Таким образом, можно сделать вывод, что вопрос возможности применения нейросетей в статистическом исследовании, в частности, в вопросе построения описательной статистики, дескриптивного анализа и получения аналитических выводов на их основе является актуальным.

Методы исследования

В данной работе рассматривается возможность применения чат-бота Chat-GPT для автоматизации и упрощения процесса построения описательной статистики, проведения дискриптивного анализа имеющихся данных и получения аналитических выводов о специфике имеющихся данных. Задач, которые являются одними из самых частых при работе с данными, независимо от главной цели работы.

При работе с Chat-GPT следует учитывать ряд его особенностей. Первое – в нынешний момент языковые модели претерпевают фазу бурного роста и активно развиваются в различных направлениях. Таким образом к GPT-4 чат-бот становится более приспособленным не только к написанию текста, но и к работе с данными. Так, например, компания Open AI, которая является создателем чат-бота Chat-GPT, стабильно выпускает обновление модели раз в квартал. На фоне растущей популярности языковой модели, стали появляться различные аналоги, в том числе, YandexGPT от отечественного “Яндекс”, Kandinsky от Сбербанка и многие другие. При этом, информация о том, на каких данных обучалась та или иная языковая модель, независимо от версии и авторов, скрыта от обычных пользователей, так как представляет собой коммерческую тайну. Таким образом появление новой, обучавшейся на более актуальном наборе данных, языковой модели или обновление существующей языковой модели не является гарантией того, что, задавая идентичные вопросы пользователи будут получать на них идентичные ответы.

Есть два основных способа получать неизменные ответы при запросе к языковой модели.

Первый – Standalone версия языковой модели. Она представляет собой загруженный на локальный диск или сервер образ языковой модели, который был обучен заранее и опубликован сети. Главным плюсом является стабильная и бесперебойная работа, а также гарантия одинакового результата. Недостатком является отсутствие постоянного обновления набора данных для обучения, и вероятность неточностей в ответах языковой модели, связанная с отсутствием обновлений и дообучения.

Второй – использование специализированных токенов и набора контрольных фраз. Поскольку построение описательной статистики и дескриптивного анализа является задачей достаточно невысокой сложности, то можно сформировать набор ключевых вопросов, по которым можно определить или задать контекст работы для языковой модели. Дополнительно можно применять специализированные токены системы, которые предоставляет разработчик языковой модели, для повышения точности ответов. Такой набор инструментов позволяет, в случае если модель уже обучена некорректному алгоритму, исправить проблему и получать необходимые результаты.

В работе был выбран второй вариант, для его реализации был разработан список контрольных формулировок, при помощи которых до начала работы проверялась корректность формулировок и логики построения расчетов, устанавливалось единство и корректность используемых в дальнейшей работе формулировок.

Ниже приведен пример четырех простых контрольных формулировок:

дай определение описательной статистики и перечисли рассчитываемые для неё показатели;
дай определение и формулу расчета среднего арифметического;
дай определение и формулу расчета стандартное отклонение;
дай определение и формулу расчета квартилей.

Вторая особенность работы с Chat-GPT – наличие ограничения на запрос и ответ в количестве символов на 4000 токенов или же 500 слов. Таким образом, можно сказать, что существует ограничение на размер набора данных, с которым может идти работа. В связи с этой особенностью был сформулирован следующий алгоритм взаимодействия с чат-ботом, позволяющий избежать ограничения:

формируется запрос для Chat-GPT на формирование алгоритма на языке программирования Python, для обработки или расчета требуемых, на текущем этапе работы, показателей и представления их в определенной форме;
сгенерированный, таким образом, код запускается пользователем в интерпретаторе Python для рассматриваемого набора данных;
полученный, путем запуска кода, результат, переносится в чат-бота и становится информацией для следующих этапов, а так же дополняет контекст чат-бота.

Такой подход добавления информации для чат-бота по частям, также упрощает интерпретацию новой информации чат-ботом, что в свою очередь положительно сказывается на качестве дальнейших результатов работы с ним. При этом стоит отметить, что при таком подходе в сам Chat-GPT набор данных не загружается и вся дальнейшая оценка и работа строится исключительно на построенной статистике, а не данных напрямую.

Результаты

В ходе работы был сформулирован набор последовательных запросов к Chat-GPT для генерации кода на языке программирования Python, которые выполняли следующие задачи:

определение объема и типа переменных в выборке (позволяет получить общее представление о масштабе данных и производится анализ типов переменных);
выявление пропущенных значений и расчет описательных статистик. (позволяет оценить степень заполненности данных и принять решение о дополнительной обработке пропусков, если есть, и производится расчет описательных статистик);
построение гистограмм распределений для каждого числового столбца с линией аппроксимации (позволяет увидеть форму распределения данных, обнаружить возможные выбросы или необычные паттерны в данных);
вывод уникальных значений в категориальных переменных и их частота (позволяет оценить структуру данных в категориальных переменных, а также выявить доминирующие категории);
построение матрицы корреляции и её тепловой карты;
выявление выбросов в числовых столбцах (выбросы определялись как значения, находящиеся за пределами 1.5 * IQR от Q1 и Q3).

Для получения результатов анализа данных были сформулированы четыре

последовательных запроса, которые выполнявших задачи:

выявление различий между переменными, общих закономерностей, паттернов и статистических особенностей на основе описательных статистик набора данных;
выявление связи между другими данными и выделение особенностей и аномалий на основе матрицы корреляции.

Для проверки качества запросов, выполняющих задачи, описанные выше использовались две выборки. Первая выборка – набор естественных данных. Это набор данных «Sleep Health and Lifestyle» размещенный на платформе Kaggle. Это реальные собранные данные, содержащие 400 наблюдений и 13 признаков, связанных со сном и повседневными привычками. Он включает в себя такие детали, как пол, возраст, род занятий, продолжительность сна, качество сна, уровень физической активности, уровень стресса, категория ИМТ, артериальное давление, частота сердечных сокращений, ежедневные шаги, а также наличие или отсутствие нарушений сна. Она использовалась для оценки способности рассчитывать статистику по реальному датасету с его особенностями и тестирования возможности Chat-GPT делать аналитические заключения по реальным данным с учетом их контекста. Вторая выборка – набор полностью сгенерированных данных имела 374 наблюдения и 13 признаков. В отличие от первой выборки, эти данные не имели контекста, а взаимосвязи и особенности признаков были заранее предусмотрены. Например, признак Х10 был равен произведению признаков Х1 и Х2.

Описанный выше алгоритм применялся для обоих наборов данных по отдельности. Стоит отметить, что в случае, когда заранее задавались уточняющие формулировки (для обеих выборок), генерация кода на языке Python и расчет статистических показателей прошли без ошибок, однако местами Chat-GPT требовались уточнения для понимания запроса.

В случае запросов о поиске взаимосвязей, паттернов и закономерностей между признаками Chat-GPT показал себя менее однозначно. Успешно генерировались выводы на основе рассчитанных ранее статистик с учетом контекста. Например «Оценка качества сна показывает средний результат около 7.31, что свидетельствует о том, что участники в целом отмечают «Хорошее» качество сна», что соответствовало действительности или «Уровень стресса и качество сна имеют отрицательную корреляцию, что указывает на то, что более высокий уровень стресса может снижать качество сна».

Однако, по этим же данным вывод Chat-GPT выглядит следующим образом – «Уровень стресса участников оценивается в среднем около 5.39 из 8 возможных, что указывает на относительно низкий уровень стресса», при том что 5.39 в шкале от 0 до 8, находится выше её середины и нельзя сказать о том, что это «относительно низкий» уровень, его скорее можно отнести к «среднему». Также примером недостаточной точности оценки может выступить следующее утверждение «Числовые переменные имеют нормальное или близкое к нормальному распределение с небольшими «хвостами» на обоих концах». Однако, проведя тест Колмогорова-Смирнова для всех числовых столбцов, в качестве эталонного распределения было взято нормальное и все полученные p-value для теста на каждый числовой признак были близки к нулю, что говорит о том, ни один из них не относится к нормальному распределению.

Выводы Chat-GPT для второго набора данных в свою очередь полностью опираются на рассчитанную статистику, однако в отличие от выводов по первому набор данных отсутствуют оценки в выводах. Например, «Некоторые переменные, такие как X5 и X7, имеют малую дисперсию, так как их стандартное отклонение близко к нулю, что указывает на то, что большинство значений сконцентрированы вокруг одной точки», «В признаке X5 существует отрицательное минимальное значение, что говорит о наличии отрицательных значений в этом признаке», «X2 имеет умеренную положительную корреляцию с X10, что может говорить о том, что X2 и X10 имеют схожую природу или влияют друг на друга». При этом выводы, которые сгенерировал Chat-GPT по второму набору данных – корректны. Таким образом можно сделать предположить, что наличие контекста в исследуемом наборе данных, позволяет Chat-GPT делать большее число различных выводов и делать их описание более подробным, однако нельзя сказать, что это положительно сказывается на качестве построенных выводов.

Заключение

В ходе работы была рассмотрена возможность применения чат-бота Chat-GPT при проведении анализа данных. Для исследования возможностей чат-бота в этой области, было задействовано два различных набора данных, которые были предложены языковой модели на анализ.

Были сформированы наборы запросов для Chat-GPT, позволяющие достаточно быстро строить необходимые статистические показатели. Однако при предложенном подходе к работе с данными с использованием Chat-GPT, контекст данных и рассчитанные значения являются единственным источником информации для анализа имеющихся данных, таким образом качество и количество выводов сильно зависит от того, как много различных статистических показателей было рассчитано до этого.

Было проведено тестирование сгенерированного запросами кода на языке программирования Python и проанализированы выводы Chat-GPT об особенностях имеющихся данных.

Список литературы

Nair M. Chat Gpt in Hr-Some Dark Shades Too? // Journal of Organizational Culture Communications and Conflict. 2023. № 27 (3). 1-5.
Янковский Р. М. Способен ли искусственный интеллект написать статью в юридический журнал? // Закон. № 3. С. 126-133.
Julianto Indri, Kurniadi Dede, Septiana Yosep, Sutedi Ade. Alternative Text Pre-Processing using Chat GPT Open AI. 2023. № 12. P. 67-77.
Прохорова М. М. Основные направления совершенствования методики статистического анализа цифровой экономики // Вестник евразийской науки. Т. 12, № 5. С. 37.
Arslan Sedat. Exploring the Potential of Chat GPT in Personalized Obesity Treatment // Annals of Biomedical Engineering.
Бурова О. А., Судакова А. А. Искусственный интеллект – помощник статистики будущего // Наука о данных: Материалы международной научно-практической конференции, Санкт-Петербург, 5-7 февраля 2020 года. – Санкт-Петербург: Санкт-Петербургский государственный экономический университет, 2020. С. 74-76.
Mhlanga David. The Value of Open AI and Chat GPT for the Current Learning Environments and The Potential Future Uses // SSRN Electronic Journal. 2023.
Firat Mehmet. How Chat GPT Can Transform Autodidactic Experiences and Open Education? 2023.

Интересная статья? Поделись ей с другими: