УДК 005.8

Предобработка и анализ данных о подростковом алкоголизме

Васильева Ксения Андреевна – студент бакалавриата Института информационных технологий МИРЭА – Российского технологического университета

Аннотация: В статье раскрыта тема изучения подросткового алкоголизма. Приведен процесс проведения точечных оценок над полученными данными. Реализовано построение моделей регрессии и классификации, а также выдвижение и проверка гипотез, связанных с причинами подросткового алкоголизма.

Ключевые слова: анализ данных, подростковый алкоголизм, точечные оценки, классификация.

Анализ данных – одно из наиболее востребованных современных направлений. Специалисты этой области занимаются процессами проверки, очистки, преобразования и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений.

Аналитики занимаются изучением различных социально-экономических, политических и иных явлений. Одним из наиболее острых вопросов современности является проблема алкоголизма студентов и школьников.

Анализируемые данные были получены при опросе учащихся курсов математики и португальского языка в общеобразовательной школе в Португалии. Он содержит много социальной, гендерной и учебной информации о студентах. Файл представлен в формате csv. В наборе данных содержится 35 признаков и более 10000 записей с данными об обучающихся.

Так как мы будем анализировать школьников и студентов с высокой частотой употребления алкоголя, первоначально создадим выборку только из тех строк, где значения употребления алкоголя в будние или выходные дни более четырех. Полученный набор данных представлен на Рисунке 1.

image001

Рисунок 1. Данные для анализа.

Далее загрузим данные в специализированную среду и проведем их первоначальную обработку. Заменим все бинарные переменные на числа 0 или 1. Результат обработки представлен на Рисунке 2.

image002

Рисунок 2. Предобработка данных.

Перед проведением основного анализа расссмотрим корреляционную матрицу и сделаем первоначальные выводы. Корреляционная матрица представлена на Рисунке 3.

image003

Рисунок 3. Корреляционная матрица.

Из корреляционной матрицы можно сделать следующие выводы:

  1. Обе переменные потребления алкоголя, «Dalc» и «Walc», имеют положительную связь с другими атрибутами, такими как свободное время, выход в свет, отношения в семье, неудачи, учебное время, интернет, платное обучение и романтические отношения.
  2. Также атрибут «sex» (1: мужской, 0: женский) имеет положительную корреляцию с употреблением алкоголя, что означает, что учащиеся мужского пола потребляют больше алкоголя, чем учащиеся женского пола из этого набора данных.
  3. Существует отрицательная зависимость между употреблением алкоголя и оценками, внеучебной деятельностью, семейными отношениями, поддержкой семьи, внеучебной поддержкой.
  4. Переменная итоговой оценки «G3» имеет отрицательную связь с такими атрибутами, как размер семьи, поддержка семьи, прогулки, здоровье и романтические отношения.

Теперь проанализируем данные глубже. Первоочередно необходимо описать портрет студента, часто употребляющего алкоголь. Рассмотрим графики признаков. Из графиков, представленных на Рисунке 4 можно сделать несколько выводов: студент мужского пола учится в школе Габриель Парейра, живет в городе. В его семье более трех членов, родители живут вместе, а мать имеет высшее образование.

image004

Рисунок 4. Первая группа графиков.

Посмотрев на Рисунок 5, можем сделать вывод, что отец пьющего студента имеет неполное среднее образование и оба родителя работают в сфере, отличной от представленных сфер, а воспитывает студента его мать. Также студент выбрал школу из-за наличия желаемого курса, и он тратит на дорогу до школы менее 15 минут.

image005

Рисунок 5. Вторая группа графиков.

Исходя из графиков на Рисунке 6, можем сделать вывод, что студент учится очень мало, но тем не менее никогда не оставался на второй год. Он не имеет финансовой поддержки от школы, его содержат родители. Студент не занимается на платных курсах, связанных с основным предметом в школе, однако посещает иные активности.

image006

Рисунок 6. Третья группа графиков.

Из графиков, представленных на Рисунке 7, можем сделать выводы, что студент готов пройти все три основные ступени образования — он посещал детский сад и также хочет получить высшее образование. Студент не состоит в романтических отношениях и имеет достаточно хорошие отношения в семье. Также он имеет достаточно много свободного времени и домашний интернет.

image007

Рисунок 7. Четвертая группа графиков.

Посмотрев на последнюю группу графиков, представленную на Рисунке 8, можем сказать, что студент имеет очень хорошее здоровье, часто ходит на прогулки, а также учится на курсе португальского языка.

image008

Рисунок 8. Пятая группа графиков.

Исходя из всех выводов, которые были сделаны выше, составим окончательный портрет студента, который употребляет большое количество алкоголя. Портрет представлен в Таблице 1.

Таблица 1. Портрет студента, употребляющего алкоголь.

Параметр

Значение

Пол

Мужской

Возраст

17 лет

Место прожвания

Город

Школа

Габриэль Перейра

Предмет курса

Португальский язык

Размер семьи

Менее 3х человек

Статус родителей

Живут вместе

Образование матери

Высшее образование

Образование отца

Неполное среднее образование

Профессия матери

Другое

Профессия отца

Другое

Выбор школы

Наличие желаемого курса

Опека

Под опекой матери

Время поездки до школы

Менее 15 минут

Еженедельное учебное время

Менее двух часов

Оставался ли на второй год

нет

Дополнительная помощь от школы

нет

Дополнительная помощь от родителей

да

Оплачиваемые дополнительные занятия по предмету курса

нет

Внеклассные занятия

да

Посещение детского сада

да

Желание получить высшее образование

да

Наличие интернета

да

Наличие романтических отношений

нет

Качество семейных взаимоотношений

Довольно хорошее

Наличие свободного времени

Больше среднего

Наличие прогулок с друзьями

Достаточно часто

Качество здоровья

отличное

Количество пропусков занятий

6

Средний балл

10

Далее определим наиболее весомые причины развития алкогольной зависимости. Построим круговую диаграмму и выявим наиболее часто встречающиеся причины. Диаграмма представлена на Рисунке 9.

image009

Рисунок 9. Диаграмма признаков.

Как видно из диаграммы на Рисунке 9, к наиболее частым причинам развития алкоголизма можно отнести следующие:

  • статус родителей;
  • финансовая поддержка от школы;
  • дополнительные платные курсы;
  • желание получить высшее образование;
  • наличие домашнего интернета.

Далее для поиска максимального признака среди полученных, был написан скрипт на языке Python. После его выполнения получим следующие наиболее часто встречающиеся категории признаков:

  • статус родителей вместе;
  • финансовая поддержка от школы отсутствует;
  • дополнительные платные курсы нет;
  • желание получить высшее образование да;
  • наличие домашнего интернета да.

Исходя из полученных результатов, можем сделать следующие выводы:

  1. В связи с желанием получить высшее образование, студент становится наиболее подвержен стрессу, поэтому он становится более расположен к употреблению алкоголя, посредством которого может понизить уровень стресса.
  2. В жизни студента отсутствуют дополнительные курсы и финансовая помощь от школы, что может пагубно повлиять на его поступление в высшее учебное заведение. Из-за этого уровень стресса увеличивается в разы.
  3. Родители студента живут вместе, но возможно они несчастливы вместе и постоянно ссорятся. Этот факт также приводит к увеличению уровня стресса, что приводит к частому употреблению алкоголя.
  4. В современном мире подростки и молодые люди часто транслируют в Интернете и социальных сетях походы в бары или домашние вечеринки. Постоянная трансляция неверных ценностей пагубно сказывается на других молодых людях, и они начинают копировать поведение.

Далее составим модель для классификации студентов по степени употребления алкоголя [1]. Для этого ввведем в датасет столбец с метками степени алкоголизма:

  • 1, если студент употребляет алкоголь 1-2 раза в будний/выходной;
  • 2, если студент употребляет алкоголь 3 раза в будний/выходной;
  • 3, если студент употребляет алкоголь 4-5 раз в будний/выходной.

После предобработки получим набор данных, представленный ниже.

image010

Рисунок 10. Результат обработки данных.

Далее проведем ту же подготовительную часть, что и при построении моделей регрессии, только в кочестве меток возьмем новый столбец. Для создания модели классификации будем использовать алгоритм дерева решений с критерием gini. После построения модели оценим ее качество. Результаты модели представлены в Таблице 5.

Таблица 4. Оценка модели классификации.

Точность на тестовой выборке

f1-score

0.697318

0.67343759

Далее построим график полученного дерева. На графике, представленном на Рисунке 14, видно, какие атрибуты из первоначального набора данных используются для классификации и какие при этом классы получаются на выходе.

image011

Рисунок 11. Построенное дерево решений.

Получившаяся модель с достаточно высокой точностью классифицирует студентов по степени зависимости от алкоголя. Ее можно использовать для идентификации студентов, на которых следует обратить больше внимания и обеспечить их определенной медицинской помощью.

Далее в сети Интернет было найдено несколько предположений о том, почему возникает подростковый алкоголизм:

  1. 42 % подросков начинают употреблять много алкоголя из-за любовных переживаний [2].
  2. 67 % студентов увлекаются распитием спиртного из-за отсутствия хобби и интересов [3].
  3. 63 % молодых людей страдают алкоголизмом из-за напряженных отношений внутри семьи [4].

Выдвинем нулевую гипотезу для первого предположения: ровно 42 % школьников начинают употреблять алкоголь из-за любовных переживаний, тогда альтернативная гипотеза: более 42 % школьников начинают употреблять алкоголь из-за любовных переживаний. Рассчитаем долю школьников, не состоящих в романтических отношениях среди всей выборки. Затем рассчитаем стандартную ошибку и z-статистику [5]. Далее рассчитаем значение p-value и сравним его с уровнем значимости альфа равном 0.05 [6]. После рассчета p-value получим, что оно равно 0.03276, что менее заявленного уровня значимости. Исходя из этого, мы не можем принять нулевую гипотезу и отвергаем ее. Следовательно, можно сказать, что более 42 % школьников начинуют употреблять алкоголь из-за любовных переживаний.

Далее рассмотрим второе предположение и сформулируем нулевую и альтернативную гипотезы. Нулевая гипотеза: 67 % студентов увлекаются распитием спиртного из-за отсутствия хобби и интересов, альтернативная гипотеза: более 67 % студентов увлекаются распитием спиртного из-за отсутствия хобби и интересов. Рассчитаем долю школьников, не имеющих дополнительных активностей среди всей выборки. Затем рассчитаем стандартную ошибку и z-статистику. Далее рассчитаем значение p-value и сравним его с уровнем значимости альфа равном 0.05. После рассчета p-value получим, что оно равно 0.1649, что больше уровня значимости. Исходя из этого, можем принять нулевую гипотезу и сказать, что 67 % студентов увлекаются распитием спиртного из-за отсутствия хобби и интересов.

Рассмотрим последнее предположение. Нулевая гипотеза: 63 % молодых людей страдают алкоголизмом из-за напряженных отношений внутри семьи, аьтернативная гипотеза: более 63 % молодых людей страдают алкоголизмом из-за напряженных отношений внутри семьи. Рассчитаем долю школьников, у которых плохие семейные взаимоотношения среди всей выборки. Затем рассчитаем стандартную ошибку и z-статистику. Далее рассчитаем значение p-value и сравним его с уровнем значимости альфа равном 0.05. После рассчета p-value получим, что оно равно 0.34291, что значительно больше уровня значимости. Исходя из этого, можем принять нулевую гипотезу и сказать, что 63 % молодых людей страдают алкоголизмом из-за напряженных отношений внутри семьи.

Исходя из рассчетов, сделанных выше, можем сделать вывод о том, что в данной конкретной выборке подтвердились две распространенные гипотезы о возникновении подросткового алкоголизма: напряженные отношения в семье, а также отсутсвтие хобби и дополнительных интересов.

Можно сказать, что данным школам следует обратить внимание на разнообразие досуга для привлечения молодых людей. А также школам следует внимательнее следить за семейными взаимоотношении и вовремя предлагать им психологическую и иную помощь. Таким образом можно будет значительно уменьшить количество подростков, употребляющих алкоголь.

Список литературы

  1. Classification and regression in PySpark [Электронный ресурс]. – Режим доступа: https://spark.apache.org/docs/latest/ml-classification-regression.html – Дата доступа: 05.04.2023
  2. Яндекс Dzen, Почему возникает подростковый алкоголизм [Электронный ресурс]. Режим доступа: – https://questu.ru/articles/187823/ – Дата доступа: 05.04.2023.
  3. Медицинский справочник болезней. Подростковый алкоголизм [Электронный ресурс]. – Режим доступа: https://www.krasotaimedicina.ru/diseases/narcologic/teen-alcoholism – Дата доступа: 05.04.2023.
  4. ВериМед, Подростковый алкоголизм – в чем причины? [Электронный ресурс] – Режим доступа: https://verimed.ru/articles/alkogolism/podrostkovyj-alkogolizm-v-chem-prichiny/ – Дата доступа: 05.04.2023.
  5. Норман Дрейпер, Гарри Смит. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8. 2.
  6. Глинский В. В., Ионин В. Г. Статистический анализ. – М.: Инфра-М, 2002. – 241 с. – (Высшее образование). – 5000 экз. – ISBN 5-16- 001293-1.

Интересная статья? Поделись ей с другими: