Особенности формирования исходных данных в пакете Statistica

Конюхов Владимир Георгиевич – кандидат технических наук, доцент Российского государственного университета физической культуры, спорта, молодежи и туризма.

Аннотация: Описаны наиболее распространенные виды погрешностей, допускаемых исследователями, начинающими освоение среды Statistica, при подготовке данных. Установлено, что большинство ошибок связано с формальным подходом к вводу данных и параллельной работой с несколькими комплектами анализируемых данных. При освоении статистических пакетов целесообразно уделять больше внимания сути осваиваемых методов и правилам формирования соответствующих им исходных данных.

Ключевые слова: ошибка, программа, statistica, анализ, статистическая, обработка, данные.

Значительная часть современных исследований подразумевает проведение статистического анализа, выполняемого с помощью компьютерных программ. Одной из них является программы Statistica фирмы StatSoft [1;2;5]. Ее очевидным достоинством является дружественный, интуитивно понятный интерфейс, русифицированная система подсказки, доступные руководства [3]. Как показывает практика [4], начинающие пользователи испытывают затруднения, связанные с подготовкой данных для анализа. Таким образом, оказывается актуальной систематизация ошибок, возникающих при формировании исходных данных.

Одной из таких ошибок является неправильное расположение исходных данных по строкам и столбцам. В традиционных электронных таблицах строки и столбцы равноправны, и исследователь имеет возможность вводить данные как по столбцам, так и по строкам. В таблице программы Statistica в столбцах располагаются переменные, а в строках – наблюдения. Исследуемые характеристики, такие, как, например, скорость, время прохождения дистанции, длина тормозного пути, влажность и т.д. являются переменными [1;5]. Значения признаков исследуемых объектов являются наблюдениями. Таким образом, исследуемые свойства образуют столбцы, а совокупности данных, относящихся к одному объекту или явлению – строки. При несоблюдении этого правила следует транспонировать таблицу исходных данных.

Следующая распространенная ошибка связана с переносом заголовков исходной таблицы в таблицу программы. В системе Statistica заголовки располагаются в специальной первой строке (имена переменных) и первом столбце (имена наблюдений), выделенных серым цветом [1,5]. При расчетах исследователь выбирает переменные для анализа, и, следовательно, все данные выбранного столбца используются в вычислениях. Весьма часто начинающие пользователи выделяют всю оригинальную таблицу и с помощью буфера обмена переносят в таблицу Statistica. Соответственно, заголовки таблицы оказываются в ячейках, отведенных для анализируемых данных. Система информирует о допущенной ошибке, но значительная часть пользователей игнорирует это предупреждение. В итоге в вычислениях участвуют как ячейки, содержащие результаты измерений, так и ячейки, содержащие заголовки. Результаты таких расчетов являются, естественно, некорректными. Для предотвращения такой ситуации следует правильно использовать возможности программы. Для вставки таблицы с заголовками служит пункт контекстного меню «Вставить с заголовками», или же соответствующая команда. Ранние версии пакета этой возможности не предоставляли, и исследователь должен отдельно перенести анализируемый массив данных и сформировать соответствующие ему заголовки. При оформлении заголовков таблицы исходных данных следует соблюдать определенные правила. Заголовок столбца (строки) должен располагаться в одной ячейке, причем эта ячейки не должна быть получена путем объединения или разделения других ячеек. Если исходные данные подготавливаются в текстовом редакторе, то каждый заголовок должен состоять из одного абзаца, поскольку при переносе в таблицу программы каждый абзац будет располагаться отдельной ячейке.

Довольно распространенной является ошибка, обусловленная различием в оформлении данных для зависимых и независимых выборок. В случае зависимых выборок результаты измерений записываются в рядом расположенные столбцы. В случае же независимых выборок каждому рассматриваемому параметру соответствует только один столбец, в который вводятся результаты всех исследуемых выборок. Для различения выборок создается вспомогательный столбец, в который записываются значения группирующей переменной, определяющей, к какой именно группе относятся значения характеристик, находящиеся в данной строке [5]. Не редко обучающиеся вводят данные разных выборок в рядом расположенные столбцы, независимо от типа анализируемых выборок. Это делает невозможным проведение статистического анализа независимых выборок. Открытие большого числа таблиц с исходными данными может привести к возникновению ошибки, поскольку в качестве источника данных для статистического анализа используется та таблица, которая была активной последней [5]. Следовательно, при открытии нескольких файлов с таблицами в качестве исходных данных для расчетов может использоваться совсем не та таблица, о который думает исследователь. Поэтому начинающему пользователю при проведении анализа целесообразно держать открытой только одну таблицу с исходными данными.

Таким образом, наиболее распространенные погрешности, затрудняющими проведение статистического анализа, связаны с невнимательным отношением к особенностям таблиц пакета Statistica, и параллельным решением нескольких задач. Поэтому пользователям, только начинающим освоение программы, целесообразно в каждый момент времени работать только с одним файлом исходных данных, обращая при этом больше внимания на границы применимости осваиваемых статистических процедур и форму представления анализируемых данных.

Список литературы

Боровиков В.П. Популярное введение в современный анализ данных и машинное обучение на STATISTICA / В.П. Боровиков. - М.: Горячая Линия – Телеком, 2019. - 354 с.
Боровиков В.П. Теория вероятностей, математическая статистика и анализ данных / В.П. Боровиков, Г.В. Калайдина, А.А. Халафян. - М.: Ленанд, 2017. - 320 с.
Конюхов В.Г. К вопросу о выборе программного обеспечения для курса «Статистическая обработка данных» / В.Г. Конюхов // Инновации и патенты ГЦОЛИФК: материалы Итоговой научно-практической конференции профессорско-преподавательского состава РГУФКСМиТ 16 ноября 2017 г. - М.: РГУФКСМиТ. - С. 69-72.
Конюхов В.Г. О характерных ошибках при подготовке исходных данных в программе Statistica / В.Г. Конюхов // Кафедральная наука РГУФКСМиТ: материалы Итоговой научно-практической конференции профессорско-преподавательского состава 20 декабря 2018 г. – М. : РГУФКСМиТ, 2018. – С. 73-77.

Интересная статья? Поделись ей с другими: