Типы переменных

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

Какие же типы переменных существуют? Все переменные принято делить на два больших класса – качественные показатели и количественные. Если переменная имеет несколько классов, которые отличаются друг от друга, но которым нельзя сопоставить числовые значения, мы говорим о качественных переменных. В том случае, если этим классам можно сопоставить числовые значения, то речь идет о количественных переменных. Строго говоря, является переменная качественной или количественной зависит от того, какая шкала используется для измерения данной переменной. Таких шкал четыре (Stevens, 1946)

1. Номинальная (nominal)

2. Ординальная или упорядоченная (ordinal)

3. Интервальная (interval)

4. Отношений (ratio)

Номинальная шкала подразумевает, что существует несколько классов объектов, однако никакие соотношения между этими классами в терминах количества не определены. Примером переменной, измеряемой при помощи номинальной шкалы, является пол. Можно точно утверждать, что мужчины и женщины являются объектами разных классов, однако указывать численные различия между этими классами является бессмысленным. Конечно, мы можем использовать числовые значения для кодировки переменных, но присвоение этих значений будет абсолютно произвольным – мы можем кодировать группу, принимающую плацебо нулевым значением, а можем единичным, а можем вообще указать 100.

В случае упорядоченной или ординальной шкалы, мы относим наблюдения к разным классам, и эти классы могут быть упорядочены друг относительно друга. Поэтому назначение численных значений уже не будет абсолютно произвольным. Однако дистанция между классами неизвестна или не важна. Когда речь идет о состоянии пациента, то оно может быть удовлетворительным, средней тяжести или тяжелым. Мы не можем поменять порядок следования классов, не нарушив логики, однако дистанция между этими классами не определена. Мы не можем сказать, насколько тяжелое состояние «тяжелее» состояния средней тяжести. Однако мы с точностью можем сказать, что если у Иванова состояние тяжелое, у Петрова средней тяжести, а у Сидорова удовлетворительное, то Сидоров находится в более легком состоянии, чем Иванов и Петров, а Иванов в более тяжелом состоянии, чем Петров и Сидоров. Переменные, измеренные при помощи ординальной шкалы, иногда называют полуколичественными, и они занимают особое положение, поскольку статистические методы, разработанные для анализа переменных измеряемых при помощи номинальной шкалы недостаточно чувствительны, а методы анализа истинных количественных переменных не приспособлены для изучения полуколичественных данных.

Интервальная шкала является примером первой шкалы истинно количественных переменных. Между категориями переменных, измеренных при помощи этой шкалы, расположены равные промежутки. Мы уже можем не только сказать, что значения различны, но и указать, на сколько они отличаются друг от друга. Характерной особенностью интервальной шкалы является ее относительность, т.е. отсутствие абсолютного нуля, начала координат. Например, измеряя температуру человеческого тела, мы можем сказать, что у пациента с лихорадкой она на 2 градуса Цельсия выше нормы. Однако утверждать, что температура тела у больного с лихорадкой в 1,05 раза выше нормы неверно, поскольку температура 36.6 градусов взята относительно точки замерзания воды и не понятно, почему мы должны отсчитывать температуру человека от этой точки. Если мы возьмем в качестве нулевой точки, например температуру ядра тела человека при которой наступают необратимые изменения, ведущие к смерти (28 градусов Цельсия), то тогда температура при лихорадке уже будет в 1,23 раза выше. Эти превращения можно продолжать, выбирая новую нулевую точку, однако они все свидетельствуют лишь об одном – истинной нулевой точки нет и, соответственно, мы можем сказать, на сколько отличаются два класса друг от друга, но не во сколько раз они отличаются друг от друга.

Интервальные переменные бывают непрерывными (когда теоретически между любыми двумя категориями может находиться еще одна категория) и дискретными (когда между значениями классов существуют промежутки). Так, например, температурная шкала рассматривается как непрерывная, а вот количество детей у женщины является величиной дискретной. 

В том случае, если абсолютный нуль существует, то говорят о шкале отношений, указывая на то, что для переменных, измеренных при помощи этой шкалы можно говорить о том, насколько одна величина больше другой. Шкала отношений обеспечивает наибольшую точность измерений и, хотя она имеет ряд неоспоримых преимуществ, большая часть методов статистического анализа их не используют. Для выполнения статистического анализа количественных переменных обычно требуется, чтобы использовалась интервальная шкала или шкала отношений и поэтому при дальнейшем обсуждении мы будем рассматривать эти две шкалы вместе.

Суммируя, таким образом, методы измерения переменных, мы можем отметить три основных типа переменных, которые будут требовать для своего анализа трех различных подходов – качественные, полуколичественные и количественные переменные. Надо заметить, что теоретически можно использовать методы, разработанные для шкал более низкого порядка для анализа данных более высокого порядка (например, методы анализа номинальных переменных для ординальных), однако это будет приводить к значительной потере информации. Обратный подход – использование методов, разработанных для более точных шкал, с менее точными шкалами, является просто грубой статистической ошибкой.

После того, как принято решение о том, что будет измеряться, необходимо определить ту группу людей, на которой будет проводиться исследование. В принципе возможны два основных варианта - мы анализируем воздействие на всех объектах данного класса - популяции или же мы выбираем из них только небольшую группу для того, чтобы затем распространить полученные закономерности на всех. Достаточно легко понять, что анализ всей популяции крайне редко возможен и вряд ли интересен. Используя предложенную Гэллапом аналогию, мы можем сравнить исследователя с поваром, который готовит суп. Анализ популяции в целом аналогичен ситуации, при которой повар для того, чтобы установить, насколько хорош суп, съедает его весь. Хотя таким путем он точно установит, что все овощи в супе были равномерно проварены, и соль распространилась на весь объем, данная информация будет абсолютно бессмысленна для других людей. Поскольку медицинская наука является прикладной и, соответственно, ее результаты нужны для дальнейшей работы, а не носят чисто теоретический интерес, исследовательские работы должны выполняться на выборке из популяции. Хотя эта идея и не кажется новой или удивительной, тем не менее, часто авторы обосновывают новизну своего исследования тем, что никто до них не делал подобного в городе Н. или П. Если население этих городов действительно отличается от остальных городов, Российской Федерации, мы можем изучить в них всю популяцию, но эти результаты будут не очень интересны другим исследователям и, главное, практикам. Поэтому, планируя исследования нужно определить популяцию, которая была бы интересна другим специалистам, и сделать из нее репрезентативную выборку.

Под репрезентативностью обычно понимается то, что выборка полностью соответствует изучаемой популяции, иными словами в выборке лица разного пола, возраста, социального статуса и т.д. встречаются с той же частотой, как и в популяции в целом. Надо отметить, что на практике это требование достаточно трудновыполнимо. Например, если мы изучаем воздействие некоего лекарства на пациентов ИБС и, в качестве выборки, берем пациентов больницы при медицинском ВУЗе, то такая выборка никогда не будет репрезентативной для всех пациентов с ИБС. Почему? Потому, что большая часть таких пациентов не госпитализируется в эту больницу, и сам процесс попадания в нее (ввиду наличия т.н. "учебных коек") определяется отнюдь не случайными факторами. В середине 60х годов ХХ века в США было выполнено первое исследование, которое затем было подтверждено уже в начале нашего, XXI, столетия, показавшее, насколько искаженной является картина мира, видимая из окон университетских больниц (да, в прочем, и системы здравоохранения в целом). Если мы возьмем гипотетическую популяцию в 1000 человек, то примерно 800 из них предъявляют при опросе жалобы на здоровье. Из них около 300 обратятся в систему здравоохранения и лишь 1 попадет в университетскую больницу. Понятно, что этот 1 из 800 человек не является представителем всей группы даже если анализировать только пол и возраст. Иными словами, если экстраполировать американские данные на Россию, результаты адекватно организованного на базе больницы медицинского ВУЗа исследования могут быть распространены на 140 тыс. пациентов, лечащихся в подобных учреждениях, однако эти результаты будут неприемлемы для миллионов пациентов, контактирующих с другими учреждениями здравоохранения. Именно поэтому задуманные и испытанные в условиях университетских клиник проекты оказываются малоэффективными при применении их в популяции.