Тестирование статистических гипотез. Анализ качественных переменных

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

Итак, основной задачей тестирования статистических гипотез является ответ на вопрос, могли ли быть обнаруженные закономерности результатом действия только случайных факторов, или имеется некая иная - систематическая - причина. В принципе, возможны два основных варианта задач при тестировании гипотез - имеются ли различия между группами по уровню некоего показателя (1) и есть ли связь между двумя или более разными показателями (2). В дальнейшем мы будем говорить о задачах нахождения различий между группами и связей между переменными. Примером задачи первого рода будет определение различий в уровне липидов у пациентов с ИБС в сравнении со здоровыми контролями. Примером задачи второго рода будет являться нахождение связей между изменениями уровней ХС ЛПВП и ТГ.

С практической точки зрения этот тип задач может быть разбит на два важных подтипа - когда мы сравниваем показатель только в двух группах (здоровые и больные, мужчины и женщины) и в нескольких группах (больные с разной степенью тяжести состояния, воздействие разных дозировок препарата). Кроме того, важным для выбора метода статистической обработки данных будет являться и ответ на вопрос, какая шкала использовалась для измерения зависимой переменной - той переменной, которую мы сравниваем в разных подгруппах. Для упрощения ситуации мы можем представить себе две крайних ситуации - зависимая переменная качественная или она количественная. Соответственно мы можем получить четыре варианта данных для анализа

1. Зависимая переменная - качественная , две группы

2. Зависимая переменная - количественная, две группы

3. Зависимая переменная - качественная, более двух групп

4. Зависимая переменная - количественная, более двух групп.

Начнем с ситуации, когда зависимая переменная качественная и имеется только две группы сравнения. Примером подобной ситуации может быть изучение частоты инфаркта миокарда у курящих и некурящих пациентов. В данном случае в качестве зависимой переменной выступает частота инфаркта миокарда. Мы можем описать результаты нашего исследования в виде четырехпольной таблицы

Таблица 3.1 Простая четырехпольная таблица

 

ИМ+

ИМ-

 

К+

a

b

r1

К-

c

d

r2

 

c1

c2

N

В этой таблице ячейка обозначенная буквой a содержит количество курильщиков, перенесших инфаркт миокарда, ячейка b - количество курильщиков без ИМ, ячейка c - количество некурящих лиц, перенесших инфаркт миокарда и ячейка d - количество лиц, которые не курили и не страдают ИМ. Как мы помним из обсуждения выше, задачей статистического тестирования является попытка ответить на вопрос о том, какова вероятность того, что наблюдаемые данные являются следствием случайного распределения наблюдений между ячейками таблицы. Для ответа на этот вопрос мы должны вначале представить себе, как бы выглядела таблица, если бы курение никак не было бы связано с наличием или отсутствием инфаркта миокарда. Какие данные мы имеем для ответа на этот вопрос? Вне зависимости от того, есть ли связь или ее нет, количество курильщиков в популяции и количество лиц с ИМ не изменится. Иными словами краевые частоты r1, r2, c1 и c2 не изменятся. Если популяция на 90% состоит из курильщиков, тогда даже в отсутствие какой бы то ни было связи между курением и ИМ, 90% лиц с инфарктом миокарда были бы курильщиками. Аналогичным образом, если в нашей группе 50% лиц перенесли в прошлом ИМ, 50% курильщиков должны иметь признаки перенесенного инфаркта миокарда. Таким образом, количество лиц в ячейках таблицы будет определяться исходя из краевых частот. Так, количество курильщиков, перенесших инфаркт миокарда, будет равняться распространенности курения, умноженной на количество обследованных пациентов, у которых были выявлены признаки ИМ. Если распространенность курения 90% и мы выявили сто пациентов с ИМ (с1), 90 из них будут курильщиками. Но ведь распространенность курения - это всего лишь количество курильщиков среди всех обследованных, иными словами она равна r1/N, где N - общее количество включенных в исследование человек. Соответственно, количество курильщиков среди пациентов с ИМ будет определяться по формуле c1*r1/N. Аналогичные рассуждения приведут нас к тому, что количество некурящих пациентов с ИМ должно быть равно c1*r2/N, некурящих здоровых - c2*r2/N и курящих здоровых - c1*r2/N. Иными словами, ожидаемая частота в каждой ячейке равняется произведением суммы в столбце на сумму в строке, деленную на общее количество наблюдений в исследовании. Установив, какое должно было бы быть количество наблюдений в ячейках таблицы, если бы между двумя показателями не было бы связи, мы можем вернуться к исходным данным. То, что мы получили в результате исследования, называется наблюдаемыми частотами в противовес ожидаемым частотам при допущении справедливости нулевой гипотезы. Логичным будет указать, что, чем больше вероятность отклонения от нулевой гипотезы, тем больше будет разность ожидаемой и наблюдаемой частот. Однако в реальности в этот процесс вмешивается еще один фактор - количество наблюдений. Действительно, чем больше наблюдений, тем меньшие относительные различия между наблюдаемыми и ожидаемыми частотами будут одинаковы по абсолютной величине. Поэтому нам необходимо превратить абсолютные величины в относительные и мы делаем это размещая в ячейках таблицы отношение разности ожидаемых и наблюдаемых частот к величине ожидаемой частоты. Теперь понятно, что отклонения от нулевой гипотезы будут тем большими, чем будут отклонения во всех ячейках таблицы. Однако отклонения в одних ячейках будут с положительным знаком, а в других - с отрицательным (понятно, что если где-то пациентов больше, чем ожидалось, в другой ячейке их будет на то же количество меньше, краевые частоты ведь фиксированы!). Иными словами сумма подобных величин в таблице будет нулевой. Нам необходимо избавиться от знака. Легче всего это делается возведением разности ожидаемой и наблюдаемой частот в квадрат. Тогда в каждой ячейке таблицы будет находиться следующая величина:

f=(О-Е)2/Е,

где О - количество пациентов, согласно результатам исследования, а Е - величина, рассчитанная из краевых частот (сумма в столбце, умноженная на сумму в строке и деленная на общее количество наблюдений).

Теперь для характеристики отклонения нашей таблицы от "нулевой", составленной из предположения отсутствия связи между строками и столбцами таблицы мы должны просуммировать f по каждой ячейке. Чем он будет больше, тем меньше будет вероятность справедливости нулевой гипотезы при данных размерах таблицы. Опять-таки понятно, что чем больше размер таблицы (например, три столбца на три строки), тем больше будет сумма f. Поэтому мы должны оценивать сумму f для каждого размера таблицы отдельно. Сам критерий, равный сумме f называется критерием c2, а показатель размерности таблицы - количеством степеней свободы для таблицы. Количество степеней свободы определяется тем, каким образом мы можем поменять местами строки и столбцы таблицы и равно произведению числа строк минус 1 на число столбцов минус 1. В нашей задаче количество степеней свободы равно единице (две строки - 1 = 1, два столбца - 1 = 1; 1*1=1). Вероятность того, что в результате действия случайных факторов сумма f (c2) окажется равной 3.84 составляет 5%, поэтому мы можем сказать, что если сумма оказывается больше этого значения, мы можем отвергнуть нулевую гипотезу об отсутствии связи показателями в строке и столбцах Для случая ИМ и курения мы можем также трактовать эти результаты как наличие различий в относительной частоте инфарктников среди курящих и некурящих пациентов.

Проиллюстрируем сказанное примером: в результате исследования было установлено, что из 150 пациентов с ИМ курили 100, а из 150 контрольных пациентов - только 50. Вопрос заключается втом, могли ли быть отмеченные различия результатом действия случайных факторов? Нарисуем таблицу с краевыми частотами.

Таблица 3.2 Таблица с краевыми частотами

 

ИМ+

ИМ-

 

К+

a

b

150

К-

c

d

150

 

150

150

300

Общее количество курильщиков - 100+50=150. Общее количество пациентов 150+150=300. Соответственно, общее количество некурящих - 150. Ожидаемая частота курильщиков с признаками ИМ 150*150/300=75. Аналогичному значению равны и все остальные ожидаемые частоты:

Таблица 3.3 Таблица с ожидаемыми частотами

 

ИМ+

ИМ-

 

К+

75

75

150

К-

75

75

150

 

150

150

300

а вот как выглядит таблица наблюдаемых частот:

Таблица 3.4 Таблица наблюдаемых частот

 

ИМ+

ИМ-

 

К+

100

50

150

К-

50

100

150

 

150

150

300

Разности наблюдаемых и ожидаемых частот равны:

Таблица 3.5 Разности ожидаемых и наблюдаемых частот

 

ИМ+

ИМ-

К+

25

-25

К-

-25

25

 Относительные частоты f тогда получаются равными:

Таблица 3.6 Относительные частоты

 

ИМ+

ИМ-

К+

8.33

8.33

К-

8.33

8.33

Сумма c2=33.32, и мы можем явно отвергнуть нулевую гипотезу, поскольку вероятность случайного появления подобной величины крайне мала.

Для случая четырехпольной таблицы расчеты можно упростить, если воспользоваться следующей формулой:

c2=(a*d-b*c)2*N/(r1*r2*c1*c2)

Результат получается тот же самый.

Однако описанный выше более длинный подход значительно проще использовать в случае таблиц большей размерности. Общий подход будет неизменным:

1. Подсчитать краевые частоты

2. На основе краевых частот рассчитать ожидаемые частоты

3. Подсчитать относительные частоты для каждой ячейки таблицы как квадрат разности ожидаемой и наблюдаемой частоты, деленный на ожидаемую частоту

4. Просуммировать относительные частоты и получить значение критерия c2

5. Определить количество степеней свободы данной таблицы как произведение уменьшенных на единицу числа строк и столбцов

6. Сравнить расчетное значение критерия c2 с табличным и оценить вероятность появления такого значения критерия в результате действия только случайных факторов

Критерий c2 является довольно мощным распространенным критерием, однако у него есть ограничения - он не очень хорошо "работает" если количество наблюдений мало. Более точно, критерий c2 нельзя использовать, если хотя бы одна из ожидаемых частот в таблице меньше пяти. Для решения проблемы было предложено несколько методов, большинство из которых оптимизированы для четырехпольных таблиц. Один из них называется "поправкой Йетса (Yates) на непрерывность". Он сводится к тому, что в упрощенной формуле c2 из выражения a*d-b*c еще вычитается половина общего количества наблюдений. Тогда формула принимает следующий вид:

c2=(|a*d-b*c|-N/2)2*N/(r1*r2*c1*c2)

Второй метод стал очень популярным с распространением компьютеров и называется "точный метод Фишера ". Этот метод предполагает, что мы составляем все возможные типы таблиц, исходя из данных краевых частот и считаем, какой процент таблиц содержит варианты более резко отличающиеся от нулевого случая, чем наша.

В описанных выше примерах мы предполагали, что качественная переменная имеет только два уровня. Однако критерий c2, как было видно, может легко адаптироваться для ситуации, при которой качественная переменная имеет более двух уровней - например, если мы хотим изучить как цвет волос связан с наклонностью к возникновению аллергических реакций. Зависимая переменная будет иметь, скажем, четыре уровня - блондины, брюнеты, шатены и рыжие. А индикаторная переменная - две (есть аллергическая реакция или ее нет). Для оценки этой таблицы нам надо будет рассчитать значение c2 и сравнить его с табличными для 2 степеней свободы.

На самом деле мы можем работать и с индикаторной переменной, имеющей более двух уровней, подход будет тем же самым.

Анализ упорядоченных качественных переменных

Однако если количество строк или столбцов больше двух возникает другая проблема - теряем мы информацию или нет, если меняем местами строки и столбцы? Иными словами наша качественная переменная в строках или столбцах она номинальная (неупорядоченная) или ординальная (упорядоченная)? Если они номинальная, то мы можем спокойно использовать тест c2. Однако если она упорядоченная, то использование данного теста приведет к потере важной информации - об упорядоченности строк и/или столбцов, ибо тест c2, как мы видели, нигде не учитывает ее. В результате мы увеличиваем вероятность ошибки второго рода и снижаем статистическую мощность нашего исследования. Как же учесть упорядоченность данных? Наиболее адекватным способом будет воспользоваться методом Кохрана-Мантеля-Ханзеля (Cochrane-Mantel-Haenszel ).