Тестирование статистических гипотез. Анализ количественных переменных

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

Иная ситуация возникает у исследователя, когда зависимая переменная, которую он анализирует, оказывается количественной.

Здесь следует рассмотреть два принципиально различных случая - распределение зависимой переменной подчиняется нормальному закону распределения и распределение отличается от нормального. Вначале рассмотрим первый вариант.

Для простоты вначале рассмотрим вариант, когда мы произвели измерения одного и того же показателя у одного и того же пациента до и после воздействия. Такие измерения называются связанными. Поскольку мы знаем какие значения были у каждого пациента до и после воздействия, мы можем воспользоваться этим фактом и взять разность показателей до и после воздействия. Таким образом, мы сократим количество групп до одной, состоящей и разностей для каждого пациента. Нулевая гипотеза , об отсутствии эффекта от воздействия, тогда будет формулироваться очень просто - какова вероятность того, что наблюдаемое отклонение от нулевого значения вызвано случайными факторами? Из свойств выборки мы знаем, что выборочная средняя варьирует в корень квадратный из количества наблюдений раз меньше, чем сами переменные. Этот показатель называется ошибкой среднего и равен, соответственно, SD /sqrt(N). Иными словами, выборочное среднее распределено по нормальному закону со средним, равным выборочному среднему и дисперсией равной квадрату стандартной ошибки. Из свойств нормального распределения мы помним, что зная относительное положение точки (выраженное в стандартных отклонениях расстояние от точки до среднего) мы можем определить вероятность существования данных, расположенных вправо или влево от этой точки. Иными словами, зная стандартное отклонение, среднее и положение точки мы можем однозначно определить вероятность наличия значений больших данного. Возвращаясь к выборочному среднему это означает, что мы можем определить вероятность появления данного ожидаемого среднего при условии, если нам известно измеренное в выборке среднее и ошибка среднего. В случае связанной совокупности ожидаемое среднее равно 0. Соответственно, разность наблюдаемого среднего и ожидаемого будет равна наблюдаемому среднему. Теперь можно выразить эту разность в единицах стандартной ошибки, поделив среднее на ошибку среднего. Вспомнив правила для нормального распределения мы можем сказать, что значения, превышающие 2 стандартных отклонения от среднего встречаются в 5% случаев (точнее значения большие +2 и меньшие -2). Соответственно, если отношение среднего к его ошибке больше двух, вероятность, что подобное значение появилось в результате действия случайных факторов в популяции с истинной средней в 0, составляет 5% или меньше. Поскольку это и есть определение ошибки первого рода, мы можем отвергнуть нулевую гипотезу с 5% вероятностью ошибки.

Данный расчет называется z-методом для связанных совокупностей. Однако часто мы не можем воспользоваться этим методом, поскольку располагаем относительно небольшим количеством наблюдения. Однако в конце XIX века, английский математик, Уильям Госсет, писавший под псевдонимом Стьюдент («студент», Госсет был вынужден писать под псевдонимом, поскольку его работодатель – пивоварни Гиннеса, запрещали сотрудникам публиковаться под их реальными именами) описал распределение (т.н. t-распределение ), которое обладало свойствами нормального и повторяло его при больших значениях выборки, однако которым можно было пользоваться и при относительно небольшом размере выборки. После его открытия стало возможным анализировать относительно небольшие выборки. Оценка данных производится на основании распределения Стьюдента , а не нормального распределения и поэтому данный тест получил наименование теста Стьюдента или t-теста.

Аналогичные рассуждения можно использовать и в случае существования двух независимых групп (совокупностей), однако здесь ситуация осложняется тем, что каждая группа имеет свое среднее и свою ошибку среднего. Исследователю необходимо оценить суммарную ошибку (суммарную дисперсию), что относительно легко сделать в случае одинаковой численности групп (тогда она становится равной квадратному корню из суммы квадратов ошибок). Однако в случае разной численности уже придется использовать взвешенный показатель ошибки. Ситуация еще более осложняется тем фактом, что для "обычного" критерия Стьюдента необходимо выполнение условия равенства дисперсий в сравниваемых группах (ибо, напомним, мы тестируем гипотезу о том, что обе группы являются случайными выборками из одной и той же популяции). Однако если выборочные дисперсии сильно отличаются друг от друга, то выяснить, какая из них ближе к популяционной не представляется возможным. Тестирование равенства дисперсий осуществляется при помощи F -теста Фишера, который будет детально обсуждаться при рассмотрении дисперсионного анализа. Если оно не выполняется, то следует прибегать к коррекции. Одним из методов коррекции является тест Саттертвайта (Satterthwaite (1946)) в рамках которого соответственно степени различий между дисперсиями меняется количество степеней свободы для t-критерия.

Приведем простой пример. Исследователь изучил воздействие нового препарата на интеллектуальные способности крыс (скорость прохождения лабиринта). В группу воздействия вошло 9 животных, в контрольную группу – 13 животных. Получены следующие суммарные данные:

Таблица 3.10. Суммарные данные для использования теста Стьюдента

 

Группа контроля

Группа вмешательства

Численность группы

13

9

Продолжительность прохождения лабиринта

110,01

101,58

Стандартное отклонение

9,91

2,86

Для начала надо сравнить дисперсии в двух группах. Поскольку дисперсия – это возведенное в квадрат стандартное отклонение, мы можем поделить два стандартных отклонения друг на друга (большее на меньшее) и возвести полученную величину в квадрат:

F =(9,91/2,86)2=12,0

Теперь надо найти пограничное значение критерия F в таблицах, учитывая тот факт, что количество степеней свободы в числителе составит 9-1=8, а в знаменателе 13-1=12, таблицы показывают нам, что пограничное значение для 5% уровня значимости составляют 3,28. Полученная величина значительно выше, поэтому гипотезу о равенстве дисперсий следует отвергнуть и надо будет пользоваться тестом Саттервайта вместо «классического» теста Стьюдента .

Рассчитаем значение t-критерия

, где x1 и x2 – средние групп контроля и вмешательства, sx1 и sx2 – стандартные отклонения этих групп, а n1 и n2 – их численности.

Справедливости ради заметим, что если бы дисперсии у нас были бы примерно равны, то нам бы следовало использовать иную версию этой формулы, базирующаяся на расчете суммарной дисперсии двух групп:

Затем суммарная дисперсия sp подставляется в формулу для расчета t-критерия

Теперь, если бы дисперсия была одинаковой, то нам бы было достаточно посмотреть в таблицах t-критерия пограничное значение для выбранного уровня достоверности и количества степеней свободы равного n1+n2-2=9+13-2=20 и сравнить с рассчитанным значением.

Однако в нашем примере гипотеза равенства дисперсий была отвергнута, поэтому мы опираемся на первое значение t-критерия (t=2.898) и должны рассчитать откорректированное значение степеней свободы. Делается это при помощи следующих формул:

(обратите внимание, что в числителе должна находиться группа с большей дисперсией – большим стандартным отклонением).

Итак, теперь надо воспользоваться таблицами t-критерия и найти значение, соответствующее выбранному уровню значимости и 14.7 степеням свободы. Обычно в таблицах t-критерия, соответствующего дробному числу степеней свободы нет. Поэтому можно либо взять значение для 14 степеней свободы, либо использовать правило линейной аппроксимации. Из таблиц известно, что значение t-критерия, соответствующее 14 степеням свободы при 5% уровне значимости составляет 2,145, а соответствующее 15 степеням свободы – 2,131. Тогда рассчитать значение для 14,7 степеней свободы можно следующим образом:

t=2.145+(2.131-2.145)*0.7=2.135

Рассчитанное нами значение t-критерия больше пограничного, значит вероятность получить подобные различия в том случае, если препарат не действует на крысиный интеллект (за счет только случайных факторов) составляет менее 5%. С другой стороны, значения t-критерия для 1% вероятности (2,98 для 14 степеней свободы и 2,95 для 15 степеней свободы) оказываются выше расчетного, что означает, что значение доверительной вероятности находится в интервале от 1% до 5% (истинное значение p=0,0112). Интересно заметить, что если бы мы воспользовались (неправильно) «классической» версией теста Стьюдента , то значение доверительной вероятности составило бы р=0,0229. Это более, чем в два раза больше, чем при использовании адекватного теста и свидетельствует о потере мощности, возникающей при ошибочном использовании «классического» теста в случае неравных дисперсий.

Естественно, что возможна ситуация, в которой распределение данных не подчиняется нормальному закону, поэтому использование самого мощного статистического критерия - критерия Стьюдента становится невозможным. Тогда приходится прибегать к различным непараметрическим критериям.

Если параметрических критериев, в принципе, два, то непараметрических значительно больше. Наличие большого количества критериев является иллюстрацией старого закона о том, что чем меньше известно о предмете, тем больше на эту тему публикаций. Разные критерии различаются по допущениям, на которых они основаны, по сложности расчета, по статистической мощности и т.п. Вместе с тем, в современной статистической литературе, похоже, достигнут консенсус о том, что наиболее приемлемыми для наибольшего числа задач являются два критерия, базирующиеся на суммировании рангов - критерий Вилкоксона (для связанных совокупностей) и критерий Мэнна-Уитни (для несвязанных совокупностей, также известный как критерий Вилкоксона для несвязанных совокупностей). Эти тесты оказались победителями, поскольку они не требуют предположений о характере распределения данных (или рангов, как, например, критерий Ван-дер-Ваардена ), а их статистическая мощность на нормально распределенных данных приближается к таковой теста Стьюдента .

Идея этих тестов заключается в следующем: давайте расположим наши данные, все две группы, в порядке возрастания значений. Затем мы заменим истинные значения на порядковые номера (ранги), при этом пациенты, имеющие одинаковые значения будут получать средний ранг (например, в последовательности 1 2 4 8 8, есть два значения, которые должны были бы занимать четвертое и пятое места (8 и 8), соответственно, оба пациента получат одинаковый ранг, равный 4,5). После этого мы считаем сумму рангов в каждой группе. Понятно, что если справедлива нулевая гипотеза, то значения будут перемешаны, и сумма рангов будет примерно одинакова. Чем больше сумма рангов отличается от пограничного значения, тем ниже вероятности справедливости нулевой гипотезы. Обычно для простоты берется меньшая сумма рангов, поскольку, зная общее количество наблюдений, большая определяется однозначно при известной меньшей сумме. Поскольку сумма рангов будет также зависеть от соотношения численности групп, необходимо провести нормирование. Таким образом, например, значение критерия Мэнна-Уитни U вычисляется следующим образом:

U=n1*n0+(n1+1)/2-R, где

n1 - численность одной группы, n0 - численность второй группы, а R - сумма рангов группы n1.

Критерий Мэнна-Уитни еще интересен тем, что с его помощью можно измерить площадь под характеристической кривой, что необходимо для адекватной оценки диагностических исследований. Площадь под кривой (AUC) равняется U/(n1*n0), где n1 и n0 - численность больных и здоровых на которых проводилось исследование диагностического теста (ранги будут определяться по результатам самого теста)

Здесь следует оговориться на тему того, что мы понимаем под "принадлежностью к одной совокупности". В случае параметрических критериев мы сравнивали выборочные средние. Однако при использовании непараметрических критериев средняя перестает быть несмещенной оценкой центральной тенденции (иными словами она плохо указывает на середину ряда). Поэтому мы вынуждены сравнивать непараметрические средние - медианы. Все описанные выше тесты являются, на самом деле, тестами сравнения выборочных медиан. Поэтому, строго говоря, приводить в таблице средние и ошибку средних, а затем указывать, что группы сравнивались по критерию Мэнна-Уитни, неправильно. Если используются непараметрические критерии, необходимо пользоваться непараметрическими показателями центральной тенденции и дисперсии - медианой и межквартильным расстоянием.

Можно также попытаться сравнить не показатели центральной тенденции, а форму распределения (для этого используется тест Колмогорова -Смирнова), однако в медицинской науки поле применения подобных тестов относительно ограничено.

Таким образом, исследователь, анализирующий количественные данные в двух группах, может воспользоваться достаточно большим количеством тестов, однако наиболее адекватным будет следующий подход:

1. Проанализировать соответствие распределение данных нормальному

2. В случае нормального распределения сравнить средние, используя самый мощный статистический тест: t-тест для связанных или несвязанных совокупностей

3. Если распределение не соответствует нормальному, провести сравнение медиан используя тест Вилкоксона (для связанных совокупностей) или Мэнна-Уитни (для несвязанных совокупностей)

Следующей проблемой, с которой может столкнуться исследователь, является ситуация, при которой количественная переменная измеряется сразу в нескольких группах - например, уровень АД в трех группах воздействия, которым назначали три разных препарата в дополнение к контрольной группе, получавшей плацебо. Кажется, что ответ на этот вопрос очень прост: попарно сравниваем группы с контролем и друг с другом. Однако надо задуматься о том, как мы формулируем понятие достоверных различий - это ведь определенный уровень вероятности, с которым мы считаем, что нулевая гипотеза маловероятна. Иными словами мы идем на определенный риск, который, обычно, принимается равным 0.05. Каждый раз, когда мы признаем различия достоверными, вероятность нашей ошибки составляет 5%. С пятью группами мы сделаем 10 по-парных сравнений. Если каждый раз вероятность ошибиться составит 5%, вероятность ошибиться хотя бы один раз составит уже 40%. Логика довольно простая. Используя обычный уровень достоверности, мы будем ошибочно отвергать нулевую гипотезу в одном из 20 случаев. Соответственно, если мы проведем двадцать сравнений групп, взятых из одной популяции (нулевая гипотеза справедлива), хотя бы в одном из этих сравнений появятся такие большие различия, которые позволили бы нам отвергнуть нулевую гипотезу на 5% уровне значимости. Данная ситуация называется "проблемой множественного сравнения".