Проблема "множественных сравнений" и дисперсионный анализ

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

Как же ее решить? Самым примитивным было бы понизить уровень отклонения нулевой гипотезы так, чтобы суммарная ошибка оказывалась бы не выше определенного, например 5%, уровня. Для этого достаточно разделить этот уровень на число сравнений и принять новое значение в качестве пограничного. Называется этот метод - методом Бонферрони . Пользуясь им в описанном выше примере мы установим новую границу достоверности: 0.05/10=0.005. При этом суммарная вероятность ошибки при 10 сравнениях составит 1-0.99510=0.05.

Проблема с методом Бонферрони заключается в том, что платой за фиксированный уровень ошибки первого рода является повышение вероятности ошибки второго рода или, что равнозначно, снижение статистической мощности исследования. Причем чем больше сравнений, тем выше вероятность ошибочно принять нулевую гипотезу. Поэтому исследователь может переформулировать задачу - вместо того, чтобы спрашивать про попарное сравнение он может заинтересоваться вероятностью того, что все группы пришли из одной популяции (т.н. омнибусный тест). В том случае, если они все пришли из одной популяции дальнейший анализ не нужен. А вот если анализ показывает, что гипотеза о принадлежности всех групп к одной популяции (читай, равенстве средних) не справедлива, то мы можем начинать поиск тех групп, которые сильнее других отличаются от среднего.

Как же можно проанализировать гипотезу о принадлежности всех групп к одной генеральной совокупности? Для ответа н аэтот вопрос давайте попытаемся еще раз сформулировать нулевую гипотезу: все группы принадлежат к одной генеральной совокупности и истинное популяционное среднее во всех случаях одно. Итак, мы предполагаем, что есть одно среднее значение, а все колебания, найденные в исследовании являются следствием случайных процессов. Однадо тогда средние каждой группы тоже возникли в результате случайного отклонения и, поэтому, отклонение от них будет сопоставимо с отклонениями от истинной средней. Поясним сказанное на примере. Предположим, что у нас есть две группы, в каждой из которых мы измерили по три значения:

1. 1 2 3

2. 4 5 6

Если на самомо деле, все наблюдения пришли из одной популяции, то данная популяция должна иметь среднее около 3.5. Отклонения от этого среднего возникают вследствие случайных процессов и мы можем оценить их рассчитав сумму квадратов отклонений (чтобы не связываться с отрицательными значениями):

(1-3.5)2 +(2-3.5)2 +(3-3.5)2 +(4-3.5)2 +(5-3.5)2 +(6-3.5)2 =17.5

Сама по себе эта величина нам ничего не говорит. Однако мы можем сделать и другое предположение - наблюдения пришли из разных популяций, с разными средними. Среднее в первой группе равно 2, во второй - 5. Поэтому сумма квадратов отклонений от групповой разности равна

(1-2)2 +(2-2)2 +(3-2)2 +(4-5)2 +(5-5)2 +(6-5)2 =4

Мы видим, что это значение меньше того, что было рассчитано исходя из предположения о существовании только одной популяции. Иными словами, тот факт, что мы учли систематический фактор (принадлежность к разным группам) привел к снижению степени разброса. Мы можем утверждать, что сумма квадратов разности в первом случае (общая сумма квадратов) состоит из двух частей - суммы квадратов ошибки и суммы квадратов, связанной с игнорированием систематических факторов. Сумма квадратов ошибки равна сумме квадратов, рассчитанной с учетом принадлежности к группам, в нашем примере 4. Сумма квадратов систематических факторов (модели) равна разности общей суммы квадратов и суммы квадратов ошибки. В нашем случае 17.5-4=13.5.

Вместе с тем понятно, что чем больше групп, тем меньше будет разброс данных и, наоборот, чем их меньше, тем он будет большим. Поэтому нас должен интересовать некоторый "средний" разброс. Для нулевой гипотезы его расчет прост - аналогичен рассчету дисперсии при анализе популяции: сумма квадратов, деленная на число наблюдений минус единица (поскльку это выборочная дисперсия). Однако для нескольких групп ситуация будет немного более сложной - дисперсия в этом случае равна сумме квадратов деленной на количество наблюдений минус количество групп. Дисперсия же модели (систематическая) равна количеству групп минус 1. Соответственно, дисперсия ошибки будет равна 4/(6-2)=1, дисперсия модели 13.5/(2-1)=13.5 и общая дисперсия - 17.5/(6-1)=3.50. Дальнейшая логика исследования состоит в том, что нам надо сравнить дисперсию, "объясняемую" нашей моделью (разбиением данных на группы) с дисперсией, возникающей под воздействием случайных факторов. Чем большим будет это отношение, тем меньше будет вероятность, что наша модель делит наблюдения на подгруппы не лучше, чем генератор случайных чисел. Одним из самых известных биостатистиков ХХ века - Р.Фишером - было показано, что отношение дисперсий распределено по специфическому закону и теперь это распределение называет F -распределением, как можно догадаться, по имени Фишера. Значения F-распределения зависят количества групп в анализируемой модели. Так, в результате действия случайных факторов, дисперсии могут различаться в 4 и более раз в 5% случаев. К данному моменту читателю уже понятно, что для случая двух групп пограничным значением F, которое позволит нам отвергнуть нулевую гипотезу на 5% уровне значимости является 4. В нашем примере значение F равно 13.5/1=13.5, что явно выше пограничного значения, и поэтому отвергнуть нулевую гипотезу мы можем.

Описанную выше логику можно легко распространить на случай трех групп, или четырех, или пяти... В любом случае подход будет одинаков - рассчитать сумму квадратов без учета принадлежности к группам, рассчитать сумму квадратов с учетом таковой и оценить, на их основе, соотношение дисперсий ошибки модели.

То, что описывалось выше относится к т.н. однофакторным комплексам. В однофакторных комплексах сравниваются группы, формирующиеся за счет нескольких уровней одного и того же фактора. Примером может служить изучение средних уровней артериального давления у лиц с различным образованием.

Однако исследователи редко заинтересованы в изучении влияния только одного параметра. Чаще речь идет о трех и более факторах. Следует сразу же оговориться, что лучше всего теория дисперсионного анализа разработана для т.н. ортогональных комплексов и ниже будут анализироваться именно такие комплексы. Ортогональными называются те комплексы, в которых число наблюдений во всех подгруппах либо одинаково, либо пропорционально. Последнее означает, что соотношение численностей групп одинаково по всем уровням факторов.

Таблица 3.11 Ортогональный комплекс.

уровни первого фактора

А1

А2

уровни второго фактора

В1

В2

В1

В2

количество наблюдений

5

3

5

3

В данной таблице количество наблюдений по градациям фактора А составляет 8 и 8 наблюдений, по градациям комплекса В - 10 и 6. В то же время, внутри градаций фактора А отношение численностей составляет 5 к 3 в обоих случаях.

Таблица 3.11 Неортогональный комплекс.

уровни первого фактора

А1

А2

уровни второго фактора

В1

В2

В1

В2

количество наблюдений

5

4

5

2

В табл. 3.11 соотношение 5:3 нарушается, несмотря на неизменное количество наблюдений по отдельным градациям.

В подобных комплексах - неортогональных - нарушается соотношение между размахами варьирования, объясняемыми моделью и ошибкой, что резко затрудняет анализ.

Ортогональные комплексы значительно проще для анализа и этот анализ, в принципе, аналогичен анализу однофакторных комплексов.