ИНТУИТИВНАЯ БИОСТАТИСТИКА: ВЫБОР АДЕКВАТНОГО СТАТИСТИЧЕСКОГО ТЕСТА.

Глава 37 в кн. Harvey Motulsky "Intuitive Biostatistics", Oxford University Press, 1995.

Обзор существующих статистических тестов.

В этой книге обсуждалось большое количество различных статистических тестов. Для того, чтобы выбрать адекватный тест задайте себе два вопроса: Какие данные мы собрали? и Какова наша цель?, а затем обращайтесь к таблице 37.1.

Все тесты, которые описаны в этой книге могут быть выполнены программой InStat за исключением тех, которые маркированы звездочкой. Тесты, помеченные одной звездочкой кратко упоминаются в этой книге, а тесты, которые помечены двумя звездочками, не упоминаются вообще.

Таблица 37.1 Выбор статистического теста.

 

Тип данных

Цель

Измерение (из нормальной популяции)

Ранг, оценка или измерение (не Гауссова популяция)

Биноминальное (два возможных результата)

Выживаемость

Описать одну группу

Среднее стандартное отклонение

Медиана, интерквартильное расстояние

Пропорция

Кривая выживаемости Каплана-Мейера

Сравнить одну группу с гипотетическим значением

t-тест для одной выборки

Тест Вилкоксона

Тест хи-квадрат или биноминальный тест**

 

Сравнить не связанные совокупности

t-тест для не связанных совокупностей

Тест Мена-Уитни

Тест Фишера (для больших выборок хи-квадрат)

Лог-ранговый тест или тест Мантеля-Ханзеля*

Сравнить две связанные совокупности

t-тест для связанных совокупностей

Тест Вилкоксона

Тест Мак-Неймера

Условная регрессия пропорционального риска*

Сравнить три или более не связанных совокупности

Однофакторный дисперсионный анализ

Тест Крускала-Уоллеса

Тест хи-квадрат

Регрессия пропорционального риска Кокса

Сравнить три или более связанных друг с другом группы

Дисперсионный анализ с повторными измерениями

Тест Фридмана

Тест Кохрана-Q**

Условная регрессия пропорционального риска

Оценить взаимосвязь между двумя переменными

Коэффициент корреляции Пирсона

Коэффициент корреляции Спирмена

Коэффициенты связи**

 

Предсказать изменение одного значения, если было измерено другое значение

Простая линейная регрессия или нелинейная регрессия

Непараметрическая регрессия**

Простая логистическая регрессия*

Регрессионная модель пропорционального риска Кокса

Предсказать значение, базируясь на нескольких измеренных биноминальных переменных

Множественная линейная регрессия* или Множественная нелинейная регрессия**

Множественная логистическая регрессия*

Регрессия пропорционального риска Кокса*

Обзор непараметрических тестов.

Выбор адекватного теста для того, чтобы сравнивать показатели достаточно сложное мероприятие, поскольку Вам необходимо выбирать между двумя семействами тестов - параметрическими и непараметрическими. Многие статистические тесты базируются на допущении, что данные были получены как выборка из нормального распределения. Эти тесты обозначаются как параметрические тесты. Наиболее часто используемые параметрические тесты приведены в первом столбце таблицы и включают t-тест и дисперсионный анализ.

Тесты, которые не базируются на допущениях о распределении популяции, обозначаются непараметрическими тестами. Вы уже довольно много знаете о непараметрических тестах из предыдущих глав, все часто используемые непараметрические тесты, ранжируют переменную результата в порядке возрастания или убывания, а затем анализируют ранги. Эти тесты перечислены во втором столбце таблицы и включают тесты Вилкоксона, Мена-Уитни и Крускала-Уоллеса. Эти тесты также иногда называются тестами, не зависящими от распределения.

Выбор между параметрическими и непараметрическими тестами: легкая ситуация.

Выбор между параметрическими и непараметрическими тестами иногда достаточно прост: Вы должны четко выбрать параметрический тест, если Вы уверены, что Ваши данные были получены как выборка из популяции, которая соответствует нормальному распределению. Вы должны определенно выбирать непараметрический тест в следующих ситуациях:

Выбор между параметрическими и непараметрическими тестами: сложные случаи.

Не всегда легко определить является ли выборка из Гауссовой популяции. Обратите внимание на следующие положения:

Выбор между параметрическим и непараметрическим тестом: насколько это на самом деле влияет на результат?

На самом деле надо ли задумываться о выборе параметрического или непараметрического теста? Ответ зависит от размере выборки. Есть четыре вещи о которых следует подумать:

Поэтому большие наборы данных не представляют большой проблемы. Обычно достаточно легко сказать пришли ли данные из Гауссовой популяции, хотя на самом деле это уже не столь важно, поскольку непараметрические тесты достаточно мощны, а параметрические тесты устойчивы. Небольшие наборы данных как раз и являются основной проблемой. Достаточно сложно сказать пришли ли данные из Гауссовой популяции, однако это очень важно. Непараметрические тесты при небольшом объеме данных недостаточно мощны, а параметрические тесты не являются устойчивыми.

Одно или двухсторонняя p-оценка?

Для большинства статистических тестов Вы должны выбирать хотите ли Вы рассчитать одно- или двух- стороннюю р-оценку. Различия между одно и двухсторонней р-оценкой обсуждалось ранее, а теперь давайте вспомним про эти различия в контексте t-теста. Р-оценка подсчитывается для нулевой гипотезы что две популяции имеют одинаковые значения средних и любые различия между двумя выборочными средними являются следствием случайных факторов. Если эта нулевая гипотеза справедлива односторонняя р-оценка - это вероятность того, что две выборочных средних будут различаться настолько много, насколько было обнаружено или (даже больше) в направлении, которое было указано гипотезой за счет случайных факторов, даже если среднее в популяции в целом на самом деле равное. Двухсторонняя р-оценка также включает вероятность того, что выборочные средние могут различаться таким же образом и в противоположном направлении, то есть другая группа имеет большее среднее. Двухсторонняя р-оценка таким образом выше, чем односторонняя.

Односторонняя р-оценка является адекватной когда Вы можете точно установить (и перед сбором любых данных), что здесь нет никаких различий между средними либо различия будут идти в направлении, которое Вы можете указать с самого начала (то есть Вы можете указать в какой группе будут более высокие средние значения). Если Вы не можете указать направления или любые различия, прежде чем начинать сбор данных, тогда более адекватным будет использовать двухстороннюю р-оценку. Если Вы сомневаетесь, выбирайте двухстороннюю р-оценку.

Если Вы выбираете односторонний тест, Вы должны сделать это до сбора каких бы то ни было данных и Вам необходимо установить направление Вашей экспериментальной гипотезы. Если данные пойдут в другую сторону, Вы должны будете согласиться на то, что эти различия ассоциация или корреляция является следствием действия случайных факторов вне зависимости от того, насколько серьезными получаются эти различия. Если Вы будете заинтересованы (даже немного) тем, насколько данные могут пойти в "неправильном" направлении, то тогда Вы должны использовать двухстороннюю р-оценку. По этим и другим причинам, которые обсуждались ранее, я бы рекомендовал Вам, чтобы Вы всегда анализировали только двухстороннюю р-оценку.

Парный или непарный тест?

Когда Вы сравниваете две группы, Вам необходимо решить использовать или не использовать парный тест. Когда Вы сравниваете три или более группы, термин парные уже не используется, используется термин повторные измерения.

Вы должны использовать парный тест, когда Вы сравниваете группы, в которых индивидуальные значения не связаны друг с другом и не соотнесены один с другим. Выбирайте парный тест или тесты с повторными измерениями, когда значения представляют собой повторные измерения у одного и того же субъекта (до и после вмешательства) или измерения, сделанные на специально подобранных парах наблюдений. Парные или тесты с повторными измерениями также подходят для повторных экспериментов в лаборатории, которые выполняются в разное время каждый раз со своим собственным контролем.

Вы должны подбирать парный тест, когда значение в одной группе больше коррелирует с определенными значениями в другой группе, чем со случайными значениями в другой группе. Адекватным является выбирать парный тест только в том случае, если субъекты были собраны в пары до начала сбора данных. Вы не можете создавать парный тест на данных, которые Вы собрали ранее, а сейчас анализируете.

Тест Фишера или хи-квадрат?

Когда Вы анализируете таблицы сопряженности с двумя строками и двумя столбцами, Вы можете использовать либо точный тест Фишера, либо тест хи-квадрат. Тест Фишера является более хорошим выбором, поскольку он всегда дает точное значение р-оценки. Хи-квадрат легче подсчитывать, но он дает только примерное значение р-оценки. Если компьютер делает все расчеты, Вы должны выбирать тест Фишера за исключением ситуации, когда Вы предпочитаете хи-квадрат на основе того, что он более хорошо известен. Вы должны совершенно четко избегать хи-квадрат в том случае, если количество наблюдений (любое число ниже 6). Когда значение больше р-оценки, которые получаются в результате использования теста хи-квадрат и теста Фишера будут очень похожи друг на друга.

Тест хи-квадрат рассчитывает примерные p-значения и поправка Йетса на непрерывность предназначена для того, чтобы сделать это приближение лучше. Без поправки Йетса p-значения слишком небольшие, однако если коррекция заходит слишком далеко, результирующая p-оценка оказывается слишком большой. Статистики дают различные рекомендации по отношению к поправке Йетса. Когда имеется большая выборка, то поправка Йетса не приводит к серьезным различиям. Если Вы выбираете тест Фишера, p-значение является точным и в этой ситуации поправка Йетса на непрерывность не является необходимой.

Регрессия или корреляция?

Линейная регрессия и корреляция являются очень похожими друг на друга и их легко спутать. В некоторых ситуациях имеет смысл выполнять оба типа расчета. Рассчитывайте линейную корреляцию, если Вы измеряете как Х, так и Y у каждого обследованного и хотите оценить насколько хорошо они связаны друг с другом. Выбирайте Пирсоновский (параметрический коэффициент) коэффициент корреляции если Вы предполагаете, что Х и Y были выбраны из Гауссовой популяции. В другом случае выбирайте непараметрический коэффициент корреляции Спирмена. Не рассчитывайте коэффициент корреляции или доверительный интервал если Вы сами воздействовали на значение переменной Х. Рассчитывайте линейную регрессию только в том случае, если одна из переменных Х по всей вероятности является предшественником или причиной изменения другой переменной Y. Совершенно четко выбирайте линейную регрессию, если Вы сами воздействовали на переменную Х. В линейной регрессии очень серьезные различия получаются в зависимости от того, какая переменная обозначается Х, а какая переменная обозначается Y, поскольку подсчеты при помощи линейной регрессии не симметричны по отношению к Х и Y. Если Вы поменяете местами эти две переменные, Вы можете получить другую регрессионную линию. В противоположность этому линейный коэффициент корреляции симметричный по отношению к Х и Y, и если Вы поменяете местами маркеры для Х и Y, Вы получите тот же самый корреляционный коэффициент.