Статистические модели

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

При проведении любого научного исследования достоверности выводов угрожают три основных причины:

1. Систематические ошибки

2. Случайные ошибки

3. Влияние третьих переменных (конфаундинг)

Воздействие систематических ошибок минимизируется на этапе выбора дизайна исследования, статистическая обработка, направленная на тестирование статистических гипотез пытается устранить влияние случайных ошибок (минимизация случайных ошибок - соответствующий объем выборки), а вот попытка описания влияния третьих переменных часто является причиной для работы со статистическими моделями.

Статистические модели построены на том, что вначале делается предположение о характере связей между анализируемыми переменными, затем проверяется соответствие данных модели и в зависимости от степени этого соответствия делаются определенные выводы.

Простейшей формой статистической модели является линейная регрессия. При ее использовании делается предположение о том, что два показателя связаны друг с другом линейно и именно эта гипотеза и проверяется (кроме того делается предположение о том, что одна переменная зависит от другой). Таким образом, статистические модели базируются на двух типах допущений - как и методы тестирования статистических гипотез они предполагают, что данные распределены определенным образом (чаще всего по нормальному закону распределения), и в дополнение к этому делается предположение о характере связи. Поэтому сделать ошибку при использовании статистических моделей в два раза легче и они обычно рассматриваются как инструментарий требующий дополнительной подготовки в области статистики.

Точно также, как и в случае с тестированием гипотез, для простоты понимания нам следует рассмотреть отдельно модели для качественных и количественных переменных. Хотя медицинские исследователи сейчас чаще работают с качественными показателями, статистические модели лучше разработаны для количественных переменных.

В принципе возможны следующие варианты при которых мы можем захотеть использовать статистические модели:

1. Зависимая переменная количественная, независимые переменные тоже количественные - основной тип модели - множественная (линейная) регрессия

2. Зависимая переменная количественная, независимые переменные качественные - основной тип модели - многофакторный дисперсионный анализ

3. Зависимая переменная количественная, независимые переменные как количественные, так и качественные - основной тип модели - общая линейная модель

4. Зависимая переменная качественная, независимые переменные тоже качественные - основной тип модели - логлинейный анализ

5. Зависимая переменная качественная, независимые переменные количественные - основной тип модели - дискриминантный анализ

6. Зависимая переменная качественная, независимые переменные как качественные, так и количественные - основной тип модели - логистическая регрессия.

Как видно из приведенного выше списка, в целом существуют две наиболее общие процедуры - общая линейная модель для зависимых количественных переменных и логистическая регрессия для зависимых качественных переменных, а все остальные модели являются частными случаями этих двух.

Для ряда приложений, например анализа выживаемости пациентов в проспективном исследовании, описанные выше методики оказались недостаточно приемлемыми, поскольку в этом случае имеется более одной зависимой переменной (одна - что произошло с пациентом, вторая - когда это произошло). Поэтому для анализа выживаемости были разработаны специальные формы статистических моделей, наиболее известными из них являются параметрические регрессионные методы (Вейбулла) и непараметрические регрессионные модели (модель Кокса).

Существуют еще специальные формы статистических моделей, которые пытаются найти скрытые связи между включенными в анализ переменными и наблюдениями. Эти методики пришли в биостатистику из психометрии и к ним относятся:

1. Факторный анализ - методика обнаружения ненаблюдаемых напрямую факторов, отвечающих за связи между количественными переменными

2. Кластерный анализ - методика объединения наблюдений или переменных в группы на основании "одинаковости" измеренных количественных характеристик

3. Корреспондентский анализ - аналог факторного анализа для многомерных таблиц

4. Многомерное шкалирование - методика, пытающаяся расположить переменные друг относительно друга в пространстве меньшей размерности (создать аналог географической карты)

В последнее время, в связи с переходом в хранении данных на компьютерные носители и, в связи с этим, с резким увеличением рутинно собираемых данных, появились новые статистические модели, направленные на выявление закономерностей в крупных и плохоструктурированных базах данных. К ним относятся:

1. Древовидное моделирование (regression trees) - методика сегментирования данных, нахождения точек, которые наилучшим образом разделяют наблюдения на группы в зависимости от значения итоговой переменной (например, определение группы риска больничной летальности в зависимости от большого набора биохимических показателей, измеренных при госпитализации)

2. Нейросетевое моделирование (neural networks) - методика определения связей между набором входных параметров и зависимой переменной, которая не делает предположений об истинной форме этих связей (как, например, линейная регрессия).  Для статистиков нейросетевое моделирование - это множественная нелинейная регрессия. Программы нейросетевого моделирования формируют структуру, которая, работая по принципу "черного ящика" может достаточно точно предсказать выходные параметры на основании набора входных величин.

Надо заметить, что эти методики, особенно нейросетевого моделирования, нашли широкое применение в технических приложениях. Системы машинного видения, оптического распознавания символов, биометрические системы безопасности, почти все они используют алгоритмы нейросетевого моделирования. Однако в медицинских исследованиях использование этих методов, после короткого периода увлечения, широко не распространилось. Причиной тому является необходимость наличия огромных массивов данных если есть желание получить реальную, работающую модель. Обычно для нейросетевой и древовидной моделей требуются тысячи наблюдений, причем наблюдения должны быть достаточно гомогенными. В случае небольших групп, часто возникает т.н. Подгонка модели под данные (overfitting), когда модель прекрасно описывает данный набор результатов, но абсолютно неприменима на людом другом наборе данных.

Очень легко представить себе, почему это происходит. Нейросетевое моделирование базируется на попытке разделить данные на группы при условии наличия большого количества входных параметров. Предположим, что мы хотим научить компьютер отличать мужчин от женщин, и представляем ему группу, состоящую из преподавателя биостатистики и трех аспиранток. Тогда, проанализировав данные, компьютер легко найдет правило, дифференцирующее мужчин и женщин: если некто преподаватель, то он мужчина. В данной группе разделение будет лучшим, нежели по любым другим параметрам, таким как тембр голоса, охват талии и бедер, длина волос и т.п. Однако будет ли подобный результат генерализуем?

Именно по причине зависимости от большого количества наблюдений, методы нейросетевого и древовидного моделирования не находят большого распространения в медицинской науки, а учитывая тот грустный факт, что отечественная наука в последнее время вообще предпочитает работать с небольшими выборками, до широкого применения их еще можно ждать достаточно долго (возможно, ситуация изменится с повсеместным внедрением компьютеризированных регистров заболеваний, например раковых регистров).