Эпидемиология для непосвященных.

Copyright BMJ Publishing Group 1997

12. Чтение эпидемиологических отчетов.

Эпидемиологические методы широко применяются в медицинских исследованиях, и даже те врачи, которые самостоятельно не выполняют исследований, обнаруживают, что их клиническая практика находится под воздействием эпидемиологических наблюдений. Какие пероральные контрацептивы является наилучшими для женщины в 35 лет? О каком прогнозе нужно сказать родителям, дочь которых страдает сколиозом? Какой совет нужно дать пациенту, обеспокоенному сообщениями в газетах о том, что жизнь рядом с линиями электропередач приводит к возникновению рака? Чтобы отвечать на вопросы такого типа, врач должен понимать и адекватно интерпретировать эпидемиологические исследования.

Интерпретация эпидемиологических исследований не всегда легка, и она может приводить к кажущимся противоречивыми результатам. На одной неделе публикуются исследования, которые предполагают, что низкий уровень потребления алкоголя снижает смертность. На следующей появляется сообщение о том, что любое потребление алкоголя является опасным. Как можно все эти противоречия сопоставить? Эта глава дает возможность познакомиться с оценкой эпидемиологических данных, разделяя их на три основных компонента.

Систематическая ошибка.

Первый шаг при оценке любого исследования - это идентификация возможностей серьезных систематических ошибок. Почти все эпидемиологические исследования содержат в себе одну или другую систематическую ошибку. Это не означает, что они с научной точки зрения неприемлемы и должны игнорироваться. Однако важно оценить вероятное воздействие этих систематических ошибок и учитывать их, когда мы приходим к каким-то заключениям. В каком направлении каждая из этих ошибок могла повлиять на результат, и насколько?

Если исследование было описано достаточно хорошо, исследователи сами могли проанализировать этот вопрос. Они, возможно, даже собрали данные, которые позволяют количественно оценить систематическую ошибку. При исследовании близорукости и ее связи с чтением в детском возрасте, была собрана информация об использовании очков и о том, как учились те пациенты, которые не пришли на обследование. Это помогло устанавить пределы для систематической ошибки, связанной с неполным откликом. Обычно, однако, оценка систематической ошибки должна базироваться на логике.

При анализе возможных систематических ошибок, необходимо оценить три основных аспекта исследования:

(1) Как были отобраны пациенты для исследования, и насколько репрезентативными они являются для целевой популяции, которая формируется в зависимости от вопроса изучения?

(2) Каков был отклик, и могут ли пациенты, которые откликнулись на исследование и те, кто не пришел на исследование отличаться по каким-то важным показателям? Также как при выборке для исследования, ответ на этот вопрос имеет значение только в том случае, если те, кто участвовал в исследовании, атипичны по отношению к вопросу изучения.

(3) Как точно измеряется воздействие и результаты? Здесь возможности систематической ошибки будут зависеть от изучаемого вопроса и от характеристик ошибки измерения. Случайные ошибки при оценке коэффициента умственного развития (коэффициент IQ) не приведут к появлению систематической ошибки вообще, если целью исследования является просто оценка среднего значения в популяции. С другой стороны, в изучении ассоциаций между низким коэффициентом IQ и воздействием свинца, который находится в окружающей среде, случайные ошибки измерения могут приводить к тому, что взаимоотношения будут затушеваны - то есть здесь систематическая ошибка будет приводить к тому, что относительный риск будет смещаться к единице. Если ошибки в измерении были неслучайны, систематическая ошибка снова будет различной. Например, если коэффициент IQ по какой-то причине был недооценен среди пациентов, которые находились в районе с высоким воздействием свинца, в результате мы получим преувеличенные оценки риска.

Простой формулы для оценки систематических ошибок не существует. Каждая должна быть рассмотрена в контексте вопроса изучения.

Случайность.

Даже после того, как были приняты во внимание систематические ошибки, выборка, использованная для обследования, может оказаться нерепрезентативной просто в результате случайных факторов. Индикатором потенциала для таких случайных эффектов является статистический анализ.

Традиционно, статистические выводы базируются на тестировании гипотезы. Ее можно легче всего понять, если выборка рассматривается в контексте большой целевой популяции, относительно которой и должно быть принято заключение. Можно сформулировать нулевую гипотезу, посвященную целевой популяции. Затем, начиная с этой нулевой гипотезы, и с допущения о том, что обследованная группа является несмещенной выборкой из целевой популяции, оценивается, так называемое, p значение. Р-оценка - это вероятность получить результаты, которые наблюдались в нашей выборке, просто за счет действия случайных факторов. Например, в исследовании, по типу случай-контроль, взаимоотношений между почечными камнями и потреблением оксалатов в пище, нулевая гипотеза заключается в том, что в целевой популяции, из которой данная выборка была получена, нет никакой взаимосвязи между почечными камнями и потреблением оксалатов. Р-оценка, равная 0,05 в этой ситуации будет предполагать, что при допущении, что на самом деле ни о какой взаимосвязи между почечными камнями и оксалатами не существует, вероятность выбрать случайную выборку, в которой будет наблюдаться таких размеров взаимосвязь, как была обнаружена в нашем исследовании, составляет один к 20. Чем ниже расчетное значение p-оценки, тем большее мы будем склоняться к тому, чтобы отвергнуть нулевую гипотезу и принять противоположную точку зрения - например, о том, что существует взаимосвязь между потреблением оксалатов и почечными камнями. Часто значение p ниже определенного порога (например, 0,05) рассматривается как (статистически) значимое, но эта граница является условной. Нет никакой причины для того, чтобы считать, что значение p равное 0.049 является значительно более важным, чем 0.051.

Значение p зависит не только от величины размеров отклонения от нулевой гипотезы, но также и от размера выборки, в которой это отклонение наблюдалось. Невозможность достигнуть определенного уровня статистической значимости может иметь разное толкование в зависимости от размера исследования. Наиболее часто встречающаяся ошибка состоит в оценке "положительных" исследований, в которых была найдена значимая взаимосвязь, против "отрицательных" исследований, в которых она не была найдена. Два исследования по типу случай-контроль могут иметь похожие отношения шансов, но поскольку они различаются в размерах, в одном случае могут быть достигнуты значимые результаты, а в другом - нет. Ясно, что подобные исследования не могут являться сопоставимыми.

Вследствие ограничений p-оценки в качестве суммарного статистического показателя, для статистических выводов в настоящий момент эпидемиологи предпочитают полагаться на доверительный интервал. Статистический показатель в выборке, такой как отношение шансов или средняя концентрация гемоглобина, обеспечивает оценку соответствующего популяционного параметра (отношение шансов или средняя концентрация гемоглобина в целевой популяции, из которой эта выборка была получена). Поскольку выборка в результате воздействия случайных факторов может быть нетипичной, имеется неопределенность по поводу этой оценки. Доверительный интервал - это диапазон значений в пределах которого (при условии, что нет никаких систематических ошибок в самом исследовании), находится истинное значение популяционного параметра. Чаще всего рассчитываются 95 % доверительные интервалы. Формула для 95 % доверительного интервала разработана таким образом, что в среднем 19 из 20 таких интервалов будут включать популяционный параметр. Большие выборки менее склонны к случайной ошибке, чем маленькие выборки, и поэтому у них более узкие доверительные интервалы.

Вне зависимости от того, базируется ли статистический вывод на тестировании гипотезы, или на доверительном интервале, результаты должны рассматриваться в определенном контексте. Оценка влияния на наблюдения случайных факторов также должна принимать во внимание результаты других исследований. Эпидемиологическая связь может быть статистически высоко значимой, но полностью противоречить всем исследованиям, которые были получены в других работах, и поэтому мы может достаточно обосновано считать, что она возникла в результате случайности. Например, если в когортном исследовании без очевидных систематических ошибок обнаруживается, что курение защищает от рака легких, и не найдено никакого разумного объяснения, мы, вероятно, заключим, что это был случайный ошибочный результат. В отличие от p-оценки или доверительных интервалов, значимость, которую мы присваиваем доказательствам, полученным в других исследованиях, не может быть точно рассчитана.

Третьи причины против причинно-следственной связи.

Если связь является реальной и не объясняется случайными или систематическими ошибками, остается вопрос насколько она является причинной или же она является следствием действия третьих переменных. Влияние некоторых третьих переменных можно устранить использованием парного анализа или другим методом, соответствующего статистического анализа. Однако, особенно в обсервационных исследованиях, остается возможность непризнанного остаточного влияния третьих переменных. Оценка того, насколько наблюдаемая взаимосвязь является причинно-следственной, частично зависит от того, что известно относительно биологии взаимоотношений. Кроме того, некоторые характеристики взаимосвязи могут указывать на причинно-следственную интерпретацию связей. Если имеется зависимость от дозы, то есть риск увеличивается по мере увеличения воздействия - это обычно рассматривается, как характеристика, которая способствует признанию причинной связи, хотя в теории она также могла бы возникать за счет действия третьих переменных. В случае, если фактор риска действует в самом начале процесса заболевания, аналогично тому, как действуют генотоксичные канцерогенные вещества, должен существовать латентный интервал между первым воздействием и ростом риска, если он существует - это также поддерживает вывод о причинности. Кроме того, важно оценить и размеры взаимосвязей, на основании уже обсуждавшихся показателей - относительного риска или отношения шансов. Если взаимосвязь может быть полностью объяснена влиянием третьих переменных, тогда третья переменная должна нести с собой еще более высокий относительный риск для заболевания и должна быть четко связана с изучаемым воздействием. Мощный фактор риска, который, например, приводит к 10- кратному увеличению относительного риска, по всей вероятности уже был бы описан и идентифицирован как вмешивающаяся переменная.

Оценка возможных патогенных механизмов и важность, с которой мы анализируем зависимость от дозы и признаки латентности - на самом деле также являются достаточно субъективными характеристиками. Именно потому что имеется так много субъективных элементов при интерпретации эпидемиологических результатов, эксперты не всегда соглашаются друг с другом. Однако, если имеется достаточное количество данных, всегда может быть достигнуто достаточно разумное согласие.

Назад ------------ Далее