Элементарный эпидемиологический анализ при помощи программы Stata

Р. Яффе

Elementary Epidemiological Data Analysis Using STATA.

Statistics, Social Science, and Mapping Group. Academic Computing Services

Information Technology Services. New York University. December 2001



Введение

Stata позволяет аналитику выполнять элементарный эпидемиологический анализ. Для того чтобы изучать возникновение заболевания (заболеваемость), или смертность от них (смертность), эпидемиологи проводят когортные исследования, или исследования по типу случай-контроль. При помощи простых команд, вводящихся в одну линию, подобный исследователь может создать таблицы и рассчитать все необходимые параметры для такого анализа. Эти таблицы могут быть либо 2 х 2, либо 2 х k, а могут быть стратифицированными. Когда анализ базируется на бинарных исходах, Stata может распечатать таблицы 2 х 2. Когда анализ базируется на исходах, измененных на ординальные (по упорядоченной шкале), для подобного анализа Stata может распечатать таблицы 2 х k. Если анализ требует сравнения нескольких таблиц, Stata может создать стратифицированные таблицы. В данной статье мы представляем введение в анализ таблиц, используемых эпидемиологами. Для начала мы представим дизайн исследований, которые изучают заболеваемость, а также когортных исследований и исследований по типу случай-контроль. После рассмотрения базового дизайна этих исследований, мы объясним формат данных, синтаксис команд, а также статистический анализ, который используется в эпидемиологических исследованиях.

Типы дизайнов исследований.

Эпидемиологические исследования в основном состоят из когортных исследований и исследований по типу случай-контроль. Когортные исследования могут быть либо историческими, либо проспективными (Breslow и Day, 1980). В историческом когортном исследовании история болезни группы людей реконструируется для группы людей, часть из которых подвергалась воздействию фактора риска. Количество лиц, у которых развилось заболевание, или которые умерли в группе, подвергшейся воздействию, сравнивается с частотой заболевания или смертностью в контрольной группе (не подвергавшихся воздействию). Иногда для сравнения используется популяционная частота возникновения заболеваний.

Историческое когортное исследование требует особого подхода: нужно идентифицировать группу, подвергавшуюся воздействию фактора риска, должны иметься исторические данные, измерявшие воздействие, должно быть четкое описание времени, которым исследование ограничено, должно быть описано четкое время начала воздействия. Время воздействия, хотя и может отличаться от одного человека до другого, тем не менее, оно может быть измерено в человеко-годах. Размер выборки и уровень воздействия, которые необходимы для того, чтобы привести к получению значимых результатов, всегда является проблемой в данных исследованиях.

У исторических когортных исследований имеется целый ряд проблем. Реконструкция истории болезни может оказаться сложной, если медицинские данные не доступны, или не достаточно полны. Если исследование базируется на воспоминаниях пациента, то тогда ошибки воспоминаний могут оказать воздействие на результаты. Если имеется недостаточное количество данных о потенциально вмешивающихся третьих переменных, то тогда под угрозой находится достоверность результатов. Отсутствие группы с альтернативным воздействием является очень часто встречающейся проблемой при проспективных когортных исследованиях. Может оказаться достаточно сложным получить информацию о здоровье группы до того, как в ней было выявлено заболевание. Очень часто сложно, или невозможно оценить ошибки выбора в данном исследовании, еще сложнее их устранить.

В проспективном когортном исследовании лица, которые проходят через стадию предварительного скрининга, находятся под наблюдением на протяжении определенного периода времени. Потенциальные участники исследования скринируются для того, чтобы определить кого можно, а кого нельзя включить в данное исследование. Те люди, которые могли бы войти в исследование, подвергаются скринингу для того, чтобы выявить и не включать в исследование тех, у кого симптомы могут помешать четкому выявлению случаев заболеваний. Те лица, которые удовлетворяют критериям включения и исключения, и называются когортой, за которой затем ведется наблюдение. Одна группа в этой когорте подвергается воздействию фактора риска, тогда как другие группы не подвергаются. Во время этого исследования заболеваемость в группе, подвергавшихся воздействию, сравнивается с тем, что происходит в группе, не подвергавшихся воздействию. Заболеваемость – это частота, с которой человек без заболевания, т.е. здоровый человек, превращается в человека с заболеванием и называется случаем.

Для данного типа исследования имеются четкие требования: необходимо определить, кого можно включать в исследование, и кого из тех, кто может войти в исследование, необходимо исключить. Необходимо решить, как определяется дата начала отслеживания и дата окончания отслеживания. Процедура наблюдения за пациентами должна быть четко определена. Должно быть четкое представление о том, какой тип воздействия мы изучаем. Другими словами, необходимо, чтобы воздействие могло легко и четко измеряться. Период наблюдения также должен быть четко определен и измерен. Четко идентифицируя заболевание, необходимо сделать так, чтобы можно было легко обнаружить его начало, и таким образом идентифицировать заболевших индивидуумов. Необходимо придти к согласию о механизме проспективного наблюдения. Если ведется наблюдение за профессиональной группой, то тогда четко следует определить, кого мы считаем членом этой группы. Аналогичным образом должны быть даны определения выхода из когорты за счет выхода на пенсию или потери работы. Необходимо договориться о том, что делать, если миграция, случайные травмы или другие причины приводят к тому, что человек выходит из состава наблюдаемой когорты. Должна быть четко определена контрольная группа. Так же четко должна быть определена и обследуемая популяция. В некоторых случаях может быть несколько сравнений или несколько контрольных групп.

Для данного типа исследований есть целая группа недостатков. Тщательное отслеживание пациентов на протяжении длительного периода времени требует значительных вложений со стороны исследователей, значительного времени и финансовых затрат. Отслеживание пациентов на протяжении длительного периода времени может потребовать также значительных усилий со стороны пациентов, что по целому ряду причин может оказаться проблемой, если этот временной промежуток достаточно длительный. Преимуществом этого исследования является то, что устраняются ошибки воспоминаний, иногда можно устранить и ошибки отбора, можно также устранить и потенциальные влияния третьих переменных. В распоряжении исследователей можно получить биологические данные, воздействующие на здоровье пациентов до того, как заболевание было выявлено.

В 1951 году британские исследователи начали проспективное когортное исследование, изучавшее взаимосвязь между курением и частотой рака легких. В 1954 году Doll и Hill опубликовали данные по сравнению частоты возникновения рака легких у курильщиков, по сравнению с некурящими людьми. Авторам необходимо было располагать полным анамнезом курения для участников исследования. В исследовании Продолжительности Жизни, в которое вошли жители, пережившие атомную бомбардировку, их смертность сравнивалась со смертностью тех, кто не оказался под воздействием радиоактивных осадков. Таким образом, можно было напрямую измерить смертность подвергшихся воздействию радиоактивных осадков, и сравнить их со смертностью в контрольной группе (Breslow и Day, 1987).

Центральной задачей многих когортных исследований является определение заболеваемости и смертности. Заболеваемость – это скорость, с которой человек без заболевания (его еще называют не-случай), превращается в человека с заболеванием (обозначаемого случаем). Две группы людей находятся под контролем на протяжении определенного периода времени. Одна группа находится под воздействием фактора риска, а другая нет. Воздействие фактора риска на человека на протяжении определенного периода времени называется человеко-время, и оно измеряется в часах, днях или годах от момента начала воздействия, до окончания изучаемого воздействия. Человеко-время для данной группы оценивается как сумма времени воздействия для всех участников данной группы. В исследованиях заболеваемости количество случаев, возникших на протяжении суммы человеко-времен для тех, кто находился в группе воздействия, сравнивается с таковыми в группе, не подвергавшейся воздействию.

Можно также оценить, имеются ли значимые различия между заболеваемостью в группе, подвергшихся воздействию, по сравнению с группой не подвергавшихся воздействию. Stata может рассчитать заболеваемость в двух группах и разность заболеваемости, также известную, как различия рисков. Расчет доверительных интервалов позволяет аналитику определить, насколько можно считать, что найденные различия возникают в результате случайных факторов. Stata также рассчитывает относительный риск, путем деления заболеваемости в группе подвергшихся воздействию, на заболеваемость в контрольной группе. Более того, Stata оценивает количество случаев, которые возникли за счет воздействия фактора риска, а также общее количество случаев в популяции в целом, которые возникли в результате воздействия фактора риска. Таким образом, Stata позволяет эпидемиологу анализировать заболеваемость. Stata не ограничивается когортными исследованиями с измерением заболеваемости.

В ретроспективных исследованиях по типу случай-контроль основой для отбора одной из двух групп является, болен человек, или нет. Исследование начинается с выявления лиц, имеющих исследуемое заболевание,и тех лиц, у кого его нет. Лиц с заболеванием называются случаем, а лица без заболевания называются контролем. Необходимо четко определить жесткие критерии включения и исключения. Лица с потенциально влияющими этиологическими факторами, или непонятными симптомами, должны быть исключены. Затем собирается анамнез воздействия на пациента за четко определенный период времени и таким образом реконструируется воздействие со стороны факторов риска. После этого анализируется взаимоотношение между воздействием и заболеванием. Исследования по типу случай-контроль обычно включают меньшее количество пациентов, чем когортное исследование, однако они могут оказаться уязвимыми для ошибок воспоминаний и неполной реконструкции истории воздействия. Иногда предыдущие ошибки в измерениях могут привести к тому, что оценка воздействия окажется смещенной. С этой проблемой можно справиться. Вопрос о том, какие контрольные группы следует подбирать – профессиональные, больничные или популяционные, и какие источники данных являются адекватными, все еще дебатируются. Хотя все эти проблемы могут приводить к появлению ошибок отбора, исследования по типу случай-контроль дешевле и быстрее когортных исследований. По этой причине исследования по типу случай-контроль более популярны, чем два других типа обсервационных исследований (Breslow и Day, 1980).

Формулировка гипотез.

Исследовательская гипотеза предполагает, что в определенных условиях факторы риска неким образом связаны с началом заболевания, появлением некоего синдрома и смертью. Можно сформулировать гипотезу, которая бы связывала заболеваемость с воздействием определенного химического вещества, или соединения, которое присутствует в окружающей среде. Само заболевание и воздействие затем определяется таким образом, чтобы их можно было четко и недвусмысленно измерить. Затем используется статистический тест для того, чтобы подтвердить или опровергнуть  гипотетические взаимоотношения между этими показателями.

В когортном исследовании независимой переменной является воздействие, а зависимой переменной является исход (заболевание или смерть). Когорта или группа людей, которые имеют нечто общее на протяжении определенного периода времени (Mausnеr и Kramer, 1985) отбирается в соответствии с тем, может ли у них быть выявлено заболевание за время наблюдения. Когортные исследования включают наблюдение за, как минимум, двумя группами пациентов, которые отличаются по воздействию фактора риска на протяжении некоего периода времени. Они используются в тех случаях, когда заболевание не является особенно редким, или когда имеется несколько веществ, которые могут быть связаны с изучаемым заболеванием (Mausnеr и Kramer, 1985). В исследовании заболеваемости гипотеза анализирует взаимосвязь между воздействием и количеством новых случаев заболевания за определенный период времени. Если быть более точным, гипотеза фокусируется на разности заболеваемостей (или их отношений) в группе, подвергшихся воздействию и не подвергавшейся воздействию. Можно описать эти различия или отношения, как статистически значимые, а также можно указать, насколько они большие, умеренные или небольшие. В когортных исследованиях гипотеза может предполагать, что имеется статистически большее количество случаев среди тех, кто подвергся воздействию фактора риска, чем у тех, кто не подвергался воздействию фактора риска. С другой стороны, можно описать ее как гипотезу о том, что не будет статистически значимых различий между случаями и не-случаями среди тех, кто оказался под воздействием фактора риска.

Формат данных.

Для эпидемиологического анализа в Stata имеется два основных формата ввода данных для таблиц 2 х 2. Первый формат данных состоит  из обычного прямоугольного файла с данными. В таком типе файла каждая строка представляет собой индивидуальный случай, а каждый столбец представляет отдельную переменную. Имеется так много строк, как много случаев и так много столбцов, как много переменных. В исследовании заболеваемости необходимо, чтобы для каждого наблюдения имелось три переменных, которые описывают, развилось, или не развилось у пациента заболевание, подвергался или не подвергался пациент воздействию фактора риска, и какое количество времени он подвергался воздействию этого фактора риска. Формат показан на рисунке 1.


Рисунок 1. Прямоугольный формат данных со строками, содержащими информацию о каждом пациенте и столбцами, содержащими информацию о переменных.

Имея подобный формат файла данных, аналитик введет следующую команду для того, чтобы создать таблицу 2 х 2 для заболеваемости:

 ir Cases Exposed Time 

результаты, сгенерированные этой программой можно увидеть на рисунке 2.


Рисунок 2

Если данные уже имеются в формате таблицы, то мы можем использовать специальный формат Stata для того, чтобы сгенерировать интересующие нас результаты. Предположим, что количество наблюдений в каждой из ячеек матрицы, показанной в таблице 1, помечены буквами от A до D, слева направо по строкам, и сверху вниз. Stata делает различия между заглавными и прописными буквами, в связи с этим сами команды должны быть написаны прописными буквами. Общая форма команды для анализа результатов будет таковой:

 iri A B C D

Таблица 1 Ввод данных в табличном формате

 

Подвергавшиеся воздействию

Не подвергавшиеся воздействию

 Всего

Количество больных

A

B

P

Человеко-лет наблюдения

C

D

T

       

Всего

  N = A + C

  M = B + D

 

 В данном случае команда будет выглядеть следующим образом:

  iri 336 46 11440 3166

Результат, генерируемый подобной командой, показан на рисунке 3.


Рисунок 3. Анализ заболеваемости при вводе данных в табличном формате.

Анализ заболеваемости.

Результат анализа заболеваемости аналогичен тому, что уже был показан на рисунке 2. В гипотетическом примере мы могли бы заинтересоваться тестированием вопроса о том, каков эффект от наличия мышьяка в питьевой воде. Предположим, что среди жителей определенного региона возник вопрос об опасностях для здоровья, связанных с тем, что в водоснабжении присутствует некоторое количество мышьяка. Из исследований работников плавилен в штате Монтана известно, что более высокая концентрация мышьяка в воздухе связана с раком дыхательных путей (Lee и Fraumeni, 1969). Часть людей обеспокоена тем, что потребление мышьяка может приводить к раздражению желудочно-кишечного тракта, сложности с глотанием, снижению артериального давления и другим признакам отравления. На протяжении более длительного периода времени увеличивается риск развития рака кожи, печени, легких, мочевого пузыря и почек. В то же время предположим, что другие лица считают, что в морепродуктах и подземных водах имеется достаточное количество естественно появляющегося там мышьяка, и что его не так много в воде колодца для того, чтобы вызвать такие серьезные проблемы со здоровьем, чтобы они стоили затрат на дополнительную фильтрацию воды.

Для того чтобы протестировать гипотезу о том, что длительное воздействие загрязнения питьевой воды мышьяком, приводит к увеличению частоты злокачественных новообразований, люди, живущие в регионе с увеличенной концентрацией мышьяка в питьевой воде на протяжении десяти лет, были отнесены к группе воздействия. Те же, кто живет в удаленной общине с уменьшенным количеством мышьяка в питьевой воде на протяжении того же периода времени, были отнесены к контрольной группе. Ретроспективно в этих группах исследователи собрали анамнез за определенный период времени. Для каждого человека было отмечено время проживания. В конце исследования был проведен скрининг для выявления случаев рака кожи, печени, легких, мочевого пузыря или почек. Если был выявлен какой-нибудь случай рака, такого человека относили к заболевшим (к случаям), если рака не обнаруживалось, такого человека классифицировали как «не-случай». Затем был проведен анализ заболеваемости.

Таким образом, мы собираем данные и проводим анализ. Команды при помощи которых мы тестируем эффект загрязнения мышьяком, базируются на кросс-табуляции случаев и времени наблюдения за теми, кто находился в группе воздействия.

Статистическая интерпретация.

При проведении анализа заболеваемости заболевшие люди делятся на тех, кто находится под воздействием и на тех, кто не находится под воздействием. Эти значения в таблице помещаются в ячейки a и b. Затем суммируется человеко-время тех, кто подвергался воздействию и тех, кто не подвергался воздействию. Эти суммарные значения записываются в ячейки с и d. Отношения человеко-времени в группе воздействия дает первый показатель заболеваемости (IReg). Отношения заболевших, не подвергавшихся воздействию, измеренные в человеко-годах наблюдения, дает второй показатель заболеваемость (IRug). Если затем мы возьмем второй показатель заболеваемости и вычтем его из первого, то мы получим оценку повышения риска, или разность заболеваемостей (IRd).

IRd = IReg - IRug (1)


Если же разделить второй показатель заболеваемости на первый, то тогда мы получим отношение заболеваемости (IRR), иногда это отношение также называют относительным риском (RR).

Размеры относительного риска указывают на силу взаимосвязи между воздействием и заболеваемостью. Относительный риск равный единице указывает, что нет различий между заболеваемостью в группе воздействия и в группе контроля.

Относительный риск больше единицы указывает, что воздействие связано с более высокой заболеваемостью: чем выше относительный риск, тем выше связь между воздействием и заболеваемостью. Соответственно относительный риск меньше единицы указывает на то, что воздействие связано с более низкой заболеваемостью. Относительный риск меньше единицы позволяет предположить, что изучаемое воздействие связано с уменьшенной заболеваемостью, по сравнению с контрольной группой. Относительные риски меньше единицы очень часто ассоциированы с лекарствами, которые используются для того, чтобы снижать заболеваемость или смертность.


Однако в распечатке можно найти не только точечные оценки. Для различий в заболеваемости рассчитываются также доверительные интервалы. Их статистическая значимость зависит от того, включает ли доверительный интервал в себя ноль. Если, с одной стороны, доверительный интервал включает в себя ноль, то тогда статистические различия не являются достоверными. Если, с другой стороны, доверительный интервал не пересекает нулевую линию, то тогда различия являются статистически значимыми. Доверительные интервалы рассчитываются относительно просто. Во-первых, необходимо рассчитать:



Доверительный интервал для различий в заболеваемости формируется по формуле:


Доверительный интервал для отношения заболеваемости формируется по формуле (5):

, где u определено в уравнении 3, а z = z-оценке для доверительного интервала.

Если была получена репрезентативная выборка, можно рассчитать несмещенную оценку распределения уровня воздействия в популяции. Базируясь на этих данных можно установить, какое количество случаев, наблюдающихся в популяции, является следствием изучаемого воздействия. Если процедура формирования выборки была адекватной, то тогда Stata может рассчитать адекватный риск для лиц, подвергавшихся воздействию. В распечатке можно найти часть заболеваемости, которую можно связать с воздействием, а также доверительные интервалы для соответствующего значения. Часть заболеваемости, связанная с воздействием определяется как количество случаев, которое находилось в группе воздействия, за вычетом количества случаев, которое находилось вне группы воздействия,  деленное на пропорцию случаев тех, кто не подвергался воздействию. Данное значение обычно располагается под таблицей, рассчитывающей отношения заболеваемости. Процент случаев, относимый на
изучаемое воздействие:


где IReg = заболеваемость в группе, подвергавшихся воздействию

 IRug = заболеваемость в группе, не подвергавшихся воздействию

В дополнение к риску, относимому на данное воздействие, Stata может рассчитать популяционный риск, относимый к воздействию. Популяционный риск, относимый на воздействие - это количество случаев, которое возникло во всей популяции в результате воздействия данного фактора риска.
Для того чтобы получить количество случаев в популяции в целом, которое объясняется действием данного фактора риска, или популяционный риск, относимый к данному фактору риска, необходимо рассчитать общее количество случаев, которое возникает в результате действия фактора риска, во всей популяции. Для того чтобы получить числитель для этого отношения, количество лиц в популяции, которое подвергается воздействию данного фактора риска, умножается на различия в заболеваемости. Для того чтобы получить знаменатель для этого отношения, количество лиц в популяции, которое подвергается воздействию фактора риска, умножается на заболеваемость в группе воздействия и добавляется к произведению количества людей в популяции, подвергавшихся воздействию фактора риска, и заболеваемости в группе, не подвергавшихся воздействию фактора риска. Данное отношение и называется риском, относимым к действию данного фактора риска в популяции. Формула для расчета этого показателя может быть взята из книги Breslow и Day, 1980 года:


 где АR  = популяционный риск, относимый к данному фактору риска

 р = процент лиц в популяции, который подвергался воздействию данного фактора риска

 IReg  = заболеваемость в подгруппе, подвергавшихся воздействию

 IRug  = заболеваемость в подгруппе не подвергавшихся воздействию

Стратифицированный анализ заболеваемости.

Иногда исследователю необходимо изучить, не может ли третья переменная значимо воздействовать на результаты. Эта переменная может быть вмешивающейся переменной, или она может быть исходной переменной, а также они может быть связана с другими переменными, влияющими на исход. Таблица может быть стратифицирована по этой третьей переменной. Когда данные вводятся таким образом, что они стратифицированы при помощи внешней перемененной, то тогда можно провести стратифицированный анализ заболеваемости. Внизу показаны данные, взятые из исследования по влиянию курения в рамках британского исследования врачей, проведенного Doll и Hill (1966),и эти данные можно найти в руководстве по Stata 7. Переменными являются возраст, отношение к курению, количество смертей и количество человеко-лет воздействия.

Рисунок 4. Формат данных для стратифицированного анализа заболеваемости. Данные взяты из исследования британских врачей, проведенного Doll и Hill (1966) в формате, представленном в руководстве по Stata 7, страница 455.

Команда для Stata, которая используется для того, чтобы выполнить стратифицированный анализ заболеваемости, это команда «ir» и выглядит команда следующим образом:

 ir Deaths Smokers Persn_yrs, by (Age)


Результат действия данной команды показан на рисунке 5, приведенном ниже.

Рисунок 5. Стратифицированный анализ заболеваемости из исследования британских врачей.

Данный формат команды приводит к тому, что отношение заболеваемости рассчитывается для каждой возрастной группы. Вместе с каждым отношением рассчитываются и доверительные интервалы. Для каждой возрастной группы (страты) на рисунке 5 рассчитываются точные весовые коэффициенты (Wi) по Mantel-Haenszel:

 Wi, = Bi Megi / T (8)

 где Wi вес по Mantel-Haenszel для группы I

 Bi   количество лиц не подвергавшихся воздействию в группе I

 Megi общее количество групп, подвергавшихся воздействию, в группе I

 Ti  общее количество страт


Комбинированное отношение заболеваемости (CIRR) рассчитывается следующим образом:

 

где,

 аi количество групп, подвергавшихся воздействию в страте

 Mugi общее количество групп, не подвергавшихся воздействию, в страте

 Ti  общее количество страт

 Wi весовые коэффициенты по Mantel-Haenszel для страты I

Затем выполняется статистический тест с использованием стандартной ошибки комбинированного отношения заболеваемости по Mantel-Haenszel:


Доверительные интервалы рассчитываются при помощи этой стандартной ошибки, и проводится комбинированный тест Mantel-Haenszel на гомогенность значений во всех странах. Поскольку Pr > c2 < 0.05 можно считать, что страты являются статистически гетерогенными. Иными словами, при оценке различий в распределении отношений заболеваемости возраст действительно оказывается статистически значимым. Среди тех лиц, которые приведены на рисунке 5, относительный риск (отношение заболеваемости) значимо растет по мере увеличения возраста группы.

Исследователь может провести внутреннюю или внешнюю стандартизацию своих результатов. Если он хочет получить стандартизованные отношения смертности (SMR), он может стандартизовать результаты путем использования весовых коэффициентов, полученных на основании расчета относительного количества лиц в каждой возрастной группе среди лиц, подвергавшихся воздействию. SMR определяется как общее количество смертей, деленное на ожидаемое количество смертей (Selvin, 1996). Для того чтобы получить стратифицированную таблицу, необходимо воспользоваться опцией “by (age)” и запросить стандартизацию при помощи опции istandard, добавленной в командную строку. Если исследователь хочет стандартизировать данные при помощи внешней популяции, используя для стандартизации популяции группы, не подвергавшиеся воздействию, он может использовать команду estandart:

  ir Deaths Smokers, Persn_yrs, by (Age) estandart

Анализ когортных исследований.

В когортном исследовании две группы отслеживаются на протяжении определенного периода времени, а затем в конце исследования они сравниваются по такому показателю, как количество лиц, у которых развилось, интересующее исследователя заболевание, например, рак дыхательных путей. Исследователь сравнивает процент тех лиц, у которых развился рак легких на протяжении пятилетнего периода в экспериментальной группе (высокое содержание мышьяка) и в контрольной группе (уменьшенное количество мышьяка). Эти проценты и являются заболеваемостями в двух группах. Заболеваемости сравниваются для того, чтобы оценить связь факторов риска с возникновением новых случаев заболевания. Относительный риск определяется как заболеваемость в группе, подвергавшихся воздействию, деленное на заболеваемость в группе, не подвергавшихся воздействию.

Кросс-табуляция полученных данных проводится таким образом, чтобы зависимая переменная (воздействие) располагалось в столбцах, а независимая переменная (результат) - в строках. Риск в двух группах измеряется как процент случаев, в соответствующих группах. После того как рассчитаны риски в группах, подвергавшихся воздействию и в группах, не подвергавшихся воздействию, рассчитываются разности между этими двумя заболеваемостями, а затем рассчитывается отношение риска в группе, подвергавшейся воздействию по отношению к группе, не подвергавшейся воздействию и 95% доверительный интервал этого отношения.

Предположим, что в ячейках а, b, c и d находится количество лиц из описанной выше таблицы. Первая строка содержит 75 случаев заболевания, которое мы изучаем. 55 из этих людей оказались в группе, подвергавшейся воздействию. Вторая строка содержит 125 лиц, которые не заболели, 45 из них оказались в группе воздействия фактора риска. В том случае, если таблица содержит менее тысячи случаев, рекомендуется, чтобы пользователь вызвал опцию exact, которая приводит к расчету точного теста Фишера. Команда, которая вводится в командной строке, выглядит следующим образом:

 csi A B C D, exact

Ввод подобной команды приводит к формированию таблички, показанной ниже.


Рисунок 6. Анализ когортного исследования.

Результаты анализа практически идентичны анализу заболеваемости. Процент случаев к общему количеству людей в каждой группе принимается как значение риска для этой группы, рассчитываются разности рисков и отношения рисков, а также их доверительные интервалы. Рассчитывается также процент случаев, которые можно отнести на счет фактора риска, а также процент случаев, которые возникают в популяции. В данном случае используется критерий c2 с одной степенью свободы. Это единственное отличие от анализа заболеваемости, которое мы видели ранее. Как рассчитывается количество случаев, связанных с воздействием и количество случаев в популяции, связанное с воздействием, мы уже обсуждали раньше.

Исследования по типу случай-контроль.

По всей вероятности наиболее частой формой эпидемиологического исследования является исследование по типу случай-контроль. В данном типе исследования используется специфический метод отбора лиц для включения в него. В когортном исследовании эпидемиолог вначале отбирает людей в соответствии с тем, подвергались ли они, или не подвергались воздействию фактора риска, при этом факторы риска могут быть как внешними факторами риска, так и какими-то биологическими особенностями организма. В исследовании по типу случай-контроль вначале отбирается группа пациентов с заболеванием (случай), а затем контрольная группа людей (лица, у которых заболевания нет). Далее исследуется, насколько каждая группа была подвержена воздействию фактора риска. Рассчитывается пропорция лиц, которые подвергались воздействию фактора риска среди заболевших, и пропорция, подвергавшихся воздействию фактора риска в контрольной группе. Относительный риск может быть рассчитан, если мы разделим процент тех, кто подвергался воздействию в группе случаев, на процент тех, кто подвергался воздействию в контрольной группе. Целью исследования является установить насколько процент тех, у кого имеется данный фактор риска в группе заболевших, статистически отличается от процента лиц с фактором риска в контрольной группе. Классификационная таблица с информацией, полученной в исследовании по типу случай-контроль, может быть создана следующим образом:

cci 175 207 2825 6793, level(99)


 


Рисунок 7. Распечатка результатов анализов исследования по типу случай-контроль.


Для больных и контрольной группы справа в таблице указана пропорция лиц, подвергавшихся воздействию. Кроме того рассчитывается отношение шансов, которое при относительно низкой встречаемости заболевания, может быть использовано для оценки относительного риска. Отношение шансов рассчитывается следующим образом:



Доверительный интервал рассчитывается следующим образом:

, обозначения в формуле (12) аналогичны таковым в формуле (5)

Исследование по типу случай-контроль с несколькими уровнями воздействия.

Очень часто имеются ситуации, в которых количество уровней воздействия превышает два. Давайте предположим, что имеется k уровней воздействия. Очень часто уровни воздействия возникают естественно. Уровни группируются в соответствии с естественным порядком. Breslow и Day (1980) показывают, как исследователь может использовать таблицу 2 х k для представления своих результатов (таблица 2). 

Таблица 2. Анализ исследований по типу случай-контроль, случай К уровней воздействия

 

Уровни воздействия

 

1

2

….

К

 

Больные

A1

A2

….

Ak

N0

Контроль

C1

C2

….

Ck

N1

Всего

M1

M2

….

Mk

T


В целом один уровень воздействия, например, уровень 1, выбирается в качестве исходного для анализа. Каждый последующий уровень воздействия затем сравнивается и исходным уровнем воздействия. Для каждого из подобных воздействий исследователь может получить относительные риски RR1, RR2,…..RRk , а также доверительные интервалы для каждого из этих уровней. Он также может протестировать гипотезу о том, что все значения равны единице. Соответственно, нулевая гипотеза будет заключаться в том, что шансы наличия заболевания во всех группах одинаковы. Если нулевая гипотеза истинна, то тогда ожидаемое значение в каждой ячейке таблицы составит:


 Дисперсия для значений в этих таблицах дается формулой:


 

Тест статистической достоверности для гомогенности k пропорций (Breslow и Day,1980) приводится в уравнении (12) и он соответствует тесту c2 с k –1 степенью свободы.


Данные из исследования по типу случай-контроль (Breslow и Day, 1980) из исследования рака пищевода и потребления алкоголя, были внесены в табличку в соответствии с рисунком 8.

Рисунок 8. Данные исследования по типу случай-контроль для таблицы 2 х k.

После того как мы внесли эти данные, можно выполнить анализ, введя в командное окно следующее:
tabodds Case Alcohol [fweight = Freq]


Рисунок 9. Распечатка результатов анализа по типу случай-контроль с несколькими уровнями воздействия.

Результаты, появляющиеся в распечатке, показаны на рисунке 9. поскольку таблица имеет размеры 4 х 2, тест равенства шансов представляет собой тест c2 с (k –1) х (2 – 1) степенями свободы. В данном случае это означает, что имеется три степени свободы. Ввиду того, что тест гомогенности шансов значим на уровне 0.0001 имеются указания на то, что частота заболевания различается в группах с разным воздействием. Тест Score указывает на то, что имеется тенденция в росте шансов наличия заболевания при увеличении дозы.

Если мы хотим, мы можем добавить специальную команду для того, чтобы сделать график шансов наличия заболевания в зависимости от уровня потребления алкоголя. Сделать это можно следующим образом:

 tabodds Case Alcohol [fweight = Freq], graph


Рисунок 10. График шансов наличия заболеваний в зависимости от уровня потребления алкоголя в граммах в день.

Стратифицированные исследования по типу случай-контроль.

Stata позволяет исследователю анализировать стратифицированные исследования по типу случай-контроль. Когда данные стратифицируются другой переменной, то можно выполнить тест гомогенности отношений шансов. Используя, приведенные в руководстве по Stata 7 данные Rothman 1982 года, можно провести стратифицированный анализ исследования по типу случай-контроль при помощи команды:

 cс сase exposed [freq = pop], by (age)

Результат показан на рисунке 11.


Рисунок 11. Стратифицированный анализ по типу случай-контроль.

В данном случае стратификация выполняется по возрасту, и в каждой страте рассчитано отношение шансов вместе с их 95% доверительными интервалами. Рассчитаны также весовые коэффициенты по Mantel-Haenszel (уравнение 7). В данном случае тест гомогенности отношений шансов в разных стратах, указывает на статистически недостоверные различия. Иными словами страты являются примерно одинаковыми, но в том случае, если их скомбинировать, гипотеза о том, что комбинированное отношение шансов равняется единице, может быть отвергнута на 95% уровне значимости.

Ограничения простого табличного анализа.

Простые двухмерные таблицы анализирующие взаимоотношения между случаями и воздействиями указывают на кажущуюся взаимосвязь между двумя элементами. Анализ таблиц 2 х 2 или 2 х k имеет серьезные ограничения. Упрощение сложного анализа двухмерными таблицами может привести к тому, что серьезные взаимоотношения будут скрыты. Парадокс Симпсона является подобным примером, когда неспособность принять во внимание третью переменную, может привести к тому, что реальная характеристика взаимоотношений, или реальное направление взаимосвязи, окажется перевернутой.

Кроме того, на наблюдаемые результаты могут оказать влияние проблемы дизайна исследования. Для того чтобы асимптотические тесты были эффективными, необходима достаточная статистическая мощность исследования. Если мощность исследования недостаточно высока, то необходимо использовать точные тесты для того, чтобы минимизировать вероятность ошибки первого типа (ложно положительные результаты, когда мы отвергаем нулевую гипотезу, несмотря на то, что они должна быть принята). Низкая статистическая мощность не защищает против ошибок второго типа (ложно отрицательные результаты, когда нулевая гипотеза принята ошибочно), или ошибок третьего типа (когда исследователь не задал правильный вопрос).

Наблюдаемые связи могут оказаться жертвой ошибок смещения, особенно в исследованиях по типу случай-контроль, когда используются определенные критерии для того, чтобы отбирать пациентов в группу больных и здоровых и при этом критерии не абсолютно идентичны, в результаты может быть внесено смещение. Это обычно происходит, когда для отбора групп используются критерии не полностью стандартизированные.

Другие систематические ошибки могут включать в себя ошибку интервьюера, ошибку наблюдателя, или ошибки воспоминаний. В результате воздействия этих ошибок полученные данные оказываются смещенными. Ошибка наблюдателя может привести к неправильной классификации; ошибки в измерении воздействия фактора риска или в неправильной диагностике заболеваний, может являться следствием низкой чувствительности или специфичности инструмента, использованного для скрининга. Большое количество ложно положительных или ложно отрицательных результатов может оказать воздействие на результаты исследования (Breslow и Day,1980; Ingelfinger и соавторы, 1994; Selvin, 1996). Ошибки воспоминаний или эффекты прошлых воздействий могут привести к негативным результатом при условии, если о них не подумали и не исключили возможности их наличия при помощи специализированных типов дизайнов. Могут возникать ошибки в результате опечаток при вводе данных. Для того чтобы при вводе данных удалить ошибки, следует очистить полученные данные за счет многократного повторного ввода исходных данных. Наблюдаемая взаимосвязь может оказаться под воздействием третьих переменных, которые связаны с заболеванием и фактором риска, но которые не были включены в анализ. Эти опущенные переменные могут быть третьими, а могут быть исходными; они могут усиливать, а могут ослаблять наблюдаемую взаимосвязь между фактором риска и заболеванием. Когда эти переменные не известны и не измерены, они могут оказать воздействие на обнаруженные связи. Двухмерные таблицы могут позволить обнаружить основные эффекты и взаимодействие между двумя переменными. Если другие, например экологические переменные, связанные как с заболеванием, так и с воздействием, не включаются в анализ, таблица может находиться под воздействием того, что называется экологическим смещением, и поэтому не будет адекватно представлять причинно-следственные связи между изучаемыми переменными. Для того чтобы бороться с влиянием третьих переменных, эпидемиологи могут воспользоваться рандомизацией, ограничением, парным дизайном или статистической корректировкой. Случайное распределение в различные группы позволяет распределить третьи факторы таким образом, что они одинаково представлены в двух анализируемых группах, и поэтому не возникает ошибки отбора. Если размер выборки достаточно большой, то рандомизация обычно выравнивает эффект от третьих переменных. Если размер выборки очень маленький, то тогда рандомизация может привести и к неадекватному распределению вмешивающихся факторов (Breslow и Day,1980). Эпидемиологи могут ограничить включение участников в исследование для того, чтобы избежать потенциально вмешивающихся факторов. Использование критериев исключения в начале клинического испытания может минимизировать вероятность систематической ошибки в результатах. Например, при клиническом испытании, направленном на изучение болезни Альцгеймера, исследователь может исключить всех пациентов с шизофренией для того, чтобы его результаты не были затем неадекватными. Взаимоотношение между потреблением алкоголя и раком желудка может оказаться смещенным, если курильщики не исключаются из анализа. Ограничения при отборе в группы исследования, которые исключают участников с вмешивающимися факторами, является стандартной частью клинических испытаний, когортных исследований, или исследований по типу случай-контроль.

Иногда в исследованиях по типу случай-контроль используется формирование пар. Из лиц контрольной группы и группы больных формируются пары, которые имеют одинаковое значение возможной вмешивающейся переменной. После того как были зарегистрированы данные по вмешивающимся переменным для всех участников, можно отобрать в контрольную группу лиц, которые бы соответствовали пациентам группы воздействия. Если используется формирование пар по типу «много к одному», тогда можно собрать контрольную группу больших размеров, увеличивая таким образом, мощность исследования.

Протестировать наличие влияния третьих переменных и исключить их, можно, используя более сложные модели. Третьи переменные могут быть измерены и внесены в одну из моделей семейства регрессионных моделей, или моделей выживаемости. В подобных условиях для контроля влияния третьих переменных используется статистическая корректировка. 

Литература.

Breslow, N. E. & Day, N.E.(1980). Statistical Methods in Cancer Research: Vol 1-The Analysis of Case-Control Studies, International Agency for Research on Cancer: Lyon, pp. 1-40, 73-78, 84-115, 122-157, 280-289, 349-351.

Breslow, N. E. & Day, N.E.(1987). Statistical Methods in Cancer Research: Vol II-The Design and Analysis of Cohort Studies. International Agency for Research on Cancer: Lyon, pp.21, 65, 108-109, 336-344, 363-365.

Ingelfinger, J.A., Mosteller, F., Thibodeau, L.A. & Ware, J.H. (1994). Biostatistics in Clinical Medicine. 3rd ed. New York: McGraw Hill, pp. 323-328.

Mausner, J.S. & Kramer, S. (1985). Epidemiology: An Introductory Text. Philadelphia: W.B. Saunders Co., pp.43-64, 312-323.

Selvin, S. (1996). Statistical Analysis of Epidemiologic Data. New York: Oxford University Press, pp. 36, 93-96.

STATA Reference Manual Release 7 Reference A-G., College Station Texas: Stata Press, pp. 455, 466.