ВВЕДЕНИЕ В МЕТА-АНАЛИЗ

(с) С.Л.Плавинский, 2001

 

Наука строится из фактов, как дом строится из камней. Однако простой набор фактов напоминает науку не более, чем куча камней - дом.

Жан Анри Пуанкаре

Наука, в той форме, в которой она существует в наше время, базируется на предшествующих данных, которые реанализируются, интегрируются, осмысливаются и дополняются. В этой связи весьма иронично, что традиционные формы литературных обзоров создаются в описательной манере, характерной для учебников и методических пособий. Авторы обычно не используют при написании обзоров ту же научную методологию, которая считается неотъемлемой частью создания любой оригинальной работы. Статистики были первыми, кто предложили альтернативные подходы к суммированию результатов исследований. Эти методы получили название мета-анализа (G.Glass, 1976).

Для того, чтобы пояснить значимость мета-анализа вернемся лет на двадцать в прошлое (так яснее можно представить, для чего нужен мета-анализ). Использование стрептокиназы для тромболиза при остром инфаркте миокарда только входит в практику. И вот клиницист пытается решить, стоит или нет использовать данный метод лечения. Из восьми опубликованных исследований, которые сообщали данные по смертности в течении первых 45 дней после развития инфаркта, три исследования показали статистически значимое снижение смертности при лечении стрептокиназой, два показали некоторое снижение смертности которое, однако не достигало статистического уровня значимости, а три оставшихся обнаружили более низкую смертность в контрольной группе (правда, статистически достоверных различий не было). Понятно, что используя чисто описательный подход можно сделать любой вывод - стрептокиназа эффективна (большая часть исследований показала положительный эффект от ее использования) или неэффективна (5 из 8 исследований не нашли достоверных различий между группами контроля и лечения).

Как же клиницист может решить стоит ли применять стрептокиназу, базируясь на столь различных результатах? Ответ на этот вопрос и дает мета-анализ. Используя его Stampfer и соавт (1982) показали, что применение стрептокиназы снижает смертность на 20%, и этот результат статистически значим (p<0.01).

Количественный анализ результатов исследований - основное, что отличает мета-анализ от обычного описательного обзора. Это процесс, который может быть использован ля того, чтобы придти к выводам о терапевтической значимости препарата или планировать новые исследования. Конечный результат анализа имеет как качественный, так и количественный компоненты, поскольку принимает во внимание количественные результаты индивидуальных исследований, количество обследованных, а также такие субъективные вопросы, как качество, возможность ошибок и особенности организации исследования. Мета-анализ - это стратегия особенно подходящая в тех случаях, когда результаты индивидуальных исследований конфликтуют друг с другом, когда размер индивидуальных исследований слишком мал и организация больших исследований слишком дорога (L'Abbe и соавт., 1987).

Furberg и Morgan (1987) определяют шесть причин для того, чтобы проводить мета-анализ:

1. Получение более стабильной оценки эффекта терапии

2. Оценка различий между исследованиями и возможности генерализации результатов

3. Анализ эффекта терапии в отдельных подгруппах

4. Предоставление более надежных данных лицензирующим организациям для получения разрешения на использование препарата

5. Оценка потребности и планирование исследований

6. Сравнение результатов данного исследования с другими, проводившимися по данной теме.

Одной из слабостей описательных обзоров является то, что они более уязвимы для субъективизма, предвзятости и неадекватной оценки работ. Как достаточно жестко отмечает Glass (1976): "наиболее частый метод интеграции исследований с различными результатами - отметить дефекты организации всех исследований кроме тех, что были выполнены самим автором или его учениками и друзьями, а затем указать на эти исследования как на содержащие истину в последней инстанции"

Вместе с тем следует отметить, что неоднозначные результаты не всегда являются показателем дефектов исследований. Очень часто они просто отражают случайный разброс данных. Так, если некий препарат обладает умеренным терапевтическим эффектом (размер эффекта по Cohen равен 0,5), то около 30% исследований дадут негативный результат просто в результате действия случайных факторов.

Однако в некоторых случаях различия в результатах исследований свидетельствуют о существовании истинных различий между изучаемыми группами пациентов. Так, если в одной группе пациентов препарат оказывает положительный эффект, а в другой - отрицательный, то простое "суммирование" результатов исследований может привести к тому, что автор обзора сделает заключение об отсутствии эффекта препарата или неоднозначности результатов.

Вторым недостатком описательных обзоров является то, что они часто игнорируют размер терапевтического эффекта от применения препарата. Авторы часто используют величину р для того, чтобы сделать вывод об эффективности терапии. Подсчитывается число исследований, которые нашли достоверные различия между группами контроля и лечения и на основе этих данных делаются выводы (методика "подсчета голосов"). Однако величина р не позволяет оценить размер терапевтического эффекта. Для примера проанализируем три исследования, в которых препараты сравнивались с плацебо. Предположим также, что группа контроля равнялась группе лечения, и были получены следующие результаты (приводятся значения коэффициента t Стьюдента):

Препарат А. t(256)=4,0, p<0,001

Препарат Б. t(64)=2,0, p<0,05

Препарат В. t(4)=0,5, p<0.64

Какой препарат эффективнее? Кажется, что препарат А, поскольку у него самая низкая величина р. Однако на самом деле размер эффекта у всех трех препаратов одинаков - 0,5 (размер эффекта можно оценить по формуле t/Ц n, где n - число наблюдений). Действительно, на основании анализа данных 4 пациентов нельзя говорить о том, как будет работать препарат в популяции в целом, однако каким на вопрос о том, каким был эффект от лечения у них ответить можно.

Надо отметить, что результатом использования только качественных методов в обзорах литературы является недооценка эффективности методов лечения, поэтому мета-анализ становится все более и более распространенным методом создания фактической базы для обзорных работ.

Хотя термин мета-анализ появился сравнительно недавно, статистики используют соответствующие методы уже более ста лет. Rosenthal (1984) предложил классификацию стратегий мета-анализа, базируясь на том, что можно проводить сравнение результатов исследований и их комбинирование:

Табл.1 Таблица Rosenthal. На пересечении строк и столбцов находятся различные формы суммарного анализа данных

Вероятности

Размер эффекта

Сравнение

Комбинирование

Те стратегии, которые были предложены Glass (1976) и другими авторами обычно связаны с суммированием размеров эффекта - четвертой ячейкой таблицы Rosenthal. Однако можно интегрировать и результаты тестов значимости. Сравнение тестов значимости (вероятностей) или размеров эффектов предполагает изучение вариабельности данных, а не простое их усреднение. Глобальное сравнение оценивает степень гомогенности выявленных исследований, тогда как при необходимости аналитик может проводить и попарное сравнение отдельных работ или групп исследований.

В настоящее время для комбинирования результатов первичных исследований используются два основных подхода. Один из них предполагает тестирование статистической значимости суммарных результатов, второй же тестирует размер эффекта. Еще в 1949 году Stouffer и соавт. использовали подсчет суммарной р-оценки для изучения вопроса об отношении солдат к службе женщин в армии. Скомбинировав результаты трех исследований авторы пришли к выводу, что если в части были женщины-военнослужащие, то солдаты с меньшим энтузиазмом относились к идее, чтобы их сестры пошли служить.

Методы оценки суммарного размера эффекта были предложены в начале века различными исследователями из которых выделяется Карл Пирсон. В 1904 году он проанализировал 11 исследований, изучавших эффективность вакцины против сыпного тифа. Пять исследований изучали снижение заболеваемости тифом, а шесть - снижение смертности у заболевших. Пирсон подсчитал средние корреляционные коэффициенты, которые составили 0,23 для заболеваемости и 0,19 для смертности и пришел к выводу, что корреляции были слишком низкими для того, чтобы использовать вакцину для профилактики тифа у британских солдат.

В последнее время использование р-оценок подвергалось достаточно серьезной критике, поэтому в настоящее время большая часть методик мета-анализа опирается на подсчет суммарного эффекта от применения препарата.

В целом мета-анализ включает достаточно большое количество этапов. Он начинается с формулировки задач исследования, поиска соответствующей литературы, формулировки критериев включения/исключения исследований, сбора данных и оценки качества индивидуальных исследований. Затем следует статистический анализ, который включает оценку гомогенности результатов и источников их вариабельности, расчет суммарных показателей и анализ стабильности полученных выводов.

Сбор и выкопировка данных

В данной работе мы не будем касаться вопросов формулировки задачи исследования и методик поиска литературы, а начнем сразу же с критериев включения/исключения.

Следует отметить, что именно на этапе поиска литературных источников автора мета-анализа подстерегают наибольшие опасности. Egger и Smith (1998) указывают на несколько источников дефектов при поиске литературы для мета-анализа:

Исследования включаются в мета-анализ на основании критериев включения/исключения. В идеале они должны быть сформулированы на этапе разработки протокола мета-аналитического исследования и базироваться на целях и задачах работы. На практике после просмотра найденной литературы может потребоваться пересмотр критериев. Включение работ в исследование должно основываться на таких критериях как структура исследования, размер, характер терапии в группе контроля и группе вмешательства, было ли исследование опубликовано или нет, а также то, какой эффект терапии оценивался. Основным принципом должно быть то, что исследования являются похожими по основным параметрам, а не то мета-анализ превращается в "сравнение яблок с апельсинами и иногда лимонами".

Если автор устанавливает достаточно широкие критерии включения, то анализ может предусматривать разделение исследований на подгруппы. Затем анализируется зависимость результатов исследований от их характеристик. Такая методика называется анализом устойчивости.

Вообще среди специалистов по мета-анализу нет единства в том, какие исследования следует, а какие не следует включать в анализ. Условно можно выделить две школы - "объединители" и "разделители". Сторонники первого направления считают, что необходимо отыскивать и включать в анализ всю доступную литературу с последующим анализом устойчивости получаемых выводов. Вторые предлагают отбирать лишь высококачественные исследования, полагая, что таким образом экономятся время и усилия аналитиков. Следует, однако, отметить, что второй подход таит в себе одну скрытую опасность - он смещает результат в пользу более новых препаратов. Качество исследований повышается с каждым годом, поэтому в мета-анализ могут оказаться включенными только новые препараты. Данная проблема хорошо иллюстрируется примером изучения эффективности гипохолестеринемической терапии. Наиболее крупные исследования, выполненные в этой области, опираются на применение статинов. Поэтому использование строгих критериев для изучения вопроса об эффективности гипохолестеринемической терапии приведет к тому, что задача исследования будет подменена анализом эффективности терапии статинами. На первый взгляд различия кажутся несущественными, однако, вполне возможно, что статины обладают антиатеросклеротическим эффектом не связанным с их гипохолестеринемическим действием. Не случайно, что работа Ravenskov (1992), которая включала все доступные к тому времени публикации, показала отсутствие эффекта гипохолестеринемической терапии, тогда как обзоры, анализирующие только терапию статинами, постоянно приходят к иному выводу.

После того, как были собраны исследования, наступает этап выкопировки данных. Естественно, что необходимо следить за тем, чтобы данные от одной группы пациентов использовались только один раз. Хотя это кажется само собой разумеющимся, в реальности обнаружить двойные публикации не так уж легко. Tramer и соавт. (1997) провели анализ 84 исследований по использованию антагониста 5-HT3 рецепторов ондансетрона для профилактики послеоперационной тошноты и рвоты. Они обнаружили, что количество двойных работ составило 17%. При этом в публикациях отсутствовали указания на вторичность публикаций, а результатом являлось завышение эффективности препарата на 23%.

Для выкопировки данных лучше всего разработать специальную форму, которая будет собирать важнейшую информацию об исследовании, такую как количество пациентов в группе контроля и группе лечения, результаты наблюдения за каждой группой и т.д. Переменные, характеризующие результат лечения могут быть количественными - такими как уровень артериального давления, значения шкалы качества жизни и т.п. или качественными - смертность или частота осложнений. В ряде случаев они могут быть упорядоченными качественными переменными (стадия опухоли) или временными (продолжительность жизни или ремиссии). Чаще всего, однако, клиницисту приходится сталкиваться с качественными показателями эффективности терапии, и поэтому пример формы выкопировки данных, приведенный в табл.1, предназначен для анализа именно таких данных

Наиболее адекватная процедура разработки формы выкопировки данных проходит три стадии (Robey и Dalebout, 1999). На первой стадии аналитик, основываясь на своем опыте и задачах мета-анализа, создает черновой вариант кодировочной схемы. При этом учитываются те переменные, которые влияют на исход данного заболевания. Для их идентификации могут помочь оригинальные работы и литературные обзоры по естественному течению заболевания. На втором этапе данная схема используется для выкопировки данных из 10-12 исследований. В ходе этой работы становятся понятными недостатки кодировочной схемы и проводится ее переработка. Лишь затем схема применяется на всем массиве данных.

При выкопировке данных следует стараться выписывать абсолютные данные, а не проценты (10 пациентов умерло из 20, а не 50%). При выкопировке данных могут возникнуть две основные проблемы. Во-первых, необходимые данные могут отсутствовать в опубликованных статьях. В этом случае можно попытаться войти в контакт с авторами соответствующих исследований и получить информацию от них. Однако, как отмечают Roberts и

Табл. 1 Бланк формы выкопировки данных для проведения мета-анализа (L'Abbe и соавт., 1987)

Тип исследования

Название

Авторы

1. Терапия в группе лечения

Доза

Возраст пациентов

Срок лечения

Другие переменные

2. Терапия в контрольной группе

Доза

Возраст пациентов

Срок лечения

Другие переменные

3. Результаты

Группа лечения

Группа контроля

р

(x/n и %)

(x/n и %)

Смертность

Осложнения

Другие результаты

Schierhout (1997) исследователи часто отказываются предоставить даже суммарные неопубликованные данные. Поэтому иногда приходится прибегать к трансформации опубликованных данных для того, чтобы получить примерную оценку величин, интересующих аналитика (как будет показано далее размер эффекта, например, можно оценить по значению коэффициента Стьюдента или значению хи2). Во-вторых, выкопировка данных представляет собой кропотливый и сложный процесс, который уязвим для ошибок и неточностей. Поэтому L'Abbe и соавт (1987) рекомендуют, поручить выкопировку одновременно двум исследователям, знакомым с данной клинической проблемой. Затем результаты сравниваются и таким образом ошибки исключаются.

Оценка качества исследований

Оценка качества исследований является важным и одним из наиболее дебатируемых аспектов мета-анализа. С одной стороны логично предположить, что результатам лучше организованных исследований можно доверять больше. Как отмечал Eysenk (1978) когда исследователи не исключают работы с низким методологическим качеством, мета-анализ превращается в упражнение по "мега-глупости", которая служит только подтверждением аксиомы о том, что из мусора можно получит только мусор. Поэтому необходимо учитывать методологическое качество исследования при включении его в анализ. Обычно рекомендуется сформировать группу из 6-8 исследователей, которые сформулируют наиболее важные требования к организации исследований по данной проблеме. Критерии качества могут быть разработаны и при помощи метода Дельфи (Verhagen и соавт., 1998)

Затем лицам, производящим оценку качества предоставляется раздел материалов и методов соответствующих публикаций (информация об авторах удаляется) и их просят оценить методологическое качество работы по шкале от 0 до 1. Полученные таким образом оценки могут быть использованы различными способами. Например, можно установить границу качества исследований, которые будут включаться в исследование. Другим способом использования этих оценок является их включение в математическую модель при расчете суммарных показателей. И, наконец, можно провести анализ влияет ли качество исследования на обнаруженный терапевтический эффект.

К сожалению, имеющиеся на сегодняшний день данные показывают, что значимость шкал оценки качества переоценивается. Как показали Juni и соавт. (1999) во-первых разные шкалы признают высококачественными разные исследования, посвященные одной и той же проблеме. Во-вторых, между исследованиями высокого и низкого методологического качества в смысле терапевтического эффекта не было никаких различий. Таким образом, как отмечают Berlin и Rennie (1999), шкалы качества в лучшем случае не связаны с размером терапевтического эффекта, а в худшем - бесполезны. Поэтому предлагается использовать не суммарные шкалы, а оценивать ключевые характеристики дизайна исследований.

В целом лучше не использовать методологическое качество исследований в качестве критерия отбора исследований для анализа (за исключением крайних случаев, когда качество исследования оказывается ниже самых либеральных стандартов). Однако при анализе гетерогенности исследований вопрос качества должен быть учтен и при выкопировке результатов тип исследования и особенности его организации должны быть запротоколированы.

После того, как данные для мета-анализа собраны, наступает этап статистического анализа данных.

Статистический анализ данных

Анализ данных в рамках мета-анализа должен дать ответ на три основных вопроса.

1. Получены ли в исследованиях сопоставимые результаты? (Иными словами можно ли комбинировать результаты?)

2. Коррелируют ли различия в результатах отдельных исследований с различиями в исследуемых группах?

3. Какова наилучшая оценка терапевтического эффекта?

Задачи мета-анализа аналогичны задачам анализа многоцентрового клинического исследования, поэтому в обоих случаях используется сходный статистический аппарат.

Прежде, чем приступать к проведению анализа исследователь должен выбрать мета-аналитическую модель. Существуют две такие модели - с фиксированными и случайными эффектами. Различия между исследованиями могут быть связаны только с случайными факторами. Тогда все исследования должны варьировать вокруг общего среднего терапевтического эффекта. Поскольку его значение одинаково для всех исследований, такие модели называют моделями с фиксированным эффектом. Однако вполне возможно, что каждое исследование опирается на данные особой группы пациентов и поэтому терапевтический эффект в каждой из этих групп различен. Такие модели называются моделями со случайными эффектами (факторами).

Модель с фиксированными эффектами может использоваться, когда аналитик имеет доступ ко всем исследованиям по данной проблеме, и эти исследования достаточно гомогенны по замыслу, организации и результатам. В том случае, если аналитик располагает только выборкой из всего объема исследований по данной проблеме или исследования весьма гетерогенны необходимо использовать более сложные модели со случайными эффектами. Следует помнить, что хотя генерализация результатов более адекватна для моделей со случайными факторами, статистическая сила выше для фиксированных моделей.

Размер терапевтического эффекта

В современной мета-аналитической литературе считается необходимым оценивать не только и не столько статистическую значимость суммарных результатов, сколько размер эффекта от применения данного метода лечения. Следует различать два основных случая, когда необходимо оценить размер эффекта - измеряются качественные характеристики (смертность) или количественные (уровень артериального давления и т.п.).

В том случае, если речь идет о качественных переменных, для оценки эффекта терапии чаще всего используется отношение шансов.

Отношение шансов (odds ratio) хорошо знакомо игрокам. Под шансом (odds) какого либо события (выигрыша) мы обычно понимаем отношение вероятности выигрыша к вероятности проигрыша или отношения числа раз, когда мы выиграли к числу раз когда мы проиграли. Для ситуации клинического (или эпидемиологического) исследования шанс смерти для контрольной или экспериментальной группы будет определяться отношением умерших к числу оставшихся в живых к концу исследования. Отношение этих двух шансов (шанс смерти в экспериментальной группе деленный на шанс смерти в контроле) и называется отношением шансов (в некоторых отечественных публикациях их называют отношением риска). Однако обычно врача интересует не отношение шансов (которое не всегда легко трактовать - шансы смерти 2:3 означают, что смертность составит 40% - из пяти человек под наблюдением умрут двое), а относительный риск наступления того или иного события. Относительный риск будет определяться как отношение вероятности наступления события в экспериментальной группе к его вероятности в контроле. Вероятность отличается от шансов тем, что в знаменателе стоит не число людей, у которых событие не наступило, а общее количество лиц, находившихся в данной группе. Проблема, однако, заключается в том, что относительный риск можно определять только в проспективных исследованиях и их достаточно сложно анализировать суммарно. Еще одна проблема с относительным риском проявляется при рассмотрении относительно редких событий, например, смерти в исследовании. Предположим, что в группе контроля умерло 2 человека из 100, а в группе лечения - 1 человек из 100. Отношение шансов смерти составит (1/99)/(2/98)=0,49. Отношение шансов дожить до конца исследования составит 2,02 - или величину, обратную, отношению шансов умереть. Относительный риск смерти составит (1/100)/(2/100)=0,5, а вот относительный "риск" остаться в живых будет составлять (99/100)/(98/100)= 1,01. Иными словами получается, что риск смерти в два раза ниже, а вот вероятность дожить до конца исследования практически одинаковая. Хотя никакого логического противоречия здесь нет, разный результат при использовании одних и тех же данных затрудняет толкование результатов. Поэтому относительный риск является менее распространенным показателем, чем отношение шансов. Более того, в случае редких исходов (вероятность которых менее 10%) отношение шансов, как видно из предыдущего примера, является хорошей аппроксимацией относительного риска.

При использовании количественных переменных, характеризующих результат лечения, применяются два основных показателя размера эффекта - стандартизованная разность средних и коэффициент корреляции. Когда сравниваются две группы (как это обычно наблюдается в клинических исследованиях) обычно используется стандартизованная разность средних. Она определяется как отношение разностей между средними значениями в двух группах деленная на суммарное стандартное отклонение. Предположим, что в исследовании 100 участников были случайным образом отнесены в группу контроля или лечения. Значение артериального давления в группе контроля составило 170, а в группе лечения - 140. Предположим также, что разброс данных был примерно одинаков в обеих группах (суммарное стандартное отклонение - 20). Тогда для того, чтобы рассчитать стандартизованную разность средних необходимо из среднего в группе контроля вычесть среднее в группе лечения (170-140=30) и разделить полученную величину на суммарное стандартное отклонение (30/20=1,5). Согласно Cohen (1988) если размер эффекта не превышает 0,2, говорят о слабом эффекте терапии, если он оказывается равным 0,5 - говорят об эффекте средней силы и если он превышает 0,8 - то говорят о большом эффекте действия препарата.

Если анализируется связь между двумя количественными переменными используется коэффициент корреляции. Его значения могут изменяться в пределах от +1,0 до -1,0. Коэффициент равный 0 говорит о том, что между двумя переменными нет (линейной) связи. Согласно Cohen (1988) значения коэффициента корреляции около ±0,1 считаются "малыми", около ±0,3 - "средними и, если они превышают ±0,5 то их можно считать "большими". Другим простым правилом является правило квадрата - квадрат коэффициента корреляции характеризует насколько, в процентах, один показатель определяется другим. Так, если между дозой препарата и снижением уровня артериального давления найдена корреляция с коэффициентом равным 0,5, это означает, что дозировка определяет выраженность снижения АД на 25% (0,52=0,25=25%) - на 75% снижение АД определяется другими факторами (например, индивидуальной чувствительностью к препарату).