К научно доказательной медицинской статистике. Часть 1: заблуждение р-оценки.

Toward Evidence-Based Medical Statistics. 1: The P Value Fallacy

Steven N. Goodman, MD, PhD

Ann Intern Med. 1999;130:995-1004.

Последнее десятилетие ознаменовалось развитием научно-доказательной медицины  - движением, которое сфокусировало свое внимание на важности использования клинических исследований для эмпирической демонстрации эффективности медицинских вмешательств. Все чаще и чаще врачей просят оценить подобные исследования для того, чтобы принимать клинические решения и анализировать, что стоит за теми или иными рекомендациями. Этот подход требует такого понимания исследовательских методов, которого до недавнего времени от врачей не требовалось.

Используемые исследовательские методы включают статистические приемы, помогающие в формулировке заключений. Однако методы вывода статистических заключений, используемые в настоящее время, не являются «базирующимися на доказательствах», и поэтому они привели к целому ряду широко распространенных заблуждений. Основное из них заключается в том, что без рассмотрения биологической значимости и предшествующих данных, статистические методы могут выдать некое число, которое само по себе будет отражать вероятность получения тех или иных ошибочных заключений. Эта вера значительно повредила качеству научного мышления, особенно тем, что она сделала сложным понимание того, насколько сила доказательств в определенном исследовании может быть связана и скомбинирована с силой других доказательств (из других лабораторных и клинических исследований, научного мышления или клинического опыта). Это и привело к тому, что многие идеи не выдержали проверку временем (1, 2).

Две статьи, которые опубликованы в этом выпуске журнала, анализируют данную проблему и предлагают ее частичное решение. В первой из них я изучаю исторические и логические основы доминирующей сейчас школы медицинской статистики, которая иногда называется фреквентистской статистикой, и может быть описана, как статистика, базирующаяся на изучении ошибок. Я анализирую логическое заблуждение, которое находится в самом центре этой системы, а также указываю на причины, почему она настолько сильно удерживает мышление исследователей; людей, принимающих решения; и редакторов журналов. Во второй статье (3) я представляю научно-доказательный подход, который базируется на байесовских (Bayesian) статистических методах – альтернативном подходе, который на протяжении последних 20 лет является одной из наиболее активных областей биостатистики. Байесовские методы начали находить отражение в медицинских журналах с конца 1990-х годах, например с 1 июля 1997 года, журнал «Анналы Внутренней Медицины» в раздел информации для авторов включает раздел по интерпретации данных в свете теоремы Байеса.

Перспектива байесовских методов, которая предложена здесь, несколько отличается от тех, которые были представлены в других медицинских журналах. Я буду обращать внимание не на вызывающие споры идеи об использовании этих методов для изменении «веры» в правильность гипотезы, а скорее на том, как они оценивают вес количественных доказательств. Мы увидим, каким образом публикация индекса, который называется байесовским фактором (в своей простейшей форме называемый отношением правдоподобия), использованный вместо р-оценки, может улучшить интегрирование статистических измерений и биологических знаний и приводить к лучшему пониманию роли научного мышления в интерпретации медицинских исследований.

Пример проблемы.

Недавно опубликованное рандомизированное контролируемое испытание, посвященное применению гидрокортизона для лечения синдрома хронической усталости, продемонстрировало, что эффект от лечения оказался на границе статистической значимости р=0,06 (4). Раздел «Обсуждение» начинался со следующей фразы: «…. лечение гидрокортизоном было связано с улучшением симптоматики …. Это первое подобное исследование…, которое продемонстрировало улучшение [течения синдрома хронической усталости] при применении лекарственной терапии» (4).

Что является примечательным по поводу этой статьи так это то, насколько непримечательной она является. Довольно типичным для большого количества медицинских исследований является то, что их заключения базируются на основании данных, которые описываются в начале раздела «Обсуждение». Дальше в обсуждении представляются такие вопросы, как: биологические механизмы, размер эффекта, а также приводятся данные других исследований, которые поддерживают точку зрения автора, но как это не парадоксально, выводы формулируются до того, как начинается само обсуждение, они как будто бы формируются напрямую из результатов, просто являясь лингвистической трансформацией р = 0.06. Это естественные последствия статистических методов, которые практически уничтожили в нас способность различать статистические результаты и научное заключение. Как мы видим, это естественное развитие «заблуждения р-оценки».

Философское предисловие.

Для того чтобы начать наше изучение «заблуждения р-оценки», мы должны рассмотреть основные элементы логического вывода. Процесс, который мы используем для того, чтобы связать имеющиеся знания с наблюдаемым миром, называется логикой вывода, в котором существуют два основных типа: дедуктивный вывод и индуктивный вывод. При дедуктивном выводе мы начинаем от заданной гипотезы (предположение о том, как работает природа) и предсказываем, что мы могли бы увидеть, если бы данная гипотеза была справедливой. Дедукция объективна в том смысле, что предсказание по поводу того, что мы увидим, всегда истинно, если гипотеза является истинной. Проблема здесь заключается в том, что мы не можем использовать дедукцию для расширения наших знаний за пределы того, что было сформулировано в гипотезе.

Индуктивный вывод идет в противоположном направлении – на основании того, что мы видим, мы выбираем ту гипотезу, которая является наиболее правдоподобной. Концепция доказательств является индуктивной, это измерение, которое отражается от наблюдений на существующую истину. Преимущество индуктивного мышления заключается в том, что наши выводы по поводу ненаблюдаемых состояний природы более широкие, чем наблюдения, на которых они базируются. Иными словами, мы используем данную логику для того, чтобы генерировать новые гипотезы и анализировать новые идеи. Недостаток индуктивного мышления заключается в том, что мы не можем быть уверены, что те выводы, к которым мы приходим по поводу естественного состояния вещей, являются справедливыми – феномен известный как проблема индукции (5 –7).


Рис. 1 Аналогии в процессе индукции и дедукции при принятии медицинских решений (Medical Inference, вверху) и в теории статистических выводов (Statistical Inference, внизу). D – различия вследствие лечения. (Hypothesized underlying disease – предполагаемое заболевание, Disease – заболевание, Possible observed signs and symptoms – возможные выявленные симптомы и физикальные признаки, Cough – кашель, Fever – лихорадка, Rash – сыпь, Angina – ангина, Splenomegaly – спленомегалия, Deduction – дедукция, Induction – индукция, Hypothesized true treatment differences – предполагаемые истинные различия вследствие лечения, Hypothesis – гипотеза, Possible observed treatment difference – возможные наблюдаемые различия вследствие лечения).


Из клинического опыта врачи хорошо знакомы с небольшими, но критическими различиями между этими двумя перспективами. Подсчет частоты симптомов (наблюдения) с учетом известного наличия заболевания (гипотеза) – это дедуктивный процесс, и он может быть выполнен студентом-медиком, просто имеющим хороший учебник (рис.1, наверху). Значительно более сложным является индуктивное искусство дифференциального диагноза - указать вероятность различных заболеваний, на основании имеющихся у пациента признаков, симптомов и лабораторных результатов. Дедукция более определенная и «объективная», но менее полезная, чем индукция.

Идентичная проблема возникает и в статистике. При допущении того, что два метода лечения являются аналогичными (иными словами, что справедливой является гипотеза об отсутствии различий), достаточно легко дедуктивно рассчитать частоту положительных результатов, которые могли бы наблюдаться в данном исследовании (рис.1 внизу). Но после того как мы наблюдаем некий результат, как следствие клинического испытания, не очень то легко ответить на более важный дедуктивный вопрос: «Насколько вероятно то, что методы лечения являются эквивалентными?»

В данном столетии философы боролись с проблемой индукции и пытались разрешить ее, или избежать этой проблемы, разными путями. Karl Popper (8) предложил философию научной практики, которая полностью удаляла формальную индукцию и использовала только дедуктивные элементы науки – компоненты предсказания и компоненты фальсификации. Rudolf Carnap пытался использовать противоположную стратегию – сделать индуктивные компоненты логически настолько же последовательными, как и дедуктивные компоненты (9,10). Оба не достигли успеха в создании рабочей модели того, как должна работать наука, и их провалы продемонстрировали, что нет логического решения проблемы хрупкого научного знания.

Определение того, какая истина наиболее вероятна на основании существующих данных – это проблема обратной вероятности или индуктивного вывода, которая была количественно решена более двухсот лет тому назад священником Томасом Байесом (Thomas Bayes). Он не опубликовал свою находку (теперь известную как теорема Байеса), и она стала общим достоянием только после 1762 года, т.е. спустя 20 лет после его смерти (11). Рисунок 2 демонстрирует теорему Байеса, в словесном выражении.

Исходные (априорные) шансы справедливости гипотезы

(до сбора данных)

Х

 

Субъективный компонент

Байесовский фактор

ò

 

Компонент данных («доказательства»)

Окончательные (апостериорные) шансы справедливости гипотезы

 

Вероятность истины

Рис. 2. Теорема Байеса в словесном выражении

Как математическое уравнение теорема Байеса не вызывает никаких противоречий, в медицине она является основой для анализа в рамках теории игр и изучения скрининговых тестов. Однако как модель того, как мы должны думать научно, она попадает под серьезную критику, поскольку требует присвоения предварительной вероятности истинности некой идеи, требует присвоения числа, чье объективное научное значение не ясно (7,10,12). Предполагалось, что это могло являться причиной, почему Томас Байес выбрал именно тот вариант « опубликоваться или исчезнуть». Это также причина того, почему данный подход все время назывался субъективным, и почему он не очень широко используется исследователями в медицине.

Обычный (фреквентистский) статистический анализ.

Вследствие субъективности априорных вероятностей, используемых в теореме Байеса, ученые в 1920-х и 1930-х годах двадцатого столетия пытались использовать альтернативные подходы к статистическому выводу, которые бы использовали только дедуктивные вероятности, рассчитываемые на основании математических формул, описывающих (при определенных допущениях) частоту всех возможных экспериментальных исходов, при условии, что эксперимент повторялся много, много раз (10). Методы, базирующиеся на этом «фреквентистском» взгляде на вероятность, включали индекс для измерения силы доказательства, называемый р-оценкой, предложенный Фишером (R.A. Fisher) в 1920-х годах (13); и метод выбора между гипотезами, разработанный в начале 1930-х годов математическими статистиками Нейманом и Пирсоном (Jerzy Neyman и Egon Pearson (14)), который назывался методом тестирования гипотез. Эти два метода были не совместимы, но они стали настолько тесно связанными, что сейчас они ошибочно рассматриваются как часть одного, единого, сбалансированного подхода к статистическому анализу (6, 15, 16).

Р-оценка.

Р-оценка определяется как вероятность, при условии допущения отсутствия эффекта или отсутствия различий (нулевая гипотеза), получения равного, или более сильно выраженного результата, по сравнению с результатом, который наблюдался в данном исследовании (рис.3). Фишер предложил его как неформальный индекс, который мог бы использоваться для того, чтобы оценить различия между данными и нулевой гипотезой. На самом деле этот индекс не являлся частью формального метода статистического вывода. Фишер предложил, чтобы он использовался как часть достаточно гибкого и нечетко отрегулированного процесса формулировки выводов на основании наблюдений, процесс, который бы включал комбинирование р-оценки с существующей информацией неким неописанным методом (17).

Стоит отметить одну из широко распространенных и особенно неудачных интерпретаций р-оценки (18,20). Большинство из исследователей и читателей считают, что р-оценка = 0,05 означает, что нулевая гипотеза имеет вероятность всего лишь 5% . Мой опыт обучения большого количества врачей показывает, что когда врачам представляется короткое резюме исследований, в котором приводится необычный результат с р = 0,05, большинство из них указывает, что имеется 95% (или большая) вероятность того, что нулевая гипотеза является неправильной. Это понятная, но абсолютно неверная интерпретация, поскольку р-оценка подсчитывается исходя из допущения, что нулевая гипотеза является истинной и поэтому она не может быть прямым показателем вероятности того, что нулевая гипотеза является ложной.


Рис. 3 Колоколообразная кривая представляет собой вероятность всех возможных результатов при условии справедливости нулевой гипотезы. Как уровень ошибки I типа (a), так и р-значения являются «хвостовыми областями» на этом графике. Область ошибки первого типа определяется до начала эксперимента и результат может находиться в любой точке внутри этой нее. Область р-значения рассчитывается только после проведения эксперимента и, по определению, результат всегда находится на границе этой области. (Observed data – наблюдаемые данные, p value – р-оценка)

Эта логическая ошибка поддерживает неправильное предположение о том, что данные сами по себе могут определить, является ли гипотеза истинной. Большое количество авторов пытались исправить это недопонимание (18,20). Diamond and Forrester (19) проанализировали несколько крупных клинических исследований, а Brophy and Joseph (22) повторно проанализировали результаты исследования GUSTO (Global Use of Streptokinase and tPA for Occluded Coronary Arteries – «Глобальное использование стрептокиназы при закупорке коронарных артерий») для того, чтобы продемонстрировать, что конечная вероятность отсутствия эффекта, которая может быть подсчитана только с использованием байесовских методов, может значительно отличаться от р-оценки. Однако несмотря на то, что эта проблема является очень серьезной, данная статья будет обращена к другим вопросам, которые создаются при правильном использовании р-оценки, использовании в качестве «показателя индуктивных доказательств».

Когда р-оценка была предложена, некоторые ученые и статистики атаковали логические основы и практическую полезность р-оценки Фишера (23, 24). По всей вероятности, наиболее серьезный скептицизм заключался в том, что она являлась показателем доказательств, который не принимает во внимание размер наблюдаемого эффекта. Небольшой эффект в исследовании с очень большим размером выборки, может иметь точно такую же р-оценку, как большой эффект в небольшом исследовании. Эта критика является основой сегодняшнего акцента на доверительных интервалах, а не на р-оценках (25 - 28).

Иронично, что р-оценку обессмертил метод, который был разработан для того, чтобы ее заменить (это был метод тестирования гипотез, предложенный Нейманом и Пирсоном).

Тестирование гипотез.

Нейман и Пирсон рассматривали р-оценку Фишера как неполный ответ на проблему разработки методов статистического анализа без привлечения теоремы Байеса. В своем подходе к тестированию гипотезы они предложили использовать две гипотезы о возможном истинном положении вещей: нулевую гипотезу (обычно предположение о том, что имеется нулевой эффект) и альтернативную гипотезу, которая обычно является противоположной нулевой гипотезе (например, что имеется не нулевой эффект). Результатом тестирования гипотезы было бы поведение, а не вывод: отбросить одну гипотезу и принять другую, и все это на основании только самих данных. Это приводит к тому, что исследователь может совершить один из двух типов ошибок – будет вести себя так, как если бы две терапии различались, когда они на самом деле являются одинаковыми (феномен известный как ложноположительный результат, ошибка I типа, или a ошибка [рис.3]); или придти к выводу, что они одинаковые, когда на самом деле они отличаются (феномен известный как ложноотрицательный результат, или ошибка II типа, или b  ошибка).

Этот подход имеет внутреннюю привлекательность в том, что мы если мы предполагаем, что есть некая истина, то шансы данных ошибок могут быть рассчитаны при помощи математических формул дедуктивно, и поэтому они «объективны». Однако при тестировании гипотез должны быть использованы и волевые элементы: например, субъективным остается выбор частоты ложноположительных и ложноотрицательных ошибок на основании относительной серьезности двух типов этих ошибок (12, 14, 29). Сегодня, к сожалению, этот компонент принятия решения исчез.

Тестирование гипотез представляло собой драматические изменения по сравнению с предыдущим методом в том, что это была процедура, которая диктовала, какие действия должен принять исследователь. Математически и концептуально это был громадный шаг вперед, но как модель для научной практики она была крайне проблематичной, в особенности тем, что она не включала показателей «доказательности», ни одно число не шло назад, от данных к сформулированной гипотезе. Причиной этого упущения было то, что любой индуктивный элемент неизбежно приводил назад к теореме Байеса, которую Нейман и Пирсон пытались избежать. Поэтому они предложили другую цель науки - не придти к индуктивному выводу в одном единственном эксперименте, а использовать дедуктивный метод для того, чтобы ограничить количество ошибок, которое делается в большом количестве экспериментов. Сформулируем это их собственными словами (14):

«Ни один тест, который базируется на теории вероятности, не может сам по себе предоставить ценные доказательства истинности или ошибочности гипотезы.

Однако мы можем посмотреть на цель тестирования с другой точки зрения, без надежды выявления того, насколько каждая отдельная гипотеза истинна или ложна. Мы можем искать правила, которые бы руководили нашим поведением по отношению к этим гипотезам, и использовать такой подход, чтобы в длительной перспективе мы бы не очень часто ошибались».

Трудно переоценить значимость этой цитаты, в ней Нейман и Пирсон описывают цену, которую необходимо заплатить за то, чтобы воспользоваться выгодами от объективности: мы должны отказаться от нашей способности измерять доказательства, или оценивать истинность в индивидуальном эксперименте. На практике это означает, что мы сообщаем только о том, были или не были результаты статистически значимыми и действуем в соответствии с этим вердиктом. Многие могут рассматривать это как абсолютно ненаучный подход, но, тем не менее, эта процедура часто поднимается на щит как парадигма научного метода.

Тестирование гипотезы является эквивалентом судебной системы, которая не заинтересована в том, насколько обвиняемый виноват или невиновен (иными словами насколько каждая отдельная гипотеза истинна или ложна), а вместо этого пытается проконтролировать общее количество неправильных вердиктов (т.е. в долгосрочной перспективе мы не очень часто ошибаемся). Контроль ошибок в долгосрочной перспективе – это очень важная цель. Однако наше чувство справедливости требует, чтобы каждый индивидуум оценивался справедливо, точно также, наша научная интуиция говорит о том, что мы должны пытаться придти к истинным заключениям из индивидуальных исследований.

Подход к тестированию гипотез предлагает ученым фаустовскую сделку (кажущийся автоматическим путь) - ограничить количество ошибочных заключений в долгосрочной перспективе, но только за счет того, что они отказываются от способности измерять доказательства и оценивать истину в одном единственном эксперименте. Достаточно сомнительно, что тестирование гипотез достигло бы своего нынешнего уровня приемлемости, если бы не было добавлено что-то, что позволило ученым ошибочно думать, что они могут избежать подобной сделки. Это «что-то» как выяснилось, оказалось фишеровской р-оценкой, к большому разочарованию Фишера, Неймана, Пирсона и других их последователей - экспертов по статистике.

«Решения» при помощи р-оценки. 

Как же р-оценка сумела решить неразрешимую проблему? Она сделала это частично тем, что стала представляться показателем доказательств в одном единственном эксперименте, который не нарушает долговременную логику тестирования гипотезы. Рисунок 3 показывает, насколько одинаковыми кажутся р-оценки и a значения (вероятность ложноположительного результата), оба являются площадью в конце распределения значений, совместимых с нулевой гипотезой. Хвостовая область, соответствующая ложноположительным результатам (a) при тестируемой гипотезы фиксируется до начала эксперимента (практически всегда на уровне 0,05), в то время как р-значение появляется в тот момент, когда мы собрали данные. Их поверхностная похожесть приводит к тому, что легко придти к выводу, что р-оценка - это некий особый вид ложноположительной вероятности, специфичный для тех данных, которыми  мы располагаем. В дополнение к этому используется фишеровская логика, по которой р-оценка показывает, насколько сильно нулевая гипотеза противоречит имеющимся данным (т.е. она может служить индексом доказательств против нулевой гипотезы), и вот мы имеем индекс, который выполняет двойную задачу. Кажется, что р-оценка является нейман-пирсоновской частотой ложноположительных результатов и фишеровским индексом доказательств против нулевой гипотезы (6, 15, 17).

Типичная цитата из стандартного учебника по биостатистике, в которой частота ошибки первого типа называется «уровнем значимости» показывает насколько легко можно установить связь между р-оценкой и частотой ложноположительных результатов(30):

«Указание, что р < 0,01 свидетельствует о том, что различия между выборочной средней и средней нулевой гипотезы значимы, даже если принят такой консервативный уровень значимости, как 1 процент. Утверждение, что р = 0,006 указывает на то, что результат значим на любом уровне, вплоть до 0,6 процента.»

Приемлемость подобной двойной интерпретации как доказательства / частота ошибки подпитывалось нашей уверенностью в том, что чем больше имеется доказательств в пользу нашей гипотезы, тем менее вероятной является ошибка. Эта уверенность является справедливой, но вопрос заключается в том, имеем ли мы право использовать одно единственное число - вероятность, которая представляет как силу доказательств против нулевой гипотезы, так и частоту ложноположительных результатов в рамках нулевой гипотезы. Если это так, тогда Нейман и Пирсон, по всей вероятности ошибались, когда они говорили, что невозможно контролировать одновременно как долгосрочную частоту ошибок, так и оценить насколько выводы из одного единственного эксперимента являются истинными. Но они не были неправы; это логически невозможно.

Заблуждение р-оценки.

Идея о том, что р-оценка может играть обе эти роли, базируется на заблуждении, что некое событие может рассматриваться как с точки зрения краткосрочной, так и долгосрочной перспективы. Долгосрочная перспектива является дедуктивной, она базируется на определении вероятности ошибки. При долгосрочной перспективе мы группируем наблюдаемые результаты вместе с другими результатами, которые могли бы возникнуть при гипотетическом повторении эксперимента. В краткосрочной перспективе, которая является индуктивной, мы пытаемся оценить значимость наблюдаемого результата из одного единственного эксперимента. Если бы мы могли скомбинировать эти перспективы, то это означало бы, что индуктивная цель (приход к научным заключениям) может быть выведена при помощи чисто дедуктивных методов (объективные расчеты вероятности).

Эти два взгляда не могут быть состыкованы друг с другом, поскольку данный результат (краткосрочный) может быть законно включен в большое количество различных долгосрочных результатов. Классическая статистическая головоломка, демонстрирующая это, включает в себя два воздействия А и В, чьи эффекты анализируются в группе из 6 пациентов. Лечение А лучше у первых 5 пациентов, а лечение В лучше у 6-го пациента. Принимая формулировку, использованную Рояллом (Royalls (6)), давайте представим себе, что эти эксперименты проводятся двумя исследователями, каждый из которых, не зная про то, что делает другой, имеют разные планы эксперимента. Исследователь, который оригинально запланировал это исследование для того чтобы изучить 6 пациентов, подсчитает р-оценку равную 0,11, в то время как исследователь, который планировал остановиться как только лечение В окажется предпочтительнее (до, максимум, 6 пациентов), рассчитает р-оценку, равную 0,003 (смотри приложение). Мы имеем одних и тех же пациентов, одно и то же лечение, и одни и те же результаты, но два абсолютно разных значения р-оценки, которые могут привести к разным выводам, различающимся только потому, что экспериментаторы имеют различное представление о том, какими должны быть результаты, если бы эксперименты повторялись. Доверительный интервал будет приводить к тем же самым выводам.

Этот странный результат приходит от попытки описать долгосрочное поведение и краткосрочную перспективу на основании одного и того же числа. Рисунок 4 иллюстрирует все результаты, которые могли бы возникнуть в двух планах экспериментов этих исследователей, т.е. в долгосрочном использовании каждого из этих дизайнов исследований. В долгосрочной перспективе два плана отличаются друг от друга весьма значительно, и на самом деле существует только два возможных общих результата: тот который наблюдался, и в тех случаях, когда лечение А оказалось предпочтительнее во всех 6 случаях. Когда мы группируем наблюдаемые результаты с результатами от различных долгосрочных экспериментов, мы получаем две разные р-оценки (смотри приложение).


Рис. 4 Возможные результаты двух гипотетических испытаний на шести пациентах. Единственный общий результат – это обнаруженные в исследовании данные и ситуация, когда лечения А оказалось более приемлемым для всех пациентов (Possible outcomes of n=6 experiment – возможные результаты эксперимента с группой из 6 пациентов; combinations – комбинации; Possible outcomes ofStop at 1st Bexperiment – возможные результаты эксперимента в котором планируется остановиться при появлении первого пациента, предпочитающего лечение В; Observed Data – наблюдаемый результат)

Другой способ объяснения заблуждения р-оценки заключается в том, что результаты не могут быть в одно и то же время анонимными (взаимозаменяемыми) членами группы результатов (точка зрения в длительной перспективе) и идентифицируемыми (уникальными) членами с краткосрочной точки зрения (6, 15, 31). В моей второй статье в данном выпуске журнала мы увидим, что если мы останавливаемся на краткосрочной перспективе, когда измеряем доказательства, идентичные данные будут приводить к идентичным доказательствам вне зависимости от намерений экспериментатора.

Практически каждая ситуация, в которой достаточно сложно рассчитать «правильное» значение р-оценки, базируется именно на этой фундаментальной проблеме. Дебаты о множественных сравнениях сводятся к тому, насколько данное сравнение может рассматриваться как часть группы, в которой делаются все сравнения (т.е. как анонимный член группы), или по отдельности (как уникальный, идентифицируемый, член) (32-35). Серьезные споры на тему того, как цитировать р-оценку, когда исследование было остановлено в результате большого эффекта от воздействия, связаны с тем, можем ли мы рассматриваемый результат сам по себе, или должны рассматривать его как часть всех результатов, которые могли бы возникнуть в результате подобного мониторирования (36-39). В исследовании экстракорпоральной мембранной оксигенации у новорожденных большое количество р-оценок было получено на основании одного и того же набора данных (40). Эта проблема также является важной для дизайна эксперимента, поскольку фреквинтистские выводы требуют, чтобы в долгосрочной перспективе имелись однозначные выводы. Фреквинтистские дизайны являются достаточно ригидными (например, они требуют фиксированного размера выборки и заранее разработанные планы остановки исследования, свойства, которые многие рассматривают как требования науки, а не артефакты, определенные философией статистических выводов).

Р-оценка, пытаясь выполнить две роли, не выполняет ни одной из них. Это можно заметить при анализе последующего утверждения: «результат при котором р = 0,05 принадлежит к группе исходов, которые имеют 5% вероятность возникновения при условии справедливости нулевой гипотезы». Хотя буквально это справедливо, мы знаем, что результат не только в этой группе (т.е. он анонимный), мы знаем, где он имеется, и мы знаем, что это наиболее вероятный член (т.е. идентифицируемый). Мы говорим, что он находится в этой группе таким же образом, как, когда мы говорим, что студент, который по успеваемости является десятым в группе из ста, находится в верхних 10% своего класса, или студент, который находится на двадцатом месте, находится в верхних 20% (15). Хотя на самом деле это истина, данное утверждение обманчиво, поскольку оно предполагает, что студент может быть где угодно в этой верхней группе, хотя мы знаем, что он или она находятся на самом нижнем уровне этой группы наиболее хорошо успевающих студентов. Аналогичное свойство и приводит к тому, что р-оценка становится неадекватным индексом доказательств против нулевой гипотезы. Как будет обсуждаться во второй статье, доказательная сила результатов с р-оценкой, равной 0,05 на самом деле значительно слабее, чем предполагает значение 0,05.

Если заблуждения р-оценки были бы ограничены царством статистики, это было бы всего лишь техническое примечание, которое вряд ли стоит длительного упоминания, но аналогично тому, как один единственный аномальный ген может нарушить функционирование достаточно сложного организма, заблуждение р-оценки позволило создать методы, которые усиливают эту концептуальную ошибку, весьма значительно влияющую на то, что мы думаем о научном процессе и природе научной истины.

Создание комбинированных методов.

Структура р-оценки и тонкости заблуждения, в которые она вовлечена, позволяют комбинировать тестирование гипотезы и р-оценку. Этот комбинированный метод характеризуется тем, что мы устанавливаем максимально допустимую ошибку первого типа (практически всегда 5%) и мощность (практически всегда более 80%) до начала эксперимента, а затем подсчитываем р-оценку и отклоняем нулевую гипотезу, если р-оценка меньше заранее установленного уровня ошибки первого типа.

Этот комбинированный метод кажется полностью дедуктивным, и он связывает вероятность (р-оценку) с нулевой гипотезой в контексте метода, который контролирует вероятности ошибки. Ключевым словом здесь является слово «вероятность», поскольку вероятность имеет некую абсолютность, которая опрокидывает все предупреждения, что это не вероятность истины, или что она не должна использоваться механистически. Такие свойства, как биологическая обоснованность, обоснованность теорий, которые тестируются, и сила предыдущих доказательств - все становятся не более чем побочными вопросами не имеющими явного отношения к изучаемой теме. Ни одна из них не меняет вероятности, и вероятность не нуждается в них для интерпретации. Таким образом, мы имеем объективный статический вывод, который позволяет придти к заключению, по всей видимости, без уплаты цены Неймана и Пирсона (т.е. что мы не можем использовать методику для формулировки вывода об индивидуальном исследовании) и без фишеровской гибкости (т.е. что необходимо использовать некие дополнительные данные).

В дидактических статьях в медицинской литературе слияние этих двух подходов становится настолько полным, что иногда не распознается никакого комбинирования; р-оценка идентифицируется как эквивалент вероятности ложноположительной ошибки. В руководстве по статистике для хирургов под достаточно красноречивым подзаголовком «ошибки в статистических выводах» нам сообщается, что «ошибка первого типа возникает, если нулевая гипотеза отбрасывается несправедливо и вероятность этой ошибки соответствует известной р-оценке» (41).

Основатели этих подходов – Нейман, Фишер и Пирсон абсолютно четко понимали последствия использования их методов в науке, и хотя в дебатах, которые характеризовались острой риторикой, а иногда и личностными атаками (15, 16), каждый из них боролся за свои собственные подходы, ни одна из сторон не призывала к созданию комбинированного метода. Однако два подхода каким-то образом слились в метод, в котором несоответствия и концептуальные ограничения, в основном, игнорируются. Многие источники по статистической теории указывают на различия, которые мы обсудили выше (42 – 45), но в прикладных тестах и медицинских журналах комбинированный метод обычно представляется  анонимным, как отражение математической истины, крайне редко с каким бы то ни было указанием на возможные противоречия. Необходимо отметить, что комбинированный метод не является полностью логичным набором идей, он был адаптирован в различных формах, в различных прикладных дисциплинах, таких как психология, физика, экономика и генетическая эпидемиология (16).

Естественный вопрос, который возникает в данной ситуации, заключается в том, какие факторы привели к тому, что этот метод так широко рекламируется, и оказался так принятым в медицине и других дисциплинах? Хотя изучение этого вопроса еще не до конца закончено, недавние книги, опубликованные Марксом (Marks, 46), Портером ( Porter,47), Мэтьюсом (Matthews, 48) и Гингеренцером с коллегами ( Gingerenzer 46) идентифицировали как социологические, так и научные корни. Это достаточно сложная история, но основная тема заключается в том, что реформаторы в академической медицине и в правительстве, вместе с медицинскими исследователями и редакторами журналов, обнаружили, что чрезвычайно полезным было бы иметь количественную методологию, которая, как кажется, приводит к заключениям вне зависимости от человека, который выполняет эксперимент. Люди стали верить, что это связано с тем, что методы являются «объективными», что они соответственно приводят к появлению надежных «научных» выводов, которые могут служить основой для терапевтических решений и политики правительства.

Этот метод, таким образом, привел к некоторым изменениям в балансе медицинского авторитета от тех, у кого основные знания находились в области биологических основ медицины, к тем, кто имел знания количественных методов или к одним количественным результатам, как будто числа могли каким-то образом говорить за самих себя. Это манифестирует сегодня в появлении парадигмы научно-доказательной медицины, которая иногда даже поднимает вопрос о том, что информация о биологических механизмах не заслуживает названия «доказательств», когда оцениваются медицинские вмешательства (49-51).

Важность для интерпретации медицинских исследований.

Комбинированный метод привел к автоматизации интерпретации результатов медицинских исследований, которые клиницисты, статистики и логически ориентированные исследователи, обсуждали на протяжении многих лет (18, 52 – 68). Как Эдвардс (A.W.F. Edwards) – статистик, генетик и протеже Фишера - однажды заметил:

«то, что ранее называлось суждением, теперь называется предвзятостью, то что раньше называлось предвзятостью, теперь называется нулевой гипотезой…Это опасная бессмыслица, переодетая в ‘научный метод’ вызовет большое количество проблем, прежде чем все поймут, что она есть на самом деле» (69).

Другой статистик беспокоился о «непредумышленном виде тирании», который статистические процедуры накладывают на другие способы мышления (70).

Последствия этой «тирании» заключаются в ослаблении разделов обсуждения в исследовательских статьях, когда исходная информация и предыдущие эмпирические доказательства достаточно плохо интегрируются (если вообще интегрируются) со статистическими результатами. Недавние исследования рандомизированных контролируемых испытаний, которые были опубликованы в основных медицинских журналах, продемонстрировали, что мало кто из них ссылался на предыдущие доказательства, полученные в аналогичных исследованиях в той же самой области (71). Это естественный результат методологии, которая предполагает, что каждое исследование само по себе генерирует выводы с определенной частотой ошибок, вместо того, чтобы думать об исследованиях, как добавляющие доказательства к тем, что были предоставлены другими источниками и другими исследованиями.

Пример представленный в начале этой статьи, не был выбран из-за того, что он был необычно искажен, а именно потому, что это типичный пример того, как эта проблема проявляется в медицинской литературе. Утверждение что имеется взаимосвязь между лечением гидрокортизоном и улучшением течения синдрома хронической усталости, было заявлением на знание индуктивного вывода. Для того чтобы сделать подобное заявление, необходимо создать мостик между «р = 0,06» и «тем, что лечение связано с улучшением симптоматики». Этот мостик состоит из всего того, что авторы помещают в более позднюю часть своего обсуждения: размеры изменений (маленькие), неспособность изменить другие конечные точки, отсутствие других поддерживающих исследований и слабую поддержку предложенного биологического механизма. В идеале вся эта и другая информация должна была бы быть скомбинирована с умеренными статистическими доказательствами основной конечной точки, и она позволила бы придти к неким выводам по поводу вероятного наличия или отсутствия истинного эффекта гидрокортизона. В основном, авторы не рекомендуют использовать подобное лечение, поскольку риск подавления функции коры надпочечников может перевесить небольшой положительный эффект, но предположение об эффекте от лечения гидрокортизоном остается. Другим интересным свойством этой публикации является то, что размер р-оценки кажется, не играет никакой роли. Начальные выводы не были бы сформулированы иначе, если бы р-оценка была бы меньше, чем 0,001. Это допущение является наследием компоненты тестирования гипотезы в комбинированном методе вывода. Авторы (и журнал) должны быть отмечены за то, что они строго не придерживались логики тестирования гипотезы, которая бы отбросила значение р = 0,06 как незначимое. Но если они не используют логику тестирования гипотезы, выводы должны включать в себя отградуированную природу доказательств. К сожалению даже Фишер не смог предложить существенных рекомендаций по поводу того, как значения р-оценки должны воздействовать на выводы, и никто другой не смог этого сделать. В противоположность этому, как мы увидим во второй статье, байесовский фактор предлагает естественный способ для включения различных степеней доказательств формирования выборки.

На практике то, что чаще всего делается для того, чтобы совершить прыжок от доказательств к выводам, это то, что различные словесные метки присваиваются р-значениям. Практика, чье внутренне несоответствие становится наиболее четким, когда вердикт «значимости» не совпадает с другими доказательствами или точкой зрения автора. Если р-оценка равная 0,12 обнаруживается для априорно неожиданных различий, то авторы часто говорят, что группы являются «эквивалентными», или что здесь «нет различий». Но когда та же самая р-оценка обнаруживается для случая ожидаемых различий, то обычно используются такие слова как «тенденция» или «предположение» и делается заявление, что исследование было «не значимым, поскольку имело небольшой размер», или начинается интенсивный поиск альтернативных объяснений. С другой стороны, неожиданный результат с р-оценкой менее 0,01 может быть объявлен статистической ошибкой, которая связана с просеиванием данных или по всей вероятности неконтролируемым влиянием третьей переменной (конфаундинг). По всей вероятности наихудшее в этой практике то, что встречается чаще всего: принятие без всякой критики вердикта значимости, как бинарного индикатора, вне зависимости от того, насколько реальным является связь. Основой всех этих практик является ощущаемая (или предполагаемая) потребность в том, чтобы заключения были сделаны напрямую из данных, без всяких внешних влияний, поскольку прямой вывод из данных гипотезы крайне редко может привести к ошибочным заключениям, и поэтому рассматривается как «научный». Эта идея поддерживается методологией, которая помещает цифры – печать легитимности - на этот ошибочный подход.

Большое количество методологических диспутов в медицинских исследованиях, возникающие, например, вокруг проблемы множественного сравнения (вне зависимости от того, была ли гипотеза сформулирована до или после рассмотрения данных); или того, насколько конечная точка является первичной или вторичной; или того, как рассматривать множественные анализы одних и тех же данных – все они, в основном, являются научными разногласиями, которые были превращены в псевдостатистические дебаты. Технический язык и содержание этих дебатов часто исключают из них тех исследователей, которые имели бы самые глубокие представления об обсуждаемых биологических вопросах. Достаточно ясный пример можно обнаружить в недавней серии статей, описывавших дебаты в Администрации по контролю за качеством лекарственных и пищевых продуктов (FDA) в США, посвященные разрешению лекарственного средства карведиола. Дискуссия, в основном, фокусировалась на том, были (или не были) нарушены статистические правила анализа (72-74). Оценка и дебаты по поводу различных источников реального мира лабораторных и клинических доказательств являются основой науки, и выводы могут быть сделаны только тогда, когда эта оценка комбинируется со статистическими результатами. Комбинирование тестирования гипотез и р-оценки не позволяет выполнить эту чрезвычайно важную задачу.

Предлагаемые решения.

Были предложены различные решения для данной проблемы (18, 52, 67). Большинство из них включает более частое использование доверительных интервалов и различные добавки здравого смысла. Доверительные интервалы, которые являются производными все той же самой фрекнвентистской математики, как и тестирование гипотез, представляют собой диапазон эффектов, который «совместим с данными». Их основным достоинством является то, что в идеале они нас отвлекают от автоматичности р-оценок и тестирования гипотез, взывая к тому, что необходимо рассматривать размер наблюдаемого эффекта. Они чаще упоминаются в медицинских работах, которые публикуются сегодня, чем они использовались раньше, но их воздействие на интерпретацию исследования менее очевидно. Часто они используются как замена теста гипотез (75); исследователи просто смотрят на то, включают ли они нулевой эффект, а не рассматривают клинические последствия полного диапазона возможных размеров эффекта. Небольшое количество попыток было предпринято для удаления р-оценок из статей для журналов, с целью  замены их на доверительные интервалы, но они не были особенно успешными, подчеркивая то, что потребность исследователей измерять доказательства остается достаточно четкой, и что исследователь чувствует себя потерянным, если не имеет подобного инструмента (76, 77). Но доверительные интервалы не являются панацеей, они включают в себя (хотя и в более смазанной форме) многие из тех же самых проблем, которые поражают и другие методы (78), наиболее важным является то, что они не предлагают механизма для объединения внешних доказательств с теми, которые предоставляются экспериментом. Таким образом, хотя доверительные интервалы и являются шагом в правильном направлении, они не являются решением для наиболее серьезной проблемы, которая создается фреквентистскими методами. Другое рекомендованное решение включает в себя использование байесовских методов или методов правдоподобия (6, 19, 20, 79-84). Вторая статья обсудит использование байесовского фактора – байесовского показателя доказательности – и продемонстрирует, как этот подход может изменить не только те цифры, которые мы публикуем, но и как мы о них думаем, что является более важным.

Финальное замечание.

Некоторые из наиболее серьезных аргументов в поддержку стандартных статистических методов заключаются в том, что они являются значительным улучшением по сравнению с хаосом, который им предшествовал, и что это оказалось весьма полезным для практики. Оба эти утверждения частично справедливы, поскольку статистики, вооруженные пониманием ограничения традиционных методов, интерпретируют количественные результаты, особенно р-оценку, весьма отлично от большинства не статистиков (67, 85-86). В мире, где медицинские исследователи имеют доступ ко всем более серьезным статистическим программам, статистическая сложность опубликованных исследований увеличивается (87-89), и все больше и больше клинический уход находится под контролем эмпирических доказательств, более глубокое понимание статистики становиться слишком важным для того, чтобы оставить его только специалистам.

Приложение: расчет р-оценки в исследовании, которое включает 6 пациентов. 

Нулевая гипотеза: вероятность того, что лечение А лучше = ½

Дизайн: n = 6. Вероятность наблюдаемого результата - один успешный случай лечения В и пять случаев успешного лечения А составляет: 6 х (1/2) х (1/2)5 . Фактор «число 6», поскольку успех лечения В мог возникнуть у любого из 6 пациентов, более крайними результатами были бы те результаты, в которых лечение А оказывается успешным у всех шести пациентов и вероятность подобного результата (при условии справедливости нулевой гипотезы) составляет (1/2)6 . Односторонняя р-оценка, таким образом, оказывается суммой этих двух вероятностей.


 


 Вероятность Вероятность «более крайних»

обнаруженных данных результатов

Дизайн: «остановиться в том случае, когда лечение В окажется лучше». Возможный результат подобного эксперимента может быть либо один единственный случай, когда лекарство В оказывается лучше, или последовательно более успешное лечение А, а затем идет случай успешного лечения В, в целом до шести подобных случаев. Используя те же самые данные, как использовались ранее, вероятность наблюдаемого результата 5 случаев, когда лечение А оказалось лучше и 1 случай, когда лучше оказалось лечение В, что составит (1/2)5 х (1/2) (без умножения на «6», поскольку лечение В обязательно должно появиться), а более крайним результатом было бы шесть предпочтений лечения А, как и в другом дизайне. Односторонняя р-оценка составляет:


Вероятность Вероятность «более крайних»

обнаруженных данных результатов

Литература:

1. Simon R, Altman DG. Statistical aspects of prognostic factor studies in oncology [Editorial]. Br J Cancer. 1994;69:979-85.

2. Tannock IF. False-positive results in clinical trials: multiple significance tests and the problem of unreported comparisons. J Natl Cancer Inst. 1996;88: 206-7.

3. Goodman SN. Toward evidence-based medical statistics. 2: The Bayes factor. Ann Intern Med. 1999;130:1005-13.

4. McKenzie R, O’Fallon A, Dale J, Demitrack M, Sharma G, Deloria M, et al. Low-dose hydrocortisone for treatment of chronic fatigue syndrome: a randomized controlled trial. JAMA. 1998;280:1061-6.

5. Salmon WC. The Foundations of Scientific Inference. Pittsburgh: Univ of Pittsburgh Pr; 1966.

6. Royall R. Statistical Evidence: A Likelihood Primer. Monographs on Statistics and Applied Probability #71. London: Chapman and Hall; 1997.

7. Hacking I. The Emergence of Probability: A Philosophical Study of Early Ideas about Probability, Induction and Statistical Inference. Cambridge, UK: Cambridge Univ Pr; 1975.

8. Popper K. The Logic of Scientific Discovery. New York: Harper & Row; 1934:59.

9. Carnap R. Logical Foundations of Probability. Chicago: Univ of Chicago Pr; 1950.

10. Howson C, Urbach P. Scientific Reasoning: The Bayesian Approach. 2d ed. La Salle, IL: Open Court; 1993.

11. Stigler SM. The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, MA: Harvard Univ Pr; 1986.

12. Oakes M. Statistical Inference: A Commentary for the Social Sciences. New York: Wiley; 1986.

13. Fisher R. Statistical Methods for Research Workers. 13th ed. New York: Hafner; 1958.

14. Neyman J, Pearson E. On the problem of the most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society, Series A. 1933;231:289-337.

15. Goodman SN. p values, hypothesis tests, and likelihood: implications for epidemiology of a neglected historical debate. Am J Epidemiol. 1993;137: 485-96.

16. Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Kruger L. The Empire of Chance. Cambridge, UK: Cambridge Univ Pr; 1989.

17. Fisher R. Statistical Methods and Scientific Inference. 3d ed. New York: Macmillan; 1973.

18. Browner W, Newman T. Are all significant P values created equal? The analogy between diagnostic tests and clinical research. JAMA. 1987;257: 2459-63.

19. Diamond GA, Forrester JS. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med. 1983;98:385-94.

20. Lilford RJ, Braunholtz D. For debate: The statistical basis of public policy: a paradigm shift is overdue. BMJ. 1996;313:603-7.

21. Freeman PR. The role of p-values in analysing trial results. Stat Med. 1993; 12:1442-552.

22. Brophy JM, Joseph L. Placing trials in context using Bayesian analysis. GUSTO revisited by Reverend Bayes. JAMA. 1995;273:871-5.

23. Berkson J. Tests of significance considered as evidence. Journal of the American Statistical Association. 1942;37:325-35.

24. Pearson E. ’Student’ as a statistician. Biometrika. 1938;38:210-50.

25. Altman DG. Confidence intervals in research evaluation. ACP J Club. 1992; Suppl 2:A28-9.

26. Berry G. Statistical significance and confidence intervals [Editorial]. Med J Aust. 1986;144:618-9.

27. Braitman LE. Confidence intervals extract clinically useful information from data [Editorial]. Ann Intern Med. 1988;108:296-8.

28. Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med. 1986;105:429-35.

29. Pearson E. Some thoughts on statistical inference. Annals of Mathematical Statistics. 1962;33:394-403.

30. Colton T. Statistics in Medicine. Boston: Little, Brown; 1974.

31. Seidenfeld T. Philosophical Problems of Statistical Inference. Dordrecht, the Netherlands: Reidel; 1979.

32. Goodman S. Multiple comparisons, explained. Am J Epidemiol. 1998;147: 807-12.

33. Savitz DA, Olshan AF. Multiple comparisons and related issues in the interpretation of epidemiologic data. Am J Epidemiol. 1995;142:904-8.

34. Thomas DC, Siemiatycki J, Dewar R, Robins J, Goldberg M, Armstrong BG. The problem of multiple inference in studies designed to generate hypotheses. Am J Epidemiol. 1985;122:1080-95.

35. Greenland S, Robins JM. Empirical-Bayes adjustments for multiple comparisons are sometimes useful. Epidemiology. 1991;2:244-51.

36. Anscombe F. Sequential medical trials. Journal of the American Statistical Association. 1963;58:365-83.

37. Dupont WD. Sequential stopping rules and sequentially adjusted P values: does one require the other? Controlled Clin Trials. 1983;4:3-10.

38. Cornfield J, Greenhouse S. On certain aspects of sequential clinical trials. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, CA: Univ of California Pr; 1977;4:813-29.

39. Cornfield J. Sequential trials, sequential analysis and the likelihood principle. American Statistician. 1966;20:18-23.

40. Begg C. On inferences from Wei’s biased coin design for clinical trials. Biometrika. 1990;77:467-84.

41. Ludbrook J, Dudley H. Issues in biomedical statistics: statistical inference. Aust N Z J Surg. 1994;64:630-6.

42. Cox D, Hinckley D. Theoretical Statistics. New York: Chapman and Hall; 1974.

43. Barnett V. Comparative Statistical Inference. New York: Wiley; 1982.

44. Lehmann E. The Fisher, Neyman-Pearson theories of testing hypotheses: one theory or two? Journal of the American Statistical Association. 1993;88:

1242-9.

45. Berger J. The frequentist viewpoint and conditioning. In: LeCam L, Olshen R, eds. Proceedings of the Berkeley Conference in Honor of Jerzy Neyman and Jack Kiefer. vol. 1. Belmont, CA: Wadsworth; 1985:15-43.

46. Marks HM. The Progress of Experiment: Science and Therapeutic Reform in the United States, 1900-1990. Cambridge, UK: Cambridge Univ Pr; 1997.

47. Porter TM. Trust In Numbers: The Pursuit of Objectivity in Science and Public Life. Princeton, NJ: Princeton Univ Pr; 1995.

48. Matthews JR. Quantification and the Quest for Medical Certainty. Princeton, NJ: Princeton Univ Pr; 1995.

49. Feinstein AR, Horwitz RI. Problems in the “evidence” of “evidence-based medicine.” Am J Med. 1997;103:529-35.

50. Spodich DH. “Evidence-based medicine”: terminologic lapse or terminologic arrogance? [Letter] Am J Cardiol. 1996;78:608-9.

51. Tonelli MR. The philosophical limits of evidence-based medicine. Acad Med. 1998;73:1234-40.

52. Feinstein AR. Clinical Biostatistics. St. Louis: Mosby; 1977.

53. Mainland D. The significance of “nonsignificance.” Clin Pharmacol Ther. 1963;12:580-6.

54. Morrison DE, Henkel RE. The Significance Test Controversy: A Reader. Chicago: Aldine; 1970.

55. Rothman KJ. Significance questing [Editorial]. Ann Intern Med. 1986;105: 445-7.

56. Rozeboom W. The fallacy of the null hypothesis significance test. Psychol Bull. 1960;57:416-28.

57. Savitz D. Is statistical significance testing useful in interpreting data? Reprod Toxicol. 1993;7:95-100.

58. Chia KS. “Significant-itis”—an obsession with the P-value. Scand J Work Environ Health. 1997;23:152-4.

59. Barnett ML, Mathisen A. Tyranny of the p-value: the conflict between statistical significance and common sense [Editorial]. J Dent Res. 1997;76: 534-6.

60. Bailar JC 3d, Mosteller F. Guidelines for statistical reporting in articles for medical journals. Amplifications and explanations. Ann Intern Med. 1988; 108:266-73.

61. Cox DR. Statistical significance tests. Br J Clin Pharmacol. 1982;14:325-31.

62. Cornfield J. The bayesian outlook and its application. Biometrics. 1969;25: 617-57.

63. Mainland D. Statistical ritual in clinical journals: is there a cure?—I. Br Med J (Clin Res Ed). 1984;288:841-3.

64. Mainland D. Statistical ritual in clinical journals: is there a cure?—II. Br Med J (Clin Res Ed). 1984;288:920-2.

65. Salsburg D. The religion of statistics as practiced in medical journals. American Statistician. 1985;39:220-3.

66. Dar R, Serlin RC, Omer H. Misuse of statistical tests in three decades of psychotherapy research. J Consult Clin Psychol. 1994;62:75-82.

67. Altman D, Bland J. Improving doctors’ understanding of statistics. Journal of the Royal Statistical Society, Series A. 1991;154:223-67.

68. Pocock SJ, Hughes MD, Lee RJ. Statistical problems in the reporting of clinical trials. A survey of three medical journals. N Engl J Med. 1987;317: 426-32.

69. Edwards A. Likelihood. Cambridge, UK: Cambridge Univ Pr; 1972.

70. Skellam J. Models, inference and strategy. Biometrics. 1969;25:457-75.

71. Clarke M, Chalmers I. Discussion sections in reports of controlled trials published in general medical journals: islands in search of continents? JAMA. 1998;280:280-2.

72. Moye´ L. End-point interpretation in clinical trials: the case for discipline. Control Clin Trials. 1999;20:40-9.

73. Fisher LD. Carvedilol and the Food and Drug Administration (FDA) approval process: the FDA paradigm and reflections on hypothesis testing. Control Clin Trials. 1999;20:16-39.

74. Fisher L, Moye´ L. Carvedilol and the Food and Drug Administration (FDA) approval process: an introduction. Control Clin Trials. 1999;20:1-15.

75. Poole C. Beyond the confidence interval. Am J Public Health. 1987;77:195-9.

76. Lang JM, Rothman KJ, Cann CI. That confounded P-value [Editorial]. Epidemiology. 1998;9:7-8.

77. Evans SJ, Mills P, Dawson J. The end of the p value? Br Heart J. 1988;60: 177-80.

78. Feinstein AR. P-values and confidence intervals: two sides of the same unsatisfactory coin. J Clin Epidemiol. 1998;51:355-60.

79. Freedman L. Bayesian statistical methods [Editorial]. BMJ. 1996;313:569-70.

80. Etzioni RD, Kadane JB. Bayesian statistical methods in public health and medicine. Annu Rev Public Health. 1995;16:23-41.

81. Kadane JB. Prime time for Bayes. Control Clin Trials. 1995;16:313-8.

82. Spiegelhalter D, Freedman L, Parmar M. Bayesian approaches to randomized trials. Journal of the Royal Statistical Society, Series A. 1994;157:357-87.

83. Goodman SN, Royall R. Evidence and scientific research. Am J Public Health. 1988;78:1568-74.

84. Barnard G. The use of the likelihood function in statistical practice. In: Proceedings of the Fifth Berkeley Symposium. v 1. Berkeley, CA: Univ of California Pr; 1966:27-40.

85. Wulff HR, Anderson B, Brandenhoff P, Guttler F. What do doctors know about statistics? Stat Med. 1987;6:3-10.

86. Borak J, Veilleux S. Errors of intuitive logic among physicians. Soc Sci Med. 1982;16:1939-47.

87. Concato J, Feinstein AE, Holford TR. The risk of determining risk with multivariable models. Ann Intern Med. 1993;118:201-10.

88. Altman DG, Goodman SN. Transfer of technology from statistical journals to the biomedical literature. Past trends and future predictions. JAMA. 1994; 272:129-32.

89. Hayden G. Biostatistical trends in pediatrics: implications for the future. Pediatrics. 1983;72:84-7.