К научно-доказательной медицинской статистике, часть 2: байесовский фактор

Toward Evidence-Based Medical Statistics. 2: The Bayes Factor

Steven N. Goodman, MD, PhD

Ann Intern Med. 1999;130:1005-1013

В первой из этих двух статей, посвященных научно-доказательной статистике, я описал сложности стандартного франквентистского статистического подхода к выводам: проблемы с использованием р-оценки, как показателя доказательности; внутренней несогласованности комбинированного метода тестирования гипотезы и р-оценки; то, как этот метод подавляет комбинирование экспериментальных результатов с исходной информацией. Здесь я попытаюсь проанализировать настолько не математически, насколько это возможно, байесовский подход к измерению доказательств, и описать информацию с эпидемиологическими неопределенностями, которые воздействуют на все статистические подходы к выводам. Некоторые части этой статьи могут оказаться новыми для клинических исследователей, но большинство из того, что описано, базируется на идеях, которые существуют, по крайней мере, с 1920 года, а в некоторой степени - уже на протяжении нескольких столетий (2).

Альтернатива в виде байесовского фактора.

Байесовский вывод часто описывается как метод демонстрации того, насколько наша убежденность в той или иной гипотезе изменяется под влиянием данных. Вследствие этого многие исследователи рассматривают его как ненаучный. Иными словами они хотят знать, что говорят данные, а не то, каковыми должны быть наши идеи после того, как мы их проанализировали (3). Комментарии подобные тем, что появились в ответ на статью, которая предлагала байесовский анализ исследования GUSTO (4), являются типичными:

«Когда современные байезианцы включают «априорное распределение вероятности истинности гипотезы», они на самом деле создают метафизическую модель изменений воззрений….Результат….не может быть проверен на свою достоверность иначе как указанием на то, что он «кажется» разумным для потребителя…Реальная проблема заключается в том, что ни классическая, ни байезианская статистика не способны предоставить те ответы, которые хотят иметь клиницисты. Проблемы классических методов очевидны – мне бы хотелось, чтобы им была альтернатива…» (5).

Этот комментарий отражает широко распространенное ошибочное мнение, что единственной пользой байесовского подхода является расчет убеждений. Что не учитывается – это то, что байесовские методы могут вместо этого рассматриваться как расчет доказательства. Теорема Байеса имеет два компонента: один суммирует данные, другой представляет собой наши убеждения. Здесь я сфокусируюсь только на том компоненте, который связан с данными в байесовском факторе, в своей простейшей форме также называемым отношением правдоподобия. В теореме Байеса байесовский фактор – это индекс, при помощи которого говорят сами данные, и он отличается от чисто субъективной части уравнения. Он также называется относительными шансами выигрыша и его логарифм иногда обозначается как вес доказательств (6, 7). Различия между доказательством и ошибкой становятся ясными, когда мы признаем, что байесовский фактор (доказательства) – это показатель того, насколько высока вероятность истины (иными словами 1 - вероятность ошибки, и насколько она изменяется за счет наших данных). Уравнение выглядит следующим образом:

Шансы нулевой гипотезы до исследования х байесовский фактор = шансы нулевой гипотезы после проведения исследования,

где байесовский фактор = Prob(данные, принимая нулевую гипотезу) / prob(данные, принимая альтернативную гипотезу), где prob – это вероятность.

Байесовский фактор – это показатель того, насколько хорошо две гипотезы могут предсказать данные. Гипотеза, которая предсказывает наблюдаемые данные лучше – это та из них, которая имеет больше доказательств в свою пользу. В противоположность р-оценке, байесовский фактор имеет хорошие теоретические основания и интерпретацию, которая позволяет использовать его как для статистического вывода, так и для принятия решения. Он включает в себя указание на объективную вероятность, на доказательства и эффективную вероятность и все это в одном, достаточно логичном пакете, который может быть интерпретирован со всех трех перспектив. Например, если байесовский фактор для нулевой гипотезы, по сравнению с альтернативной гипотезой составляет ½, тогда его значение может быть выражено тремя способами:

1.объективная вероятность: наблюдаемые результаты в два раза менее вероятны в случае справедливости нулевой гипотезы, по сравнению с тем, насколько они вероятны в случае справедливости альтернативной.

2.индуктивные доказательства: доказательства, поддерживающие нулевую гипотезу, имеют всего лишь половинную силу по сравнению с поддержкой ими альтернативной гипотезы.

3.субьективная вероятность: шансы нулевой гипотезы по отношению к альтернативной гипотезе после эксперимента составляют половину от того, что они были до эксперимента.

Байесовский фактор во многом отличается от р-оценки. Во-первых, байесовский фактор не является вероятностью сам по себе, а является отношением вероятностей, и он может варьировать от нуля до бесконечности. Он требует две гипотезы, тем самым четко указывая, что если есть доказательства против нулевой гипотезы, должны быть доказательства за альтернативную гипотезу. Во-вторых, байесовский фактор зависит от вероятности только наблюдаемых данных, он не включает в себя не наблюдаемые «долгосрочные» результаты, которые являются частью расчета р-оценки. Таким образом, факторы не связанные с данными, которые могут воздействовать на р-оценку (такие как, почему эксперимент был остановлен), не оказывают никакого воздействия на байесовский фактор (8, 9).

Поскольку мы настолько привыкли мыслить о «доказательствах» и о вероятности «ошибки», как о синонимах, работа с показателем доказательств, который не является вероятностью, может показаться достаточно сложной. Очень полезно было бы думать об этом факторе как об аналоге энергии. Мы знаем, что энергия реальна, но поскольку она напрямую не наблюдаема, мы приходим к выводу о ее существовании в зависимости от того, сколько времени нам требуется для того, чтобы нагреть воду, поднять тяжелую вещь, осветить город или охладить дом; мы начинаем понимать, что означает «много» или «мало» через ее эффекты. Аналогичным образом мы может подойти к байесовскому фактору: он модифицирует  исходные вероятности, и после того как мы видим, насколько байесовский фактор определенного размера меняет наши исходные вероятности, мы начинаем понимать, что представляют собой сильные доказательства, а что - слабые доказательства. Таблица 1 демонстрирует нам, как различные байесовские факторы могут воздействовать на исходные вероятности нулевой гипотезы, такие как 90%, 50% и 25%. Они соответствуют высокому начальному доверию к нулевой гипотезе, равному доверию, и умеренному подозрению, что нулевая гипотеза не является справедливой.

Табл.1 Апостериорная вероятность нулевой гипотезы после обнаружения доказательств с различным уровнем байесовского фактора, как производное априорной вероятности нулевой гипотезы

Сила доказательств

Байсовский фактор

Снижение вероятности нулевой гипотезы

   

От

До не менее, чем

   

%

Слабая

1/5

90

64*

   

50

17

   

25

6

Умеренная

1/10

90

47

   

50

9

   

25

3

Выраженная

1/20

90

31

   

50

5

   

25

2

Сильная

1/100

90

8

   

50

1

   

25

0,3

* - Расчеты выполнялись таким образом: вероятность (prob) 90% соответствует шансам 9, в соответствии с формулой prob/(1-prob). Апостериорные шансы равны = Байсовский фактор х априорные шансы, в данном случае (1/5) х 9=1,8. Вероятность=шансы/(1+шансы), в данном случае 1,8/2,8=0,64

Если кто-то до начала эксперимента убежден в том, что никакого эффекта нет (90% исходная вероятность нулевой гипотезы), байесовский фактор 1/10 приведет к тому, что исследователь передвинется на положение сомневающегося (47% вероятность нулевой гипотезы); но если человек сомневался с самого начала (50% вероятность), тот же самый объем доказательств того, что нулевая гипотеза не является истинной, будет умеренно убедительным (9% вероятность после проведения эксперимента). Байесовский фактор 1/100 является  настолько мощным, что человек переместится от 90% уверенности, что нулевая гипотеза справедлива к тому, что у него будет иметься только 8% уверенность в этом.

По мере того как сила доказательств увеличивается, данные оказываются все более и более способными превратить скептика в сторонника, или предложение в признанную истину. Это означает, что по мере того, как экспериментальные доказательства усиливаются, количество внешних доказательств, которые необходимы для того, чтобы поддержать некое научное утверждение уменьшается. С другой стороны, когда имеется очень небольшой объем внешних доказательств поддерживающих некое утверждение, требуются значительно более серьезные экспериментальные доказательства для того, чтобы их все приняли. Этот феномен может наблюдаться эмпирически, когда медицинская общественность отказывается принимать результаты клинических испытаний, которые противоречат ранее устоявшейся точке зрения (10, 11).

Байесовский фактор и мета-анализ.

Имеются два стороны «доказательных» свойств байесовского фактора. Одна заключается в адекватности его как показателя количественных доказательств (этот вопрос будет обсуждаться в деталях позднее). Другая заключается в том, что он позволяет нам комбинировать доказательства из различных экспериментов достаточно естественным и интуитивным способом. Для того чтобы это понимать, мы должны немножко больше разбираться в теории, на которой основывается байесовский фактор (12-14).

Каждая гипотеза, в рамках которой наблюдаемый фактор не является невозможным, имеет некие доказательства в свою пользу. Сила этих доказательств пропорциональна вероятности того, что имеющиеся данные могут наблюдаться в рамках данной гипотезы, и это называется правдоподобностью гипотезы. Такое использование термина «правдоподобие» не должно смешиваться с его обычным терминологическим значением, которое означает вероятность (12, 13). Математическое правдоподобие имеет значение только тогда, когда две вероятности сравниваются друг с другом для того, чтобы сформировать отношение (отсюда отношение правдоподобия), отношение, которое представляет собой сравнительные доказательства, поддерживающие одну из двух гипотез. Отношение правдоподобия является простейшей формой байесовского фактора.

Гипотеза, которая имеет большие доказательства в свою пользу, имеет максимальное математическое правдоподобие, что означает, что она наилучшим образом предсказывает наблюдаемые данные. Если мы наблюдаем 10% различия между частотой излечения при использовании двух методов лечения, гипотеза с максимальным правдоподобием будет заключаться в том, что истинные различия составляют 10%. Иными словами вне зависимости от того, какие эффекты мы измеряем, наилучшим образом поддерживаемая гипотеза – это всегда неизвестный истинный эффект, который равен наблюдаемому эффекту. Даже когда истинные различия 10% имеют большую поддержку, чем любые другие гипотезы, 10% наблюдаемые различия также дают некоторую поддержку истинным различиям в 15%, однако немножко меньше, чем максимальные различия (см. рисунок).


Рис. Расчет байесовского фактора (отношения правдоподобия) для нулевой гипотезы в сравнении с двумя другими гипотезами – наиболее вероятной альтернативной гипотезой (эффект воздействия D=10%) и альтернативной гипотезой, которая имеет меньшую поддержку в полученных данных (эффект воздействия D=15%). Правдоподобие нулевой гипотезы (L0), деленное на правдоподобие наиболее вероятной альтернативной гипотезы (L10%) и является минимальным отношением правдоподобия или минимальным байесовским фактором, который дает наибольшие свидетельства против нулевой гипотезы. Соответствующее отношение для гипотезы D=15% дает большую величину, предполагая, что доказательства против нулевой гипотезы слабее. (Probability – вероятность, Difference in cure rate – различия в частоте излечимости, Observed difference – наблюдаемые различия, Minimum Bayes Factor – минимальный байесовский фактор, Nonminimum Bayes factor – не минимальный байсовский фактор)

Идея, что каждый эксперимент предоставляет определенное количество доказательств каждой из возможных гипотез, и является тем, что делает мета-анализ при применении байесовской парадигмы достаточно простым и концептуально различным, отличающимся оттого, что проводится при использовании стандартных методов. Исследователь просто комбинирует доказательства, которые предоставляются каждым экспериментом для каждой гипотезы. Используя логарифмы байесовского фактора или логарифмы вероятности, эти доказательства могут просто суммироваться (15 – 17).

Используя стандартные методы, количественный мета - анализ состоит в том, что мы берем взвешенное среднее наблюдаемых эффектов, а вес связан с точностью. Например, если одни эксперимент обнаруживает 10% различия, а другой обнаруживает 20% различия, мы подсчитываем среднее из цифр 10% и 20%, рассчитываем суммарную стандартную ошибку и подсчитываем новую р-оценку, базируясь на среднем эффекте и суммарной стандартной ошибке. Суммарные доказательства (р-оценки) мета - аналитического среднего значения имеют крайне малую связь с р-оценкой для индивидуальных эффектов, и усреднение цифр 10% и 20% скрывает тот факт, что оба эксперимента давали доказательства для одной и той же гипотезы, такой как истинные 15% различия. Хотя может быть отмечено, что 15% различия попадают внутрь интервала обоих экспериментов, с этим фактором мало, что можно сделать количественно или концептуально. Поэтому пока мета - аналитики говорят, что они комбинируют доказательства из одинаковых исследований, стандартные методы не измеряют доказательства, которые комбинируются напрямую.

О байесовских факторах и р-оценке.

Если бы мы хотели уйти от р-оценок к байесовскому фактору, было бы крайне полезным иметь некий «обменный курс» между новыми единицами измерения и старыми единицами измерения. С некоторыми допущениями мы можем установить подобную связь. Во-первых, для того чтобы сравнивать одинаковое с одинаковым, мы должны рассчитывать байесовский фактор для тех же гипотез, для которых рассчитывалась р-оценка. Р-оценка всегда рассчитывается с использованием наблюдаемых различий, поэтому мы должны рассчитывать байесовский фактор для гипотезы, соответствующей наблюдаемым различиям, которая как мы уже показали ранее, и является наилучшим образом поддерживаемой гипотезой. Во-вторых, поскольку р-оценка меньших размеров означает меньшую поддержку нулевой гипотезы (или больше доказательств против нее), мы должны структурировать байесовский фактор таким образом, чтобы меньших размеров байесовский фактор всегда бы означал меньшую поддержку нулевой гипотезы. Это означает, что мы должны поместить правдоподобие нулевой гипотезы в числитель, а правдоподобие альтернативной гипотезы – в знаменатель (На самом деле то, где находится правдоподобие нулевой гипотезы - наверху или внизу, зависит только от контекста использования байесовского факторы). Если мы разместим доказательства для наилучшим образом поддерживаемой гипотезы в знаменатель, то тогда результирующее отношение будет наименьше возможным байесовским фактором по отношению к нулевой гипотезе. Это обратное значение максимального отношения правдоподобия также называется стандартизованным правдоподобием. Байесовский фактор или минимальное отношение правдоподобия является наименьшим количеством доказательств, которое можно получить для нулевой гипотезы, или самыми сильными доказательствами против нее на основании имеющихся данных. Эта прекрасная оценка, при помощи которой мы можем сравнивать наш фактор с р-оценкой.

Простейшие взаимоотношения между р-оценкой и байесовским фактором существуют, когда статистический тест базируется на гауссовой аппроксимации, что является справедливым для большинства статистических процедур, публикуемых в медицинских журналах. В этой ситуации минимальный байесовский фактор (минимальное отношение правдоподобия) рассчитывается на основании тех же самых чисел, которые используются для расчета р-оценки (13, 18, 19). Формула выглядит следующим образом (смотри приложение 1 для ее вывода):

Минимальный байесовский фактор = e-Z**2 /2 , где Z – это количество стандартных отклонений от нулевого эффекта (** - знак возведения в степень). Эта формула также может использоваться, если применялся t-тест (в этой ситуации необходимо вместо Z поставить t) или тест c2 (в этой ситуации вместо Z2 надо будет подставить c2). Данные рассматриваются, как будто они были получены из эксперимента с фиксированным объемом выборки.

Данная формула позволяет нам установить курс обмена между минимальным байесовским фактором и р-оценкой в случае гауссового распределения. Таблица 2 демонстрирует минимальный байесовский фактор и стандартные р-оценки для любой Z-оценки. Например, когда результат составляет 1,96 стандартных ошибок нулевого значения (т.е. р = 0,05), нулевой байесовский фактор составляет 0,15, сообщая, что нулевая гипотеза имеет всего лишь 15% поддержки по сравнению с наиболее вероятной альтернативной гипотезой. Это в три раза выше, чем значение р-оценки 0,05, указывая, что доказательства против нулевой гипотезы не настолько сильны, как предполагается по значению «р = 0,05»

Табл. 2 Взаимоотношения между р-оценкой и минимальным байесовским фактором, а также эффектом подобных доказательств для вероятности нулевой гипотезы

Р-оценка (значение Z)

Минимальный байесовский фактор

Снижение вероятности нулевой гипотезы, %

Сила доказательств

   

От

До не менее, чем

 

0,10 (1,64)

0,26 (1/3,8)

75

44

Слабые

   

50

21

 
   

17

5

 

0,05 (1,96)

0,15 (1/6,8)

75

31

Умеренные

   

50

13

 
   

26

5

 

0,03 (2,17)

0,095 (1/11)

75

22

Умеренные

   

50

9

 
   

33

5

 

0,01 (2,58)

0,036 (1/28)

75

10

Выраженные

   

50

3,5

 
   

60

5

 

0,001 (3,28)

0,005 (1/216)

75

1

Сильные

   

50

0,5

 
   

92

5

 

Даже когда исследователи описывают свои результаты, используя р-оценку, равную 0,05, как имеющую пограничную значимость, число «0,05» говорит громче, чем слова, и большинство читателей интерпретируют доказательства, как значительно более мощные, чем они являются на самом деле. Эти расчеты показывают, что р-оценка 0,05 (соответствующая минимальному байесовскому фактору 0, 15), представляет, в лучшем случае, умеренные доказательства против нулевой гипотезы; значения, находящиеся в пределах от 0,001 до 0,01 представляют, в лучшем случае, от умеренных до сильных свидетельств, а значения меньше 0,001 представляют сильные и очень сильные доказательства. Когда р-оценка становится крайне маленькой, различия между ней и минимальным байесовским фактором становятся крайне незначительными, подтверждая что имеются строгие доказательства, которые выглядят строгими вне зависимости от того, как они измеряются.

Правая сторона таблицы 2 использует взаимоотношения между р-оценкой и байесовским фактором для того, чтобы продемонстрировать максимальный эффект, который результаты с различными р-оценками, могли бы оказать на признание правдоподобности нулевой гипотезы. Если кто-то начинает с того, что вероятность отсутствия эффекта составляет 50% , результат с минимальным  байесовским фактором 0,15, который соответствует р-оценке 0,05, может уменьшить уверенность в нулевой гипотезе не ниже чем до 13%. Последний столбец в каждой строке переворачивает эти расчеты, демонстрируя насколько низкой должна быть первоначальная уверенность в нулевой гипотезе для того, чтобы она достигла 5% уровня после того, как мы посмотрели данные, т.е. 95% уверенность не в нулевом эффекте. Когда р-оценка равняется 0, 05 (байесовский фактор более или равен 0,15) первоначальная уверенность в справедливости нулевой гипотезы должна быть 26% или ниже для того, чтобы можно было придти к выводу о том, что нулевая гипотеза является ложной с 95% уверенностью. Эти расчеты не означают святости числа 95% в байезианском подходе, а скорее демонстрирует, что происходит, когда используются одинаковые показатели в двух подходах.

Эти таблицы демонстрируют нам то, что многие исследователи учат на собственном горьком опыте, и что многие статистики знали уже давно: вес доказательств против нулевой гипотезы не настолько силен, как предполагает р-оценка. Это основная причина, почему байесовские анализы клинических испытаний приходят к выводу о том, что наблюдаемые различия вряд ли справедливы (4, 20, 21). Они приходят к этому выводу не всегда, поскольку имеются противоречащие предварительные данные, которые перевешивают доказательства, полученные в данном исследовании, в связи с тем, что доказательства, полученные в исследовании (если их измерять адекватным образом) не являются очень мощными. Они также предоставляют подтверждение точке зрения многих опытных аналитиков, которые давно предполагали, что пограничным значением значимости в мета-анализе должны быть результаты, которые отклоняются более чем на две (а не просто две) стандартных ошибки от нулевого эффекта (22, 23).

Теория, на которой базируются эти идеи, имеет длинную историю. Edwards (2), отслеживает концепцию математического правдоподобия с восемнадцатого века, хотя название и полное теоретическое описание правдоподобия не появлялось до 1920 года, когда концепция была разработана как часть теории максимального правдоподобия Р.А. Фишера.  Это была фреквентистская теория, и Фишер не признавал ценности использования правдоподобия для статистического анализа, пока не прошло достаточно много лет (24 года). Edwards (14) и Royall (13) изучали использование методов измерения доказательств, базирующихся на правдоподобии, в рамках байезианской парадигмы. В байезианских кругах Jeffrеys (25) и Good (6) были среди первых, кто разработал теорию байесовского фактора, а наиболее полное описание было выполнено Kass (26). Существует предположение, что минимальный байесовский фактор (или минимальное отношение правдоподобия) как индекс для публикаций, появился в медицинской литературе, как минимум, в 1963 году (19). Те ситуации, в которых байесовский фактор отличается от отношения правдоподобия, обсуждаются в следующих разделах.

Байесовский фактор для композитных гипотез.

Расчетный байесовский фактор может быть больше, чем минимальные значения, упомянутые в предыдущих разделах (20, 25-27). Это технически достаточно сложная область, но чрезвычайно важно понимать, по крайней мере, качественно, как эти «неминимальные» байесовские факторы рассчитывают и чем они отличаются от простых отношений правдоподобия.

Определение байесовского фактора – это вероятность наблюдаемых данных в рамках одной гипотезы, деленное на вероятность этих данных в рамках другой гипотезы. Обычно одна гипотеза – это нулевая гипотеза о том, что нет никаких различий. Другая гипотеза может быть описана большим количеством разных способов, таких как «частота излечения различается на 15%». Это называется простой гипотезой, поскольку различия (15%) указаны достаточно точно. Нулевая гипотеза, и наилучшим образом поддерживаемая гипотеза, являются простыми гипотезами.

Ситуация осложняется, когда мы описываем альтернативную гипотезу таким образом, каким она описывается обычно: например, «истинные различия не равны нулю» или «лечение является эффективным». Такая гипотеза называется композитной, поскольку она состоит из большого количества простых гипотез (истинное различие 1%, 2%, 3%…..,). Это приводит к появлению проблемы, когда мы хотим подсчитать байесовский фактор, поскольку она требует расчета вероятности всех этих данных в рамках гипотезы (истинные различия 1%, 2%, 3%…..,). Иными словами, это как раз та ситуация, когда байесовский фактор отличается от отношения правдоподобия. Последняя ситуация в основном ограничивается сравнением простых гипотез, но байесовский фактор, используя механизм байесовской теоремы, позволяет измерять доказательства для композитной гипотезы.

Байесовская теорема для композитных гипотез включает в себя расчет вероятностей данных при условии справедливости каждой из простых гипотез (различие =1%, различие =2%, и так далее) и затем расчета среднего значения. Беря среднее значение, мы можем взвешивать эти компоненты различным образом. Байесовская теорема говорит нам, как использовать веса, которые были определены априорной кривой вероятностей. Априорная кривая вероятностей представляет собой вероятность каждой возможной гипотезы, сформулированной на основании данных из разных источников, кроме нынешнего исследования. Однако, поскольку исходные вероятности между разными индивидуумами могут различаться, различные байесовские факторы могут быть рассчитаны из одних и тех же данных.

Разные вопросы, разные ответы.

Может показаться, что тот факт, что одни и те же данные могут приводить к различным байесовским факторам, подвергает сомнению первоначальное заявление, что байесовские методы предлагают объективный способ измерения результатов. Но более детальное исследование этого вопроса показывает, что данный факт является, на самом деле, всего лишь суррогатом более серьезной проблемы того, как приходить к научным выводам на основании имеющихся данных. Применение различных весов к гипотезам, которые создают композитную гипотезу, не означает, что различные ответы создаются для одних и тех же доказательных вопросов. Это означает, что задаются разные вопросы. Например, если мы возьмем один крайний пример и поместим все веса на эффективность лечения около 5%, вопрос по поводу доказательств не нулевого эффекта от лечения становится вопросом по поводу доказательств 5% различий. Равное взвешивание всех гипотез между 5% и 20% будет предоставлять информацию о средних доказательствах по поводу различий данного диапазона. Полученный ответ будет отличаться от средних доказательств для гипотез о том, что эффект заключен между 1% и 25%, несмотря на то, что все эти различия являются ненулевыми.

Таким образом, проблема идентификации уникального байесовского фактора (и поэтому уникальной силы доказательств) связана не с байезианским подходом, а с неопределенностью тех вопросов, которые мы задаем. Вопрос: «Каковы доказательства не нулевых различий?» слишком расплывчат, одно простое ненулевое различие не существует. Имеется много ненулевых различий и наши исходные знания обычно не достаточно детальны для того, чтобы точно определить априорную вероятность. В практических терминах это означает, что мы обычно не знаем точно, насколько велики различия и «работает» ли наше вмешательство вообще. Мы можем сделать некие предположения, но эти предположения также достаточно расплывчаты, и они могут различаться у разных индивидуумов на основании той информации, которую они привносят с собой для анализа этой проблемы, или различных весов, которые они прилагают к общей информации. Если бы мы могли сформулировать общепринятые причины, которые бы обосновывали одно значение для изучаемой истины, эти причины могли бы создать нам некую форму объяснения. Таким образом, наиболее фундаментальный статистический вопрос – какова сила доказательств? – связан с фундаментальным и наиболее неопределенным научным вопросом – как мы объясняем то, что мы наблюдаем?

Эта фундаментальная проблема - как интерпретировать и обучаться на данных, несмотря на наши недостатки - преследует все чисто технические подходы к проблеме количественного анализа. Эти подходы варьируют от ухода от проблемы путем рассматривания агрегированных результатов (как тестирование гипотезы), до предположений, которые оставляют исходную информацию не идентифицированной (фишеровская идея р-оценок), или представляют внешние знания как идеализированный, неполноценный путь (байевовские методы).

Предполагаемые решения.

Признавая необходимость практичного измерителя доказательств даже в тех случая, когда исходные данные неполны, байезианские статистики предложили большое количество разных подходов. По всей вероятности самым простым является выполнить анализ чувствительности. Иными словами, привести байесовские факторы для некоего диапазона априорных распределений, соответствующим отношениям энтузиастов и скептиков (28-29). Другое решение, достаточно тесно связанное с первым – это опубликовать наименьший байесовский фактор для широкого класса априорных распределений (30), который может иметь однозначные взаимоотношения с р-оценкой, также как и минимальный байесовский фактор в случае гауссового распределения (31). Иным подходом является использование априорных распределений, которые дают равный вес каждой из простых гипотез, из которых состоит композитная гипотеза (25, 26, 32), что позволяет самим данным говорить за себя с минимальным эффектом исходного распределения. Один из подобных индексов - байесовский информационный критерий, за который выступает Kass(26), тесно связан с минимальным байесовским фактором и с модификацией на размер выборки. Ну и, наконец, имеются подходы, описанные здесь – не усреднять все, а сообщить наиболее сильный байесовский фактор против нулевой гипотезы.

За пределами нулевой гипотезы.

Многие статистики и ученые обнаружили, что тестирование гипотезы об эквивалентности (нулевой гипотезы) является достаточно искусственным, поскольку она будет справедливой с крайне малой степенью вероятности, и поскольку другие научные вопросы могут быть значительно более интересными. Байесовский подход дает нам гибкость в расширении границ наших вопросов до, например, следующих вопросов: «Каковы доказательства того, что лечение вредное?» вместо того, чтобы прозвучал вопрос: «Каковы доказательства того, что лечение не оказывает никакого эффекта?» Подобные вопросы имеют различные ответы, поскольку вопрос по поводу вреда включает все различия от лечения, которые не являются положительными. Это изменяет нулевую гипотезу от простой гипотезы (различия равны нулю) в композитную гипотезу (различия ноль или меньше). Когда это делается в определенных условиях, односторонняя р-оценка может оказаться разумным приближением для байесовского фактора (33, 34). Иными словами, если мы обнаруживаем одностороннюю р-оценку равную 0,03, и считаем, что все степени вреда имеют такую же вероятность, как и все степени положительных результатов, то байесовский фактор сравнения вреда лечения с его пользой составляет примерно 0,03. Минимальный байесовский фактор для отсутствия эффекта по сравнению с положительным эффектом, будет составлять 0,095 (таблица 2).

Объективность минимального байесовского фактора.

Минимальный байесовский фактор – это уникальная функция данных, которая, по крайней мере, также объективна, как и р-оценка. На самом деле она более объективна, поскольку она не находится под воздействием результатов «долгосрочных перспектив», которые могут сделать р-оценку неопределенной. В первой статье (1) я представил пример, в котором на основании одних и тех же данных были рассчитаны две различные р-оценки, разные результаты р-оценок получились за счет того, что использовались различные подходы к модели долгосрочной перспективы, которых придерживались два исследователя. Минимальный байесовский фактор будет 0,23 вне зависимости от того, какой подход использовался учеными (приложение 2). Это снова нам демонстрирует, насколько р-оценка может переоценить данные, но что более важно, она поддерживает нашу интуицию в том, что идентичные данные должны давать идентичные доказательства.

Этот пример чрезвычайно важен для понимания двух проблем, которые преследуют фреквентистские выводы: множественные сравнения и множественные просмотры, или как они чаще называются, «просеивания данных» или «поклевывания данных». Фреквентистское решение обоих проблем  заключается в том, что мы корректируем р-оценку в связи с тем, что мы просматриваем наши данные более одного раза, или многими различными способами. Такая корректировка показателей, связана с особенностями нашего анализа, а не с характеристиками самих данных, и она нарушает наше представление о научном мышлении (8, 35 –41). Она также опровергает утверждения об «объективности», которые часто делаются для р-оценки, и приводит к нежелательной ригидности стандартного дизайна клинических испытаний. С байезианской перспективы эти проблемы и их решение рассматриваются иным образом: они вызываются не по причине того, что эксперимент был остановлен, а неопределенностью наших исходных данных. Практический результат заключается в том, что экспериментальный дизайн и анализ становятся значительно более гибкими при использовании байесовского, а не стандартного подхода (42).

Внешние доказательства.

Априорные распределения вероятности, байесовский способ представления исходных знаний, иногда обвиняются в том, что они представляют собой субъективную точку зрения, но в идеале эта точка зрения должна базироваться на доказательствах. Большое количество используемых доказательств, которые могут включать все факторы, обычно представленные в разделах обсуждения, формально не интегрируются с количественными результатами. Для исследователя не является необходимым знать все эти доказательства перед тем, как он начинает эксперимент. Эти доказательства могут включать следующее:

  1. результаты аналогичного исследования;
  2. эксперименты, которые изучают взаимосвязь с подобными же механизмами;
  3. лабораторные эксперименты, которые изучают напрямую механизмы предполагаемых связей;
  4. феномены, которые были видны в других экспериментах и могли бы быть объяснены этим предполагаемым механизмом;
  5. промежуточные или суррогатные конечные точки в нынешнем эксперименте, которые сопоставимы с предполагаемым механизмом;
  6. клинические знания, которые базируются на других пациентах с тем же самым заболеванием, или на других вмешательствах с тем же самым предполагаемым механизмом.

Только первый из этих типов свидетельств может включать в себя простые сравнения, или суммирование результатов, аналогично тому, как это делается в мета-анализе. Все остальные включают некоторую форму экстраполяции, которая базируется на изучении причинно-следственных связей. При использовании байесовского фактора становиться понятным, что необходимо сделать для того, чтобы придти к неким выводам на основании статистических доказательств.

Использование байесовского фактора.

Мы теперь будем использовать два утверждения из раздела «Результаты» гипотетических публикаций для того, чтобы продемонстрировать минимальный байесовский фактор, и то, как он может использоваться для того, чтобы публиковать и интерпретировать данные.

Гипотетические результаты 1.

Различия в частоте улучшения течения мигрени между группами, получающими лечение травами, и группой плацебо (54% по сравнению с 40% [ДИ равен –2% - 30%]) не были значимы (р = 0,09).

Байесовская интерпретация данных 1: р-значение равное 0,09 (Z = 1,7) для различий в частоте улучшения течения мигрени соответствует минимальному байесовскому фактору равному е -1.7**2/2.  = ¼ в пользу нулевой гипотезы. Это означает, что эти данные уменьшают шансы нулевой гипотезы максимум в 4 раза, весьма умеренные доказательства эффективности терапии. Для того, чтобы исходные данные могли привести к тому, чтобы вероятность нулевой гипотезы, в конце концов, упала бы до уровня 5% или ниже, внешние доказательства, должны были бы указывать на то, что априорная вероятность эквивалентности новой терапии и плацебо была бы менее 17%, однако поскольку не было представлено никакого механизма, объясняющего действия данного травяного средства лечения мигрени, и все предыдущие сообщения состояли из описаний отдельных больных и поэтому априорная поддержка достаточно слаба, и она не позволяет нам использовать априорные вероятности, которые бы были меньше 50%. Таким образом, доказательства из этого исследования не достаточны для того, чтобы придти к выводу о том, что предполагаемое лекарственное средство является эффективным.

Байесовская интерпретация данных 2: ….. Для того чтобы эти данные привели к тому, чтобы вероятность нулевой гипотезы упала бы меньше уровня 5%, внешние доказательства, поддерживающие эквивалентность, должны демонстрировать, что априорная вероятность того, что новое лекарство эквивалентно плацебо, меньше 17%. Однако активное действующее вещество в этом лекарственном веществе принадлежит к тому же классу средств, для которых есть четкие доказательства эффективность при лечении мигрени. Этот препарат уже имел аналогичный вазоактивный эффект как на модели животных, так и в преклинических исследованиях на людях. Все три неконтролируемых испытания указали, что имеется улучшение состояния, аналогичное тому, что было обнаружено в данном исследовании (50% - 60%) и первое небольшое рандомизированное испытание этого вещества продемонстрировало значительный эффект (60% по сравнению с 32%, р = 0,01). Биологический механизм и наблюдаемые эмпирические доказательства, как нам кажется, позволяют предположить, что вероятность неэффективности равняется 15% - 25%, и что с нынешними данными она снижается до 4% - 8%. Таким образом, доказательства в этом исследовании в сочетании с предшествующими данными, достаточно сильны для того, чтобы привести нас к заключению, что данный новый препарат является эффективным для лечения мигрени.

Гипотетический пример 2.

Среди 50 результатов, которые были проанализированы на наличие связи возникновения рака с переливанием крови, было отмечено повышение вероятности только рака носоглотки (относительный риск 3.0; р = 0,01).

Байесовская интерпретация данных: минимальный байесовский фактор для относительного риска 1.0 по сравнению с относительным риском не равным 1.0, для рака носоглотки составляет 0,036. Это достаточно серьезное доказательство для того, чтобы уменьшить вероятность нулевой гипотезы от априорного уровня примерно в 59% до 5%. Однако не имеется никаких предшествующих доказательств того, что подобная связь существует, и не существует никакого биологического механизма, который позволил бы объяснить эту связь. Кроме того, частота новообразований с аналогичным профилем факторов риска и аналогичными молекулярными механизмами не увеличивалась, что означает, что переливания крови должны были бы привести к своему эффекту при помощи механизмов, которые отличаются от описанных для других форм рака. Предшествующие исследования переливания крови не обнаружили аналогичные взаимосвязи, и не было сообщений об увеличенной частоте рака носоглотки среди популяции, которая часто получает переливание крови. Поэтому априорные данные предполагают, что вероятность нулевой гипотезы значительно больше, чем 60%. Минимальный байесовский фактор 0,036 означает, что результат может снизить 85% априорную вероятность до уровня 17%, 95% априорную вероятность до уровня 41%. Поэтому необходимы дополнительные доказательства кроме тех, что были представлены в этом исследовании для того, чтобы придти к выводу о том, что переливание крови увеличивает риск рака носоглотки. С другой стороны, будущие исследования должны обратить внимание на эти связи  и проанализировать их потенциальные механизмы.

Обсуждение.

Приведенные выше примеры даже и близко не описывают полные возможности байесовской интерпретации, которые могут базироваться на большом диапазоне априорных распределений для того, чтобы определить целый диапазон байесовских факторов, а также могут использовать априорные оценки, которые были получены от экспертов (29, 43, 44). Эти сценарии, однако, иллюстрируют несколько чрезвычайно важных фактов. Во-первых, эти показатели доказательств могут обычно легко рассчитываться на основе той же самой информации, которая используется для расчетов р-оценки или доверительных интервалов, и поэтому они могут быть использованы без необходимости применять специализированное программное обеспечение, или проходить значительное обучение в области статистики. Некоторая экспертиза требуется для того, чтобы удостовериться, что гауссовская аппроксимация работает в конкретной ситуации. Когда она не работает, существует большое количество стандартных программных пакетов, которые предоставляют  расчет точного правдоподобия (обычно их логарифмов) из которых не очень сложным для статистика является подсчитать байесовский фактор. Независимость от априорных вероятностей также позволяет справиться с замешательством многих исследователей, которые не хотят отказываться от метода, который они рассматривают как объективное статистическое суммирование.

Что является более важным - эти примеры демонстрируют, как данный индекс может помочь разделить статистические доказательства и выводы, в то же время оставаясь частью алгебры, которая формально их связывает. Первый пример показывает, как одни и те же количественные результаты могут быть включены в процесс обсуждения, который приводит к различным выводам. Ясность этот процесса способствует дебатам о силе поддерживающих доказательств. Как описано в первой статье, стандартные методы, наоборот, противоречат дебатам, поскольку они не предлагают никакого способа для комбинации имеющихся доказательств с р-оценками, или доверительными интервалами. Эти примеры демонстрируют, как минимальный байесовский фактор позволяет выполнять простой байесовский анализ без формального изучения априорного распределения вероятностей. Необходимо только указать, что априорная вероятность нулевой гипотезы находится выше или ниже некоего пограничного значения, на основании доказательств, которые были получены за пределами данного исследования. Если самые сильные доказательства против нулевой гипотезы (минимальный байесовский фактор) недостаточны для того, чтобы оправдать некий вывод, то тогда более слабые доказательства, полученные от байесовского фактора, в рамках полного байесовского анализа, также не изменят этого убеждения.

Использование минимального байесовского фактора не мешает формальному байесовскому анализу и даже может являться исходной точкой для его проведения. Недавние обзоры и книги описывают, как можно проводить и как публиковать полный байесовский анализ (21, 29, 45-50). Байесовские результаты могут быть применены и для формального анализа принятия решений (51). Доступность достаточно простого программного обеспечения для байесовских расчетов (52) делает применение этих методов сейчас более практичным, нежели в прошлом.

Если не используется расчет априорных вероятностей, минимальный байесовский фактор представляет собой компромисс между байесовской и фреквентистской перспективой, которая может критиковаться из обоих лагерей. Некоторые статистики могут указать на то, что минимальный байесовский фактор является ни чем иным как р-оценкой с новой меткой. Но как я пытался продемонстрировать, р-оценки и байесовские факторы это не только цифры, и переход к байесовским факторам любого вида освобождает нас от ошибочной концепции и неправильного взгляда на научные методы, которые привязаны к р-оценке.

Выводы: Обе перспективы необходимы, но р-оценки – нет.

Стандартные фреквентистские методы являются наиболее проблематичными, когда они используются для того, чтобы придти к неким выводам на основе одного единственного эксперимента. Их отказ от формальной роли внешней информации при статистическом выводе является серьезной практической и логической проблемой. Но байесовские методы, которые были разработаны для индуктивного вывода в одном единственном эксперименте, не гарантируют нам то, что в долгосрочной перспективе выводы, в которых мы имели 95% уверенность, окажутся справедливыми в 95% всех случаев (53). Это связано с тем, что байесовские априорные распределения вероятности не идеальные количественные описания того, что мы знаем (или того, что мы не знаем) (54, 55) и байесовская теорема является неадекватной моделью человеческого обучения (54-56). Это означает, что фреквентистская «долгосрочная» перспектива не может полностью игнорироваться, что приводит многих статистиков к подчеркиванию важности использования фреквентистских критериев в оценке байесовских методов и методов правдоподобия (6, 13, 32, 53), и что эти методы обычно делают достаточно хорошо.

В конце концов, мы должны признать, что не существует автоматического метода в статистике (как не существует его и в жизни), который бы позволил нам оценивать как индивидуальные ситуации, так и точно знать, каковы будут долгосрочные последствия этой оценки. Взаимосвязь между выводами в индивидуальном эксперименте и цифрами ошибок, которые мы делаем на протяжении времени, не существуют в р-оценке, или при тестировании гипотез. Она обнаруживается только при адекватной оценке силы доказательств и в эксперименте, который проводится при помощи байесовских факторов, тогда, когда эта информация объединяется со всей другой научной информацией, связанной с анализируемым вопросом. Нет формулы для выполнения этого синтеза, так же как нет формулы для того, чтобы присвоить ему уникальную цифру, иными словами здесь как раз находится место для научной дискуссии.

Сэр Френсис Бекон (Francis Bacоn) писатель и философ, который был одним из первых индуктивистов, прокомментировал два отношения, при помощи которых можно подходить к природе. Его комментарии были следующими: «Если мы начинаем с уверенности, мы заканчиваем сомнениями; но если мы начинаем с сомнениями и постоянно с ними работаем, мы заканчиваем уверенностью» (57). Если убрать р-оценку, байесовские и фреквентистские подходы могут дополнить друг друга необходимой перспективой. Путь, при помощи которого мы будем балансировать их иногда конфликтующие результаты, делает процесс нашего обучения благодаря тому, что происходит в природе творческим, интересным, неопределенным и человечным.

Приложение 1.

Вывод минимального байесовского фактора в случае гауссового распределения. Правдоподобие гипотезы при условии наблюдаемого эффекта х, пропорционально вероятности х в рамках этой гипотезы. Для гауссового распределения гипотеза обычно включает рассмотрение средних. Вероятность х в рамках гауссового распределения с истинным средним значением, равным m, стандартной ошибкой s составляет ( символ | читается как, «при условии»):


Поскольку экспонента отрицательна, указанная выше вероятность максимизируется, когда экспонента равняется нулю, что возникает в той ситуации, когда m = х (иными словами, когда истинное среднее m равняется наблюдаемому эффекту х). Отношение правдоподобия для нулевой гипотезы (m = 0) против максимально поддерживаемой гипотезы (m = х) и определяется как минимальный байесовский фактор:


Поскольку Z-статистика  - это наблюдаемый эффект, деленный на свою стандартную ошибку s, мы можем окончательно переписать это уравнение следующим образом:


Приложение 2.

В примере, приведенном в первой статье, анализировались два лечения, названные А и В, которые сравнивались у одних и тех же пациентов и из этих двух методов лечения, определялся наиболее эффективным метод. Два исследователя имели различные подходы к проведению экспериментов: один запланировал исследование для всех шести пациентов, то время как другой запланировал остановить исследование, как только появится пациент, у которого лечение В окажется более эффективным. У первых пяти пациентов более эффективным оказалось лечение А, а у шестого – лечение В. Вероятность данных в рамках этих двух гипотез составляет:

Нулевая гипотеза: вероятность того, что лечение А является более эффективным = 1/2 

Альтернативная гипотеза: вероятность того, что лечение А является эффективным = 5/6

В случае эксперимента «n =6» это отношение составляет:


 


«6» появляется поскольку эффект от лечения В мог наблюдаться у любого из первых пяти пациентов,или у шестого пациента без изменения наших выводов. В ситуации «остановиться, при проявлении первого пациента с более эффективным лечением В», отношение становиться равным:


 


Литература.

1. Goodman SN. Toward evidence-based medical statistics. 1: The P value fallacy. Ann Intern Med. 1999;130:995-1004.

2. Edwards A. A History of Likelihood. International Statistical Review. 1974; 42:9-15.

3. Fisher LD. Comments on Bayesian and frequentist analysis and interpretation of clinical trials. Control Clin Trials. 1996;17:423-34.

4. Brophy JM, Joseph L. Placing trials in context using Bayesian analysis. GUSTO revisited by Reverend Bayes. JAMA. 1995;273:871-5.

5. Browne RH. Bayesian analysis and the GUSTO trial. Global Utilization of Streptokinase and Tissue Plasminogen Activator in Occluded Coronary Arteries [Letter]. JAMA. 1995;274:873.

6. Good I. Probability and the Weighing of Evidence. New York: Charles Griffin; 1950.

7. Cornfield J. The Bayesian outlook and its application. Biometrics. 1969;25: 617-57.

8. Berger JO, Berry DA. Statistical analysis and the illusion of objectivity. American Scientist. 1988;76:159-65.

9. Berry D. Interim analyses in clinical trials: classical vs. Bayesian approaches. Stat Med. 1985;4:521-6.

10. Belanger D, Moore M, Tannock I. How American oncologists treat breast cancer: an assessment of the influence of clinical trials. J Clin Oncol. 1991;9:7-16.

11. Omoigui NA, Silver MJ, Rybicki LA, Rosenthal M, Berdan LG, Pieper K, et al. Influence of a randomized clinical trial on practice by participating investigators: lessons from the Coronary Angioplasty Versus Excisional Atherectomy Trial (CAVEAT). CAVEAT I and II Investigators. J Am Coll Cardiol. 1998;31:265-72.

12. Goodman SN, Royall R. Evidence and scientific research. Am J Public Health. 1988;78:1568-74.

13. Royall R. Statistical Evidence: A Likelihood Primer. Monographs on Statistics and Applied Probability, #71. London: Chapman and Hall; 1997.

14. Edwards A. Likelihood. Cambridge, UK: Cambridge Univ Pr; 1972.

15. Goodman SN. Meta-analysis and evidence. Control Clin Trials. 1989;10:188- 204, 435.

16. Efron B. Empirical Bayes methods for combining likelihoods. Journal of the American Statistical Association. 1996;91:538-50.

17. Hardy RJ, Thompson SG. A likelihood approach to meta-analysis with random effects. Stat Med. 1996;15:619-29.

18. Berger J. Statistical Decision Theory and Bayesian Analysis. New York: Springer- Verlag; 1985.

19. Edwards W, Lindman H, Savage L. Bayesian statistical inference for psychological research. Psychol Rev. 1963;70:193-242.

20. Diamond GA, Forrester JS. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med. 1983;98:385-94.

21. Lilford R, Braunholtz D. The statistical basis of public policy: a paradigm shift is overdue. BMJ. 1996;313:603-7.

22. Peto R. Why do we need systematic overviews of randomized trials? Stat Med. 1987;6:233-44.

23. Pogue J, Yusuf S. Overcoming the limitations of current meta-analysis of randomised controlled trials. Lancet. 1998;351:47-52.

24. Fisher R. Statistical Methods and Scientific Inference. 3d ed. New York: Macmillan; 1973.

25. Jeffreys H. Theory of Probability. 2d ed. Oxford: Oxford Univ Pr; 1961.

26. Kass R, Raftery A. Bayes Factors. Journal of the American Statistical Association. 1995;90:773-95.

27. Cornfield J. A Bayesian test of some classical hypotheses—with applications to sequential clinical trials. Journal of the American Statistical Association. 1966;61:577-94.

28. Kass R, Greenhouse J. Comments on “Investigating therapies of potentially great benefit: ECMO” (by JH Ware). Statistical Science. 1989;4:310-7.

29. Spiegelhalter D, Freedman L, Parmar M. Bayesian approaches to randomized trials. Journal of the Royal Statistical Society, Series A. 1994;157:357- 87.

30. Berger J, Sellke T. Testing a point null hypothesis: the irreconcilability of p-values and evidence. Journal of the American Statistical Association. 1987; 82:112-39.

31. Bayarri M, Berger J. Quantifying surprise in the data and model verification. Proceedings of the 6th Valencia International Meeting on Bayesian Statistics, 1998. 1998:1-18.

32. Carlin C, Louis T. Bayes and Empirical Bayes Methods for Data Analysis. London: Chapman and Hall; 1996.

33. Casella G, Berger R. Reconciling Bayesian and frequentist evidence in the one-sided testing problem. Journal of the American Statistical Association. 1987;82:106-11.

34. Howard J. The 2 3 2 table: a discussion from a Bayesian viewpoint. Statistical Science. 1999;13:351-67.

35. Cornfield J. Sequential trials, sequential analysis and the likelihood principle. American Statistician. 1966;20:18-23.

36. Savitz DA, Olshan AF. Multiple comparisons and related issues in the interpretation of epidemiologic data. Am J Epidemiol. 1995;142:904-8.

37. Perneger T. What’s wrong with Bonferroni adjustments. BMJ. 1998;316: 1236-8.

38. Goodman SN. Multiple comparisons, explained. Am J Epidemiol. 1998;147: 807-12.

39 Thomas DC, Siemiatycki J, Dewar R, Robins J, Goldberg M, Armstrong BG. The problem of multiple inference in studies designed to generate hypotheses. Am J Epidemiol. 1985;122:1080-95.

40. Greenland S, Robins JM. Empirical-Bayes adjustments for multiple comparisons are sometimes useful. Epidemiology. 1991;2:244-51.

41. Rothman KJ. No adjustments are needed for multiple comparisons. Epidemiology. 1990;11:43-6.

42. Berry DA. A case for Bayesianism in clinical trials. Stat Med. 1993;12:1377-93.

43. Chaloner K, Church T, Louis T, Matts J. Graphical elicitation of a prior distribution for a clinical trial. The Statistician. 1993;42:341-53.

44. Chaloner K. Elicitation of prior distributions. In: Berry D, Stangl D, eds. Bayesian Biostatistics. New York: Marcel Dekker; 1996.

45. Freedman L. Bayesian statistical methods [Editorial]. BMJ. 1996;313:569-70.

46. Fayers PM, Ashby D, Parmar MK. Tutorial in biostatistics: Bayesian data monitoring in clinical trials. Stat Med. 1997;16:1413-30.

47. Etzioni RD, Kadane JB. Bayesian statistical methods in public health and medicine. Annu Rev Public Health. 1995;16:23-41.

48. Berry DA. Benefits and risks of screening mammography for women in their forties: a statistical appraisal. J Natl Cancer Inst. 1998;90:1431-9.

49. Hughes MD. Reporting Bayesian analyses of clinical trials. Stat Med. 1993; 12:1651-64.

50. Berry DA, Stangl D, eds. Bayesian Biostatistics. New York: Marcel Dekker; 1996.

51. Berry DA. Decision analysis and Bayesian methods in clinical trials. Cancer Treat Res. 1995;75:125-54.

52. Spiegelhalter D, Thomas A, Best N, Gilks W. BUGS: Bayesian Inference Using Gibbs Sampling. Cambridge, UK: MRC Biostatistics Unit; 1998. По адресу www.mrc-bsu.cam.ac.uk/bugs.

53. Rubin D. Bayesianly justifiable and relevant frequency calculations for the applied statistician. Annals of Statistics. 1984;12:1151-72.

54. Shafer G. Savage revisited. Statistical Science. 1986;1:463-501.

55. Walley P. Statistical Reasoning with Imprecise Probabilities. London: Chapman and Hall; 1991.

56. Tversky A, Kahneman D. Judgment under uncertainty: heuristics and biases. In: Slovic P, Tversky A, Kahneman D, eds. Judgment under Uncertainty: Heuristics and Biases. Cambridge: Cambridge Univ Pr; 1982:1-20.

57. Bacon F. De Augmentis Scientarium, Book I (1605). In: Curtis C, Greenslet F, eds. The Practical Cogitator. Boston: Houghton Mifflin; 1962.