Примеры планирования экспериментов при помощи программы UnifyPow.

Ralph G. O’Brien. (Some of the) UnifyPow Workshop Examples.

Cleveland Clinic Foundation

Обычный t-тест для сравнения двух групп.

Примечание: все эти исследования, в некоторой степени выдуманные, используют придуманные имена для исследователей и лекарственных средств, а также для многих научных измерений и терминов. Имя ведущего исследователя образовано от слова Cephalalgia – головная боль.

Доктор Seth Alalgia планирует исследование для того, чтобы выяснить насколько новая форма терапии с биологически обратной связью может снизить, по крайней мере, краткосрочно, частоту и тяжесть хронических сосудистых головных болей (смотри Blanchard и соавторы, 1990). Он планирует провести двойное слепое рандомизированное исследование, в котором пациенты будут получать либо усиленную термальную терапию с биологической обратной связью (УТБОС), либо плацебо терапию (Пл.), в рамках которой пациент получает терапию, не связанную с показателями (случайные сигналы обратной связи). Каждый пациент будет изучаться с понедельника по пятницу. В понедельник утром пациент будет госпитализирован в клинический исследовательский центр для того, чтобы начать лекарственную терапию, состоящую из 5мг/кг/день литозамина. В понедельник и во вторник вечером пациенты заполнят достаточно обширный опросник, который позволит получить значения индекса сосудистых головных болей (ИСГБ) до лечения. В среду утром пациенты будут рандомизированы в группу активного лечения или группу плацебо с использованием минимационной схемы Pocock и Simon (1975) для того, чтобы уменьшить различия между группами по исходному уровню ИСГБ, полу и возрасту. Основные сессии поведенческой терапии будут выполнены в среду вечером, и затем вторая сессия будет в четверг утром. Данные опросника, заполненного вечером в четверг и в пятницу, дадут измерения ИСГБ после проведения вмешательства. Исследователи хотели, чтобы основным показателем эффекта было изменение в значениях ИСГБ (ИСГБ после лечения – ИСГБ до лечения) / ИСГБ до лечения. Однако статистик, с которым проконсультировались, предложил логарифмическое трансформирование данных, поскольку оно даст более полезные результаты для анализа. Наиболее удобными для использования будут логарифмы по основанию 2. Соответственно мы получим:

Изменение ИСГБ = log2[ИСГБпосле /ИСГБдо] = log2 ИСГБпослеlog2ИСГБдо.

Если значения ИСГБ меньше нуля, то мы констатируем уменьшение сосудистых головных болей.

В данное исследование значительно легче будет рекрутировать добровольцев и удержать их в исследовании, если им сообщат, что две трети всех пациентов попадут в группу, получающую активное воздействие. Таким образом, планируется несбалансированный дизайн с весом отдельных групп равным: WУТБОС = 2/3 и WПл. = 1/3, и, соответственно, отношением рандомизации 2: 1. В данном случае эффективность рекрутирования пациентов перевешивает статистическую эффективность сбалансированного дизайна.

После того как дизайн разработан, статистик пытается выяснить у доктора Alalgia по поводу неограниченного набора пациентов, из которого, и будет набираться выборка. (Для многих исследований чрезвычайно сложно обсуждать популяционные распределения параметров и, соответственно, нет никакой необходимости напрямую определять размер эффекта). У доктора Alalgia имеются некоторые пилотные данные, но их недостаточно для того, чтобы формально использовать для спецификации того, что будет являться средними и общим стандартным отклонением для неограниченного набора данных. Поэтому, базируясь на своем знании и опыте и небольшом количестве пилотных данных, он предполагает, что истинное значение для изменений ИСГБ в группе, получающей активное воздействие, будет: m УТБОС = - 0,86, что соответствует практически 45% уменьшению ИСГБ (поскольку log2  [0,55] = -0,86), в то время как m Пл.= -0,42 или примерно 25% снижение индекса сосудистых головных болей на фоне применения литозаминина и эффекта плацебо от неактивной терапии.

Определение стандартного отклонения является более сложной задачей. В ответ на вопросы статистика Alalgia предполагает, что в среднем 95% пациентов в группе, получающих активную терапию, будут иметь изменения ИСГБ между –2,00 и +0,28, что соответствует либо снижению ИСГБ на 75%, либо увеличению на 21%. Предположение, что изменения ИСГБ распределены нормально, позволяет нам использовать правило 4s , соответственно 1s = 2,28/4 = 0,57. Используя ту же самую s = 0,57 для группы плацебо, мы получаем, что 95% всех значений находятся в диапазоне от – 1,56 до +0,72, что соответствует либо снижению на 66%, либо увеличению на 65%. Данный сценарий графически показан на рисунке 1.


Рисунок 1. Возможные результаты исследования д-ра Alalgia при условии бесконечно большой группы испытуемых.

Достаточно разумным было бы оценить влияние небольших изменений стандартного отклонения на получаемый результат, поэтому при анализе необходимо будет использовать несколько значений s. Давайте добавим одно значение s так, чтобы было s= 0,46 и s = 0,65. 

Доктор Alalgia также указывает, что у него имеется достаточно ресурсов для того, чтобы обследовать 21 пациента. Научная часть клинического исследовательского центра надеется, что достаточно достоверные исследования можно провести, используя не более, чем 105 койко-дней (21 пациент  х 5 дней / на одного пациента). Таким образом, желательно было бы использовать меньшее количество пациентов, например 15, но мы можем включить в анализ и большее количество пациентов N= 33. Данное исследование находится в ранней стадии изучения поведенческой терапии и известно, что изучение терапии с биологически обратной связью давало различные результаты, поэтому Alalgia и его статистический консультант считают, в данном случае что направленный тест (односторонний тест) необоснован, поэтому необходимо использовать ненаправленный (двухсторонний) тест. Но интересно было бы посмотреть на мощность исследования в случае одностороннего теста. Кроме того, Alalgia будет обращать внимание на расчет мощности в случае пограничного значения доверительной вероятности a = 0,05, но ему также интересно посмотреть чему равняется мощность в случае использования меньшего уровня ошибки первого типа a = 0,01. В этих условиях дает ли 21 человек приемлемую мощность исследования. Можно ли использовать меньшее количество?

Команды UnifyPow для обычного t-теста средних двух переменных

mu -.86 -.42 [Позволяет сравнивать G независимых групп]

SD .45 .57 .65 [Требуется хотя бы одно значение]

weight 2 1 [По желанию. Значение по умолчанию – сбалансированный (1:1) дизайн]

alpha .05 .01 [По желанию. Знаение по умолчанию = 0.05]

NTotal 15 21 33 [Требуется как минимум одно значение]

Обратите, пожалуйста, внимание на формулировку данной проблемы в программе UnifyPow: насколько быстро при использовании этой программы пользователь переходит от составления дизайна и сценария исследования к анализу мощности. Здесь мы запрашиваем мощность для сценария доктора Alalgia, используя все комбинации N (15, 21, 33), все комбинации стандартных отклонений (0,45, 0,57, 0,65). Результаты для уровня ошибки первого типа a = 0,05 при ненаправленном тесте указывает, что 21 человек является недостаточным для данного исследования. Мощность для исследования 0,35 для s = 0,57 даже для 33 человек и s = 0,45 всего лишь равняется 0,83. Доктор Alalgia крайне расстроен этими результатами, и он понимает, что клинический центр не может предоставить ему более 105 койко-дней для данного проекта, поэтому он начинает реструктуировать дизайн, который мы опишем дальше.

Scenario: mu -.86 -.42

AND Effect: Compare two means

-------------------------------------------------------------------------
|                          |             Standard Deviation             |
|                          |--------------------------------------------|
|                          |     0.45     |     0.57     |     0.65     |
|                          |--------------+--------------+--------------|
|                          |   Total N    |   Total N    |   Total N    |
|                          |--------------+--------------+--------------|
|                          | 15 | 21 | 33 | 15 | 21 | 33 | 15 | 21 | 33 |
|                          |----+----+----+----+----+----+----+----+----|
|                          |Pow-|Pow-|Pow-|Pow-|Pow-|Pow-|Pow-|Pow-|Pow-|
|                          | er | er | er | er | er | er | er | er | er |
|--------------------------+----+----+----+----+----+----+----+----+----|
|Alpha       |Type         |    |    |    |    |    |    |    |    |    |
|------------+-------------|    |    |    |    |    |    |    |    |    |
|0.050       |2-sided t    |.380|.518|.727|.257|.353|.526|.209|.284|.427|
|            |-------------+----+----+----+----+----+----+----+----+----|
|            |1-sided t    |.519|.652|.828|.379|.485|.655|.318|.407|.559|
|------------+-------------+----+----+----+----+----+----+----+----+----|
|0.010       |2-sided t    |.156|.260|.472|.091|.147|.276|.068|.108|.201|
|            |-------------+----+----+----+----+----+----+----+----+----|
|            |1-sided t    |.235|.358|.581|.145|.219|.372|.112|.167|.283|
-------------------------------------------------------------------------
 

Даже исследователи с ограниченным опытом статистического планирования понимают основания и необходимость анализа мощности, подобной представленной здесь. Результаты, которые дает UnifyPow, абсолютно четко демонстрирует, как мощность увеличивается: за счет (1) увеличения уровня a ошибки; (2) снижения дисперсии; (3) увеличения размера выборки; и (4) используя направленные тесты.

Парный t-тест при сравнении двух, коррелирующих друг с другом средних.

Доктор Alalgia теперь рассматривает новый дизайн для того, чтобы получить эффективность улучшенной нормальной терапии с биологической обратной связью по сравнению ее с плацебо терапией для улучшения течения сосудистых головных болей (смотри предыдущий пример). Теперь пациенты будут анализироваться парами после того, как эти пары будут создаваться по нескольким факторам, включая скрининговую версию индекса сосудистых головных болей (ИСГБ). Двухдневная фаза перед воздействием будет изменена таким образом, чтобы пациенты в понедельник и во вторник осматривались на амбулаторном приеме, и амбулаторно же будет начато их стандартизованное лекарственное лечение литозамином. Каждая пара, уже случайно разбитая на две группы воздействия, будет госпитализирована утром в среду. Пациенты в группе активного вмешательства получат лечение первыми, и они будут получать правильные значения биологически обратной связи. Затем плацебо-пациенты будут получать лечение как «парный контроль» и будут получать абсолютно ту же самую последовательность сигналов обратной связи, как и пациенты на активном лечении, что на самом деле будет давать случайную (не связанную с измерениями) биологически обратную связь. Терапия будет повторена в четверг, затем будет оценена ИСГБ после терапии (вечером в четверг и в пятницу утром) до того, как пациент будет выписан из больницы. Тот же самый показатель изменений ИСГБ будет использоваться таким образом, что у нас будет парные различия D = изменения ИСГБ в группе активного лечения – ИСГБ в группе стандартного воздействия. Основная надежда возлагается на то, что контроли и использование пар пациентов приведет к значительному уменьшению дисперсии ошибки. Обратите также внимание, что теперь исследователь будет затрачивать на одного пациента только три койко-дня, а не пять, как это было ранее.

Доктор Alalgia считает, что подобные исследования с одной группой (парное исследование) дает те же самые эффекты от лечения и имеет ту же самую вариабельность, как и исследование с двумя группами, поэтому он предполагает, что [m УТБОС, m Пл . ]=[-0,86 –0,42], и поэтому m D = 0,44. Доктор Alalgia также считает, что стандартное отклонение в рамках подобного дизайна будет больше, поскольку измерения ИСГБ в амбулаторных условиях не настолько хорошо контролируется, а измерения ИСГБ после проведения воздействия базируется на меньшей продолжительности наблюдения. Более того, он считает, что у пациентов группе плацебо-терапии (случайная обратная связь) будет иметься большая вариабельность, чем у пациентов в группе, получающих активную терапию. Он, соответственно предполагает, что [sУТБОС. = 0,60] и [ sПл = 0,80]. Предполагается, что будет иметься достаточно выраженная корреляция между изменениями ИСГБ в группе активной терапии и ИСГБ в группе плацебо-терапии таким образом, что они будет составлять как минимум r = 0,50. Такие значения очень удобно показывать в виде матрицы «стандартное отклонение-корреляция».


 


В данном случае sD = [0,602+ 0,802 - 2(0,50)(0,60)(0,80)]1/2 = 0,72. Таким образом, этот t-тест в одной группой оценивает нулевую гипотезу о том, что m D = 0, предполагая, что D имеет нормальное распределение и при этом m D = -0,44 и sD = 0,72.  s D может варьировать за счет общей формулы:

 s D (r, m) = m [s1 2 + s22 - 2rs1s2 ]1/2

Доктор Alalgia готов изучать до 25 пар пациентов, что потребует 25 х 2 х 2 = 100 койко-дня. Достаточно ли ему этого количества или ему слишком мало этого количества? Что если корреляция будет больше, скажем 0,60? Что если стандартное отклонение, скажем, окажется на 20% больше (m = 1,20), чем предполагает доктор Alalgia? Если мы посмотрим на команды UnifyPow для данной проблемы «парные m», то мы увидим, насколько легко эта программа справляется с данными вопросами. За счет этих команд мы можем легко получить мощность для сценария доктора Alalgia, изучая комбинацию всех пар пациентов {17,25} с r {0,50, 0,60} m {1,0, 1,2}.

Команды UnifyPow для парного t-теста

PairedMu -.86 -.42 [может обеспечить сравнение G независимых групп с одним повторным измерением]

SD .60 .80 [Требуется пара значений]

corr .50 .60 [Требуется как минимум одно значение]

SDMult 1.0 1.2 [По желанию, значение по умолчанию = 1.0]

alpha .05 .01 [По желанию, значение по умолчанию = 0.05]

Ntotal 17 25 [Требуется хотя бы одно значение]

Scenario: PairedMu -.86 -.42 & SD 0.6 0.8

AND Effect: Matched-pairs t test

--------------------------------------------------------------------

| |  x SD (SD Multiplier) |

| |---------------------------------------|

| |  1 | 1.2 |

| |-------------------+-------------------|

| |  Corr(Y1, Y2) | Corr(Y1, Y2) |

| |-------------------+-------------------|

| |  0.5 | 0.6 | 0.5 | 0.6 |

| |---------+---------+---------+---------|

| |  Total | Total | Total | Total |

| |  Pairs | Pairs | Pairs | Pairs |

| |---------+---------+---------+---------|

| | 17 | 25 | 17 | 25 | 17 | 25 | 17 | 25 |

| |----+----+----+----+----+----+----+----|

| |Pow-|Pow-|Pow-|Pow-|Pow-|Pow-|Pow-|Pow-|

| | er | er | er | er | er | er | er | er |

|--------------------------+----+----+----+----+----+----+----+----|

|Alpha  |Type | | | | | | | | |

|------------+-------------|  | | | | | | | |

|0.050  |2-sided t |.657|.833|.744|.900|.504|.684|.588|.771|

| |-------------+----+----+----+----+----+----+----+----|

| |1-sided t |.777|.906|.846|.949|.641|.795|.718|.862|

|------------+-------------+----+----+----+----+----+----+----+----|

|0.010  |2-sided t |.375|.604|.469|.715|.245|.418|.312|.518|

| |-------------+----+----+----+----+----+----+----+----|

| |1-sided t |.491|.709|.588|.805|.343|.529|.421|.629|

-------------------------------------------------------------------- 

Используя сценарий доктора Alalgia для средних и стандартных отклонений и с r = 0,50 a = 0,05, не направленный тест с 25 парами имеет мощность 0,83 и 0,68 для m = 1,0 и 1,2Б соответственно. Если коэффициент корреляции выше равен 0,60, то соответствующие мощности составляют 0,90 и 0,77. Доктор Alalgia считает, что ему будет достаточно 25 пациентов, и он считает, что теперь он сможет отстоять свой план исследования перед этическим комитетом клинического центра. 

Литература

  1. Blanchard EB, Appelbaum KA, Radnitz CL, Morrill B, Michultka D, Kirsch C, Guarnieri P, Hillhouse J, Evans DD, Jaccard J, Barron KD (1990), “A Controlled Evaluation of Thermal Biofeedback and Thermal Biofeedback Combined with Cognitive Therapy in the Treatment of Vascular Headache,” J Consulting Clinical Psychology, 2, 216-224.
  2. Pocock SJ, Simon R (1975), “Sequential Treatment Assignment with Balancing for Prognostic Factors in the Controlled Clinical Trial,” Biometrics, 31, 103-115.
  3. O’Brien RG (1998), “A Tour of UnifyPow: A SAS Module/Macro for Sample-Size Analysis,” Proceedings of the 23nd SAS Users Group International Conference , Cary, NC, SAS Institute, 1346-1355. [Эта и другая документация UnifyPow может быть найдена по адресу http://www.bio.ri.ccf.org/power.html.]