Расчет размера выборки и анализ мощности при помощи системы SAS.

Sample Size Computations and Power Analysis with the SAS System

John M. Castelloe, SAS Institute Inc., Cary, NC

SUGI Paper 265-25

Введение.

Предположим, что Вы выполнили небольшое исследование и с разочарованием обнаружили, что результаты неожиданно оказались незначимыми. Что Вы сделали не так? Стоит ли Вам выполнить более крупное исследование для того, чтобы обнаружить эффект, который как Вы предполагали, существует, и при этом насколько большим должно быть это исследование? С другой стороны Вы, может быть, провели небольшое исследование и обнаружили крайне значительный эффект. Как Вы можете более эффективно использовать ресурсы в последующих исследованиях, используя меньшие размеры выборки, меньшее количество наблюдений?

Анализ мощности может оптимизировать использование ресурсов и дизайн исследования, улучшая шансы и достижения достоверных результатов с максимальной эффективностью. Анализ мощности является наиболее эффективным, когда выполняется на этапе планирования исследования, и в этом случае он способствует раннему началу сотрудничества между исследователем и статистиком. Он также позволяет сфокусировать внимание на размере эффекта и вариабельности, которая присуща измеряемым в науке показателям, а также на концепциях, которые как исследователь, так и статистик должны аккуратно рассматривать на стадии планирования. Muller и Benignus (1992) и OBrien и Muller (1993) приводят краткое обсуждение этих, и связанных с ними, концепций. Эти источники также дают хорошее общее введение в анализ мощности исследования.

Имеется достаточно много факторов, которые вовлечены в проведение анализа мощности исследования, такие как: цели исследования, дизайн исследования, методы анализа данных, мощность исследования, размер выборки, ошибка типа I, вариабельность и размер эффекта. Выполняя анализ мощности исследования, Вы можете познакомиться с взаимоотношениями между этими факторами, оптимизировать те из них, которые Вы можете оптимизировать и выяснить каковы последствия для тех, которые находятся вне Вашего воздействия.

С точки зрения статистического тестирования, исследовательской целью в основном является использовать разумную выборку данных для того, чтобы оценить данную гипотезу H1 , что некий эффект существует в значительно большей популяции. Если данные из выборки позволяют Вам заключить, что H1 – истинно, но на самом деле в популяции справедливо обратно, то есть, справедлива нулевая гипотеза H0, тогда на самом деле эффекта нет, и мы совершили ошибку типа I. Вероятность ошибки типа I обычно обозначается «альфа» или a и статистические тесты разрабатываются таким образом, чтобы обеспечить достаточно небольшой уровень альфа (например, менее 0,05). Важен также контроль вероятности совершения противоположной ошибки типа II, то есть заключения, что справедлива гипотеза H0 , что нет эффекта, когда на самом деле эффект существует. Вероятность 1- b , которая показывает нам, насколько мы правы в отрицании H0 , когда оно является ошибочным, обычно называется мощностью теста. (Обратите, пожалуйста, внимание, что другое, более техническое определение мощности, заключается в том, что эта вероятность исключения Hдля любого данного набора условий, даже тех, которые соответствуют тому, что H0 истинно).

На практике анализ мощности часто вызывает проблемы, и его проводят не часто, или не верно. Для этого существует несколько причин: он технически достаточно сложен, обычно на него обращают мало внимания в программах курсов по статистике, кроме того он часто выполняется не на той стадии исследования когда эффективен (то есть на стадии планирования). Хорошие программные инструменты анализа мощности могут позволить справиться с этими сложностями и помочь Вам адекватно использовать эту технику.

Некоторые сценарии для анализа мощности исследования.

Имеется целый ряд различных вариантов анализа мощности исследования. Вот несколько простых сценариев:

По всей вероятности наиболее важным фактором, который можно использовать для классификации методов анализа мощности, является их проспективный или ретроспективный характер. В описанных выше примерах первые два являются примерами проспективного анализа мощности, в то время как третий является – ретроспективным. Проспективный анализ мощности интересуется тем, что произойдет в будущих исследованиях, в то время как ретроспективный анализ пытается охарактеризовать уже законченное исследование. Иногда различия между этими формами анализа мощности достаточно размыты. Например, ретроспективный анализ недавно завершенного исследования, может превратиться в проспективный анализ, если он приведет к планированию нового исследования, которое будет иметь те же самые цели, что и предыдущая, только с улучшенным распределением ресурсов.

Хотя ретроспективный анализ является наиболее удобной формой анализа мощности, он часто неинформативен, или даже может приводить к ошибкам, особенно когда мы рассчитываем мощность для наблюдаемого размера эффекта. В разделе «Эффективный анализ мощности» мы рассмотрим этот вопрос более детально.

Анализ мощности может быть также охарактеризован по тому, какие факторы в основном нас интересуют. Вы можете иметь желание установить мощность, определить требуемый размер выборки, или оценить обнаруживаемый размер эффекта. Иногда целью исследователя является найти наиболее приемлемый доверительный интервал вместо того, чтобы проводить анализ значимости некой гипотезы. В этом случае вместо того, чтобы рассматривать критерии мощности, исследователь будет концентрироваться на вероятности достичь определенной точности доверительного интервала. Кроме того, имеются Байесовские подходы к оценке размера выборки, для оценки параметров или максимизации функции полезности.

Пример. Проспективный анализ в клиническом испытании.

Целью данного примера является ознакомить читателя с некоторыми из вопросов, которые поднимаются при анализе мощности и продемонстрировать использование нескольких простых инструментов, предоставляемых SAS, для того чтобы ответить на эти вопросы. Предположим, что Вы являетесь клиническим исследователем, который хотел бы сравнить эффект двух лекарств (А и Б), которые воздействуют на систолическое артериальное давление. У Вас имеется достаточно ресурсов для того, чтобы рекрутировать 25 пациентов для применения каждого из этих лекарственных средств. Будет ли этого достаточно для того, чтобы обнаружить значимые результаты, если среднее систолическое артериальное давление пациентов в этих двух группах реально будет различаться. Иными словами, будет ли Ваше исследование иметь достаточную мощность? Ответ зависит от большого количества факторов:

·        Насколько большим является размер эффекта, который Вы хотите обнаружить? Иными словами, каковы популяционные различия в среднем систолическом артериальном давлении у пациентов, которые используют лекарство А, и у пациентов, использующих лекарство В? Конечно мы этого не знаем, именно поэтому мы проводим исследование! Но Вы можете сделать некие предположения или поставить цель для обнаруживаемого размера эффекта. Тогда анализ мощности позволяет определить шансы обнаружения подобного размера эффекта. Например, предположим, что у Вас есть некие результаты от предыдущих исследований, которые включали в себя лекарство А, и Вы считаете, что среднее артериальное давление для лекарства В будет отличаться примерно на 10% от среднего для лекарства А. Если среднее систолическое артериальное давление для лекарства А составляет 120, Вы таким образом предполагаете, что размер эффекта составит 12.

·        А какова вариабельность измерения систолического артериального давления? Предположим, что предыдущие исследования, которые включали лекарство А, продемонстрировали, что стандартное отклонение систолического артериального давления находится между 11 и 15 и что стандартное отклонение примерно одинаково в группах, получающих любое из этих лекарственных средств. Вы можете рассмотреть несколько значений дисперсии при проведении анализа мощности.

·        Какие методы анализа данных, и каков уровень ошибки типа I, на который Вы будете ориентироваться? Вы решаете использовать простой подход с использованием t-теста для двух выборок (и предполагаете, что дисперсии будут равны), при этом уровень a будет равняться 0,05. Для того чтобы иметь достаточно консервативную оценку, Вы используете двухсторонний тест, хотя Вы и предполагаете, что средний уровень систолического артериального давления для лекарства В будет выше.

Базируясь на этих положениях, Вы можете рассчитать мощность исследования, используя смещенное F-распределение. Следующие коды SAS позволяют подсчитать мощность для стандартного отклонения, равного 15:

DATA twosample;
 Mu1=120; Mu2=132; StDev=15;
 N1=25; N2=25; Alpha=0.05;
 NCP = (Mu2-Mu1)**2/((StDev**2)*(1/N1 + 1/N2));
 CriticalValue = FINV(1-Alpha, 1,N1+N2-2, 0);
 Power = SDF('F', CriticalValue, 1, N1+N2-2, NCP);
PROC PRINT DATA=twosample;
RUN;

Параметр смещенности NCP рассчитывается из предполагаемых средних MuMu2, размеров выборки N1 и N2, и общего стандартного отклонения StDev. Затем рассчитываются критические значения для тестовой статистики, и мощность определяется как вероятность смещенной случайной переменной с параметром смещенности NCP, одной степенью свободы и одной и N1+N2 – 2 степенями свободы, превышающими данное критическое значение. Данная вероятность рассчитывается с использованием функции SDF, доступной в шаге DATA. Она оригинально предназначена для расчета функции распределения выживаемости. Вообще SDF = 1- CDF. Форма SDF является более точной, когда мы рассчитываем значения  верхней части распределения. Функции SDF и CDF, впервые введенные в версиях 6.11 и 6.12 SAS, хорошо задокументированы в книгах SAS Institute Inc. Использование рекомендуется для тех приложений, которые требуют повышенной численной точности.

Результирующая мощность составляет примерно 79%. Если бы Вы хотели мощность 85%, когда у Вас имеется стандартное отклонение 15, тогда Вам потребуется больше пациентов. Насколько больше? Один из возможных вариантов изучить требуемый размер выборки – это построить кривую мощности, показанную на рисунке 1.Эта кривая была создана с использованием задания размера выборки (Sample Size) в приложении Analyst. Обратите внимание, что для достижения 80% мощности нам потребуется размер выборки в 30 человек в каждой группе. 


Рисунок 1. Кривая мощности для t-теста сравнения двух выборок

Теперь предположим, что коллега обращает Ваше внимание на возможность использования простого перекрестного дизайна АВ/ВА. Половина из обследуемых в течение 6 недель будет получать лекарство А, затем будет следовать 4-х недельный период устранения, за который эффект от препарата устранится, а затем 6 недель будут принимать лекарство В. Другая половина обследованных будет следовать тому же правилу, однако последовательность приема лекарств будет обратной. Предположим, что нет эффекта зависимости от времени начала лечения, или от каких-то остаточных эффектов. В этой ситуации Вы можете использовать парный t-тест для того, чтобы оценить различия между двумя лекарствами. Каждая пара состоит из уровня систолического артериального давления для пациента, использующего лекарство А, и уровня систолического давления для того же пациента, использующего лекарство В. Предположим, что предыдущее исследование продемонстрировало, что имеется корреляция, составляющая примерно r = 0,8, между парами измерения систолического артериального давления для каждого пациента. Какова будет мощность исследования, если Вы будете использовать этот перекрестный дизайн на 25 пациентах? Необходимо просто рассчитать стандартное отклонение  для различий между парами, которое дается формулой:


Где s1 и s2, это стандартное отклонение для двух типов лекарственных средств (предполагается, что в данном случае они равны). Те данные, которые мы при этом получаем, составляют sD= 6,96, когда s1= s2= 11 и sD= 9,49, когда s1= s2= 15. Следующие команды SAS позволяют рассчитать мощность для большего стандартного отклонения.

DATA paired;
 Mu1=120; Mu2=132; StDev1=15;
 StDev2=15; Corr=0.8; N=25;
 Alpha=0.05;
 StDevDiff = sqrt(StDev1**2 + StDev2**2 -
   2*Corr*StDev1*StDev2);
 NCP = (Mu2-Mu1)**2 /(StDevDiff**2/N);
 CriticalValue = FINV(1-Alpha,1,N-1, 0);
 Power = SDF('F', CriticalValue,1, N-1, NCP);
PROC PRINT DATA=paired;
RUN;

В результате, когда мы включаем в исследование 25 пациентов, мы имеем мощность более 99%. Кривая мощности, созданная при помощи приложения Analyst, показана на рисунке 2, и она показывает, что 85% мощность может быть достигнута, когда в подобном исследовании с дизайном «до и после» участвуют всего 8 пациентов.


Рисунок 2. Кривая мощности для парного t-теста.

Данный пример указывает на необходимость использования следующих инструментов анализа мощности:

·        Прямой расчет требуемого размера выборки для 85% мощности.

·        Определение размера эффекта, который может быть обнаружен при 85% мощности.

·        Автоматическая генерация готовых для презентации графиков, таблиц и описательных отчетов.

·        Помощь для расчета требуемых входных параметров.

Приложение Analyst позволяет рассчитать основные размеры выборок и построить кривые мощности. Другие возможности планируются для применения в программном обеспечении, которое сейчас разрабатывается.

Эффективный анализ мощности.

Анализ мощности наиболее эффективен, когда выполняется как часть планирования исследования. Необходимо проанализировать несколько важных вопросов. Muller и Benignus (1992, страница 216) перечисляют пять основных положений, которые следует рассматривать: альтернативные издержки, этические проблемы, размер эффекта, которые рассматриваются как важные, неопределенность в оценках параметров и предпочтение Analyst к мощности исследования. Эффективное программное обеспечение для анализа мощности ясно представляет отношение между всеми компонентами и демонстрирует, какие количественные параметры должны быть указаны для того, чтобы рассчитать интересующий нас количественный параметр.. Она может служить в качестве основы для сотрудничества между исследователем и статистиком. Адекватное программное представление компонентов обращает внимание на научные вопросы и терминологию, а не на математические детали расчета. Другим полезным свойством является интуитивная организация результатов и способность экспортировать результаты в форматы, которые напрямую могут быть вставлены в отчеты.

Имеется некоторая путаница по поводу значения термина «Важный размер эффекта». Как должен быть постулирован размер эффекта? Одной альтернативой является указание размеров эффекта, который соответствует минимальной клинической значимости; тогда результаты анализа мощности отражают шансы обнаружения минимально значимого клинического эффекта. Часто минимально значимый клинический эффект настолько небольшой, что требует крайне значительных ресурсов для своего обнаружения. Поэтому другой альтернативой является сделать предположение об истинном размере эффекта. Тогда анализ мощности определяет шанс обнаружения того размера эффекта, который с точки зрения аналитика, является истинным. Выбор определяется целями исследования. Наконец, можно указать некий набор возможных значений, которые по всей вероятности покрывают весь диапазон между минимально значимым эффектом и большим предполагаемым эффектом.

Можно придти к заключению о требуемых для анализа мощности значениях, таких как размеры эффекта и показатели вариабельности, разными путями. Например, можно использовать данные пилотных исследований; результаты предыдущих исследований, которые были опубликованы в литературе; предположения, которые следуют из теоретических выкладок; или предположения, которые следуют от частичных данных (небольшой выборки или каких-то других данных). Эффективное программное обеспечение позволяет Вам использовать данные пилотных исследований и частичное описание для того, чтобы получить достаточно разумный результат.

Неопределенность является фактом жизни в любом анализе мощности исследования, поскольку, по крайней мере, часть из тех цифр, которые используются, являются нашими предположениями по поводу неизвестных значений. Результаты анализа мощности вне зависимости от того, является ли это достигнутой мощностью или требуемым размером выборки, или еще чем-то, служат как некие оценки, которые зависят от значений других компонентов. Обычно не имеет большого смысла количественно оценивать вариабельность, которая присутствует при использовании предположений, или не документированных результатов для того, чтобы указать эти компоненты. Если используются реальные данные, то корректировка на вариабельность этих данных также приводит к некоторым проблемам, поскольку она приводит к созданию доверительных интервалов для мощности, которые слишком широки для практического использования. Но имеется достаточно полезный метод охарактеризовать неопределенность при анализе мощности и обнаружить насколько статистическая мощность исследования зависит от каждого компонента. Можно сформулировать приемлемый диапазон для каждого компонента, варьировать каждый из этих компонентов внутри данного диапазона и посмотреть какой результат будет получаться в формах, таблицах или графиках. Хороший статистический пакет для анализа мощности исследования позволяет достаточно легко выполнять анализ чувствительности.

Крайне аккуратно следует относиться к ретроспективному анализу мощности. Thomas (1997) объясняет почему использование, как наблюдаемого размера эффекта, так и наблюдаемой вариабельности, в основном не приводит к информативным результатам. Другие авторы считают по-иному: например, Taylor и Muller (1996) используют наблюдаемые в исследовании средние и дисперсии вместе с новыми размерами выборки для того, чтобы оценить мощность планируемого повторного исследования с большим количеством пациентов. Надо заметить, что ошибка может появиться не только за счет использования наблюдаемой статистики, но также за счет того, что имеется тенденция проводить ретроспективный анализ мощности в основном для незначимых результатов исследования. Различные новые методы принимают во внимание эти источники ошибки и неопределенность в некоторых случаях при анализе мощности. Для результатов применения этих методов для линейных моделей можно посмотреть публикации Muller и Pasour (1997), Taylor и Muller (1996), и OBrien и Muller (1993). Эти методы, по мере того, как они станут более стандартизированными и полными, будут чаще использоваться в повседневной практике.

Методы, доступные на сегодняшний день.

Методология анализа мощности хорошо разработана и стандартизована для некоторых статистических методов, таких как парный и непарный t-тесты, дисперсионный анализ с фиксированными эффектами, регрессионные модели, сравнение биноминальных пропорций, биоэквивалентность, корреляция и простые модели анализа выживаемости. Однако для удивительно большого количества моделей и тестов, если методы анализа мощности и существуют, то они являются примерными, иногда даже весьма ненадежными. Очень часто исследователи вынуждены делать анализ для упрощенной версии ситуации и надеяться, что она хорошо экстраполируется на те методы, которые она использует.

Для некоторых статистических моделей и тестов расчеты анализа мощности являются точными в том смысле, что они используют математические формулы, которые выражают мощность напрямую, как функцию от других компонентов. Такие формулы обычно включают либо прямые подсчеты, либо смещенные версии распределения тестовой статистики. В отсутствии точных математических результатов иногда используются примерные формулы. Когда отсутствуют как точные формулы для расчета мощности, так и примерные формулы, то можно использовать модели с генерацией случайных чисел. Вы указываете значения для различных параметров модели, а затем используете их для того, чтобы случайным образом генерировать большое количество гипотетических наборов данных. Применяя статистические тесты для каждого набора данных, Вы оцениваете мощность, как процент тех случаев, когда нулевая гипотеза отвергается. В то время как симуляционные подходы в терминах машинного времени являются достаточно затратными, все более и более быстрые компьютеры позволяют использовать эти методы все чаще и чаще. Подобный анализ мощности всегда является достаточно разумным и с большим количеством повторных наборов данных он бывает значительно более точным, чем апроксимация. В настоящий момент Вы можете выполнять различные методы анализа мощности внутри системы SAS:

·        Приложение Analyst позволяет проводить анализ мощности для t-тестов, определять точность доверительных интервалов, равенства средних, а также для однофакторного дисперсионного анализа с возможностью получать либо мощность, либо размеры выборки, а также генерировать кривые мощности.

·        UnifyPow в SAS macro, описанная OBrien в 1998 году, включает в себя большое количество методов, включая параметрические и непараметрические методы сравнения средних, пропорций, логит анализа, лог-линейных моделей, регрессии и корреляции. Ее основное достоинство – это использование большого количество точных методов расчета мощности и поддержка методов несбалансированных дизайнов.

·        Macro, написанное на языке SAS/IML, Muller, La-Vange, Ramey и Ramey (1992) выполняет расчеты мощности для многомерных линейных моделей с фиксированными эффектами. Это macro также продемонстрировано в Timm, Mieczkowski (1997, страницы 253-254, 523-550) и оно доступно через набор файлов SAS Online library.

Заключение.

Анализ мощности – это важнейший инструмент для планирования исследования. Стандартная парадигма статистического тестирования предполагает, что ошибки типа I (ошибочно придти к выводу о том, что имеется статистическая значимость, когда реальный эффект отсутствует) являются более дорогостоящими, чем ошибки типа II (пропуск истинно значимого результата). Это может и быть справедливо для Вашей ситуации, однако относительная стоимость этих двух типов ошибок может быть и обратной. Например, в скрининговых экспериментах при разработке лекарственных средств иногда является значительно менее затратным получить нескольких ложно положительных результатов и продолжить тестирование этих веществ, чем пропустить, возможно, чрезвычайно важные результаты. Анализ мощности позволяет Вам оптимизировать Ваши исследования для того, чтобы достичь желательного баланса между первым и вторым типами ошибок. Можно улучшить шансы обнаружения эффектов, которые иным образом были бы проигнорированы. Можно сэкономить деньги и время и по всей вероятности минимизировать риски для испытуемых с оптимальными дизайнами и размерами выборки. В то время как в настоящий момент доступны многие из базовых методов расчета размеров выборки, внутри системы SAS существуют возможности для создания интегрированного интерфейса пользователя, который предоставляет большее количество методов анализа и имеет большее количество свойств. В настоящий момент разработчики работают над этим моментом.

Литература

  1. Agresti, A. (1990), Categorical Data Analysis, New York: John Wiley & Sons.
  2. Diletti, D., Hauschke, D., and Steinijans, V.W. (1991), "Sample Size Determination for Bioequivalence Assessment by Means of Confidence Intervals," International Journal of Clinical Pharmacology, Therapy and Toxicology, 29, 1-8.
  3. DiSantostefano, R.L. and Muller, K.E. (1995), "A Comparison of Power Approximations for Satterthwaite's Test," Communications in Statistics - Simulation and Computation, 24, 583-593.
  4. Donner, A. (1984), "Approaches to Sample Size Estimation in the Design of Clinical Trials-A Review," Statistics in Medicine, 3, 199-214.
  5. Dozier, W.G. and Muller, K.E. (1993), "Small-Sample Power of Uncorrected and Satterthwaite Corrected t Tests for Comparing Binomial Proportions," Communications in Statistics - Simulation, 22, 245-264.
  6. Fleiss, J.L. (1981), Statistical Methods for Rates and Proportions, New York: Wiley & Sons.
  7. Frick, H. (1994), "On Approximate and Exact Sample Size for Equivalence Tests for Binomial Proportions," Biometrical Journal, 36, 841-854.
  8. Gatsonis, C. and Sampson, A.R. (1989), "Multiple Correlation: Exact Power and Sample Size Calculations," Psychological Bulletin, 106, 516-524.
  9. Goldman, A.I. and Hillman, D.W. (1992), "Exemplary Data: Sample Size and Power in the Design of Event-Time Clinical Trials," Controlled Clinical Trials, 13, 256-271.
  10. Lachin, J.M. (1981), "Introduction to Sample Size Determination and Power Analysis for Clinical Trials," Controlled Clinical Trials, 2, 93-113.
  11. Muller, K.E. and Benignus, V.A. (1992), "Increasing Scientific Power with Statistical Power," Neurotoxicology and Teratology, 14, 211-219.
  12. Muller, K.E., LaVange, L.M., Ramey, S.L., and Ramey,C.T. (1992), "Power Calculations for General Linear Multivariate Models Including Repeated Measures Applications," Journal of the American Statistical Association, 87, 1209-1226.
  13. Muller, K.E. and Pasour, V.B. (1997), "Bias in Linear Model Power and Sample Size Due to Estimating Variance," Communications in Statistics - Theory and Methods, 26, 839-851.
  14. Noether, G.E. (1987), "Sample Size Determination for Some Common Nonparametric Tests," Journal of the American Statistical Association, 82, 645-647.
  15. O'Brien, R.G. (1986), "Using the SAS System to Perform Power Analyses for Log-linear Models," Proceedings of the Eleventh Annual SAS Users Group International Conference, Cary, NC: SAS Institute Inc., 778-782.
  16. O'Brien, R.G. (1998), "A Tour of UnifyPow: A SAS Module/Macro for Sample-Size Analysis," Proceedings of the Twenty-Third Annual SAS Users Group International Conference, Cary, NC: SAS Institute Inc., 1346-1355. Software and updates to this article can be found at www.bio.ri.ccf.org/UnifyPow.
  17. O'Brien, R.G. and Muller, K.E. (1993), "Unified Power Analysis for t-Tests Through Multivariate Hypotheses," In Edwards, L.K., ed. (1993), Applied Analysis of Variance in Behavioral Science, New York: Marcel Dekker, Chapter 8, 297-344.
  18. O'Brien, R.G. and Shieh, G. (2000), "Pragmatic, Unifying Algorithm Gives Power Probabilities for Common F Tests of the Multivariate General Linear Hypothesis." Manuscript downloadable in PDF form from www.bio.ri.ccf.org/UnifyPow.
  19. Phillips, K.F. (1990), "Power of the Two One-sided Tests Procedure in Bioequivalence," Journal of Pharmacokinetics and Biopharmaceutics, 18, 137-144.
  20. SAS Institute Inc. (1999a). The Analyst Application, First Edition, Cary, NC: SAS Institute Inc.
  21. SAS Institute Inc. (1999b). SAS Language Reference: Dictionary, Version 7-1, Cary, NC: SAS Institute Inc.
  22. Self, S.G., Mauritsen, R.H., and Ohara, J. (1992), "Power Calculations for Likelihood Ratio Tests in Generalized Linear Models," Biometrics, 48, 31-39.
  23. Selicato, G.R. and Muller, K.E. (1998), "Approximating Power of the Unconditional Test for Correlated Binary Pairs," Communications in Statistics -Simulation, 27, 553-564.
  24. Shuster, J.J. (1990), Handbook of Sample Size Guidelines for Clinical Trials, Boca Raton, FL: CRC Press.
  25. Suissa, S. and Shuster, J.J. (1985), "Exact Unconditional Sample Sizes for the 2 X 2 Comparative Trial," Journal of the Royal Statistical Society A, 148, 317-327.
  26. Taylor, D.J. and Muller, K.E. (1996), "Bias in Linear Model Power and Sample Size Calculation Due to Estimating Noncentrality," Communications in Statistics -Theory and Methods, 25, 1595-1610.
  27. Thomas, L. (1997), "Retrospective Power Analysis," Conservation Biology 11, 276-280.
  28. Timm, N.H. and Mieczkowski, T.A. (1997), Univariate and Multivariate General Linear Models: Theory and Applications Using SASa Software,Cary, NC: SAS Institute Inc.
  29. Whittemore, A.S. (1981), "Sample Size for Logistic Regression with Small Response Probability," Journal of the American Statistical Association, 76, 27-32.