Отбор группы для исследования

Каким же образом исследователь должен подходить к выбору группы изучаемых? Во-первых, он должен определиться с тем, кто является его изучаемой популяцией и насколько интересно и важно изучать эту популяцию. Примерами популяции могут быть пациенты с ИБС, женщины детородного возраста и т.д. Затем он должен решить вопрос о том, где он сумеет получить список всех объектов популяции - т.н. выборочную рамку (sampling frame).  Очень часто на этой стадии мы понимаем, что мы не сможем найти всех больных ИБС в РФ, поэтому нам придется пересмотреть определение изучаемой популяции и снова проанализировать интерес и новизну ее изучения.

Существует несколько способов формирования выборки при наличии выборочной рамки:

1. Простая случайная выборка

2. Кластерная выборка

3. Интервальная выборка

4. Стратифицированная выборка

Простейшим случаем выборки является простая случайная выборка. При ее формировании, пользуясь генератором случайных чисел, мы отбираем то количество объектов из выборочной рамки, которое нам необходимо для работы. В случае интервальной выборки мы случайным образом определяем начальную точку в выборочной рамке, а затем берем каждого третьего, пятого или десятого, в зависимости от того, какое количество объектов на необходимо отобрать. Стратифицированная выборка предполагает, что наша популяция включает несколько различных групп и мы хотим в нашей финальной выборке точно повторить композицию исходной популяции. Например, в нашей популяции имеется 70% мужчин и 30% женщин. Тогда при создании стратифицированной выборки мы формируем отдельные выборочные рамки для мужчин и женщин, методом интервальной или простой случайной выборки отбираем такое количество мужчин, что они составят 70% численности выборки и такое количество женщин, что они составят 30% выборки. Подобный подход очень удобен, когда у нас группы сильно различаются по численности, а размер самой выборки невелик. Кластерная выборка используется в тех случаях, когда получение выборочной рамки затруднено из-за ее размеров. Обязательным требованием для подобной выборки является наличие групп объектов по определенному признаку и гомогенность объектов, отнесенных к разным группам. Иными словами необходимо, чтобы признаки, по которым мы группируем объекты не были связаны с интересующими нас параметрами. Такими признаками (с определенной натяжкой) могут являться дома в городе или небольшие города. Кластерная выборка организуется так: вначале мы составляем список групп объектов (фактически формируем выборочную рамку), затем при помощи случайных чисел выбираем несколько таких групп. Затем мы составляем список объектов внутри групп, и опять формируем случайную выборку, но уже только из объектов, принадлежащих отобранным на первом этапе группам. В качестве примера можно разобрать формирование случайной выборки жителей крупного города. Раздобыть выборочную рамку и работать с ней будет достаточно тяжело. Однако можно подойти к решению проблемы путем использования кластерной выборки. Для этого надо вначале случайным образом выбрать несколько районов города и составить список жилых домов в них. Затем случайным образом выбрать некоторое количество домов, а затем, в них, номера квартир. Жители этих квартир и будут являться объектами исследования. Очевидно, что этот подход "выкинет" из исследования социально наиболее неблагополучный сегмент общества, лиц БОМЖ, и соответственно использовать его для изучения, например, туберкулеза было бы не вполне адекватно.

В ряде случаев у нас есть выборочная рамка, но мы хотим, чтобы в нашем исследовании было бы непропорционально много лиц из определенной группы. Тогда мы формируем то, что называется квотной выборкой. Квотная выборка по своей сути аналогична стратифицированной, однако распределение лиц в окончательной выборке не соответствует таковому в популяции. Такая выборка целиком не анализируется и обычно используется для изучения особенностей малочисленных групп (например, она может использоваться для изучения факторов риска рака молочной железы в обоих полах, тогда мужчины будут являться группой с непропорционально большим представительством в выборке по сравнению с популяцией больных раком молочной железы).

Иногда выборочная рамка для нас недоступна. Например, нас интересует работа с внутривенными потребителями наркотиков или больным ИППП. Где взять их список? Его просто не существует в природе (надеемся, что дойдя до этого места читатель уже понимает, что зарегистрированные случаи ИППП не являются популяцией и даже случайной выборкой из популяции больных ИППП). В этом случае мы вынуждены прибегать к формированию неслучайной выборки, которая, естественно не будет представлять всю популяцию изучаемых объектов, и результаты подобных исследований будут носить, скорее, ориентировочный характер. Однако это не означает, что подобные исследования не надо проводить. Просто исследователь должен четко осознавать, и указывать другим, на возможные ограничения применимости его результатов. И хотя фраза в завершении работы о том, что "вмешательство было эффективным для тех, кто хотел принять в нем участие" и звучит не так красиво, как "новое, высокоэффективное вмешательство", разочарований потом от первого варианта будет меньше.

Неслучайные выборки формируются обычно либо как выборки удобства (convinience sample) либо в рамках сетевого метода (network or snowball sampling).

Выборка удобства - это выборка из индивидуумов, которые сами пришли к исследователю, были госпитализированы в больницу и т.п. Строго говоря, она самая простая и качество результатов, получаемых в исследованиях с выборкой удобства обычно самое низкое. Все возможные ошибки самоотбора и отбора исследователем возникают непропорционально часто именно в этих исследованиях. Строго говоря, у автора должны быть очень хорошие аргументы для того, чтобы использовать выборку удобства для мало-мальски серьезного исследования. Сетевая выборка предполагает, что исследователь включает в анализ индивидуумов, которые пришли к нему, а также индивидуумов, которых ему рекомендует включенный, затем тех, кого порекомендуют испытуемые "второго поколения" и т.д. В случае невозможности получения выборочной рамки, сетевая выборка является достаточно адекватной, хотя она будет иметь тенденцию пропускать "одиночек", лиц интересующих исследователя, но не имеющих большого количества социальных связей.

Решив вопрос о формировании выборки нам надо определиться с количеством людей, которых мы будем включая в исследование. Иными словами, определившись с популяцией и способом формирования выборки, надо определить ее размер.

Определение размера выборки является относительно сложной задачей, поскольку она должна отвечать двум требованиям - быть достаточно большой для того, чтобы обеспечить достоверные выводы и, в то же время, не быть настолько большой, что стоимость исследования будет запредельной. Для того, чтобы понять, как рассчитывается размер выборки, нужно вначале разобраться с тем, что мы понимаем под достоверными выводами.

Сразу же надо заметить, что современная философия науки базируется на постулате о том, что полностью достоверное знание невозможно. Более того, со времен английского философа Дэвида Юма известно положение о том, что, сколько бы мы не приводили доказательств в поддержку некоей гипотезы, всего лишь один факт ее опровергающий будет достаточен, чтобы признать наши умозаключения ошибочными. Отсюда следует, что сбор данных в поддержку гипотезы является делом безнадежным. Базируясь на этом, и других постулатах, крупнейший философ науки ХХ века, Карл Поппер , выдвинул концепцию фальсификации. Поппер пытался найти различия между наукой и верой. Верующие люди могут привести много доказательств в пользу правильности своей концепции, а там, где доказательств найти не удается, это объясняется невозможностью, например, увидеть объект веры, представить его и т.д. Иными словами, хорошая религиозная система - будь это христианство, фрейдизм или марксизм - может объяснить все события, происходящие в нашем мире. Поппер обратил внимание на то, что невозможно даже представить себе эксперимент, который бы смог опровергнуть основы религиозной системы. И вот тут он увидел корень различий между верой и наукой. Наука позволяет проводить эксперименты, которые могли бы опровергнуть выдвинутую гипотезу, вера нет. Соответственно, был разрешен и старый парадокс Юма - мы не можем доказать правильность гипотезы, но мы можем выдвинуть конкурирующую гипотезу и построить эксперимент так, чтобы проверить ее. Если она окажется ложной, мы сможем принять нашу основную гипотезу, как единственную (на настоящий момент) альтернативу.

В полном соответствии с концепцией Поппера о фальсификации, как основе генерации и проверки научных идей, при планировании эксперимента мы не можем доказать нашу исходную гипотезу (о том, например, что препарат лучше, чем плацебо). Однако мы можем выдвинуть другую гипотезу - о том, что препарат не лучше, чем плацебо, и попытаться ее опровергнуть. Эта гипотеза называется нулевой, поскольку мы предполагаем, что разность результатов лечения в группе плацебо и контроля равна нулю. Однако разность равна нулю в популяции. Мы же имеем дело с выборками. Поэтому разность выборочных показателей нулю может быть и не равна - в результате действия случайных факторов. Соответственно, задачей исследователя при работе с выборками является определение того, насколько высока вероятность того, что наблюдаемые в исследовании различия вызваны не истинными различиями между группами, а воздействием случайных факторов. Эта величина - вероятность обнаружения различий данной амплитуды в результате действия случайных факторов - и называется доверительной вероятностью. Именно ее обозначают знаменитым числом р. Надо заметить, что сама по себе величина доверительной вероятности мало что говорит клиницисту. На самом деле, р=0.04 означает лишь то, что вероятность возникновения различий больших или равных найденным в исследовании за счет действия только случайных факторов составляет 4%. Или, что то же самое, вероятность того, что в реальности лекарство не лучше чем плацебо составляет 4%. Можно по-разному относится к этой цифре: кто-то скажет, что это немного, кто-то - что это много (в конце концов, при принятии этого числа за границу разрешения лекарств, каждый 25 препарат, не обладающий никаким положительным действием, будет попадать на рынок). Как бы там ни было, данный показатель нам ничего не говорит о размерах терапевтического эффекта в популяции, в каких пределах может быть заключен истинный эффект, например, от применения препарата для снижения уровня артериального давления. Поэтому с начала 90х годов, в мировой медицинской печати появились рекомендации для авторов прекратить или ограничить использование р-оценки и приводить вместо нее в публикациях доверительные интервалы. Доверительный интервал (хоть и не совсем точно) может быть определен как диапазон значений, в котором с определенной вероятностью заключено истинное популяционное среднее (или истинное значение разности средних). Таким образом, если написано, что снижение уровня АД в исследовании составило 6 мм рт. ст., 95% доверительный интервал 2-10 мм рт. ст. , это означает, что в данном исследовании было зарегистрировано снижение АД на 6 мм рт.ст., однако в популяции эффект может быть минимально 2 мм рт. ст., а максимально - 10 мм рт. ст. Эта величина более понятна клиницисту, нежели значение р=0.001

Как бы там ни было, понятно, что используем ли мы доверительный интервал или р-оценку мы должны искусственно ограничить вероятность справедливости нулевой гипотезы, когда мы ее отвергнем. В самом деле, всегда существует отличная от нуля вероятность, что самые большие различия появятся случайно. Но это будет настолько редким событием, что мы считать его практически невозможным. К сожалению, четких реперных точек у нас не существует. Мы не можем сказать, что вероятность 0.5% достаточна для того, чтобы с уверенностью отбросить нулевую гипотезу - в одном случае из 200 подобные различия могут появиться, даже если мы выбираем объекты из одной популяции. "А как же р=0.05?" удивится образованный читатель. К сожалению, эта граница является абсолютно произвольной, и она устоялась лишь благодаря особенностям публикации первых статистических тестов. Поэтому исследователь может сам выбрать границу отвержения нулевой гипотезы, хотя обычно эта граница фиксирована на уровне 5%. Понятно, что подобная граница будет приводить к ложному отбрасыванию нулевой гипотезы в 5% случаев, поэтому соответствующую ей вероятность называют вероятностью ошибки первого рода или a-ошибки. Иногда еще риск отбрасывания нулевой гипотезы, когда она на самом деле верна, называют риском потребителя, поскольку это риск выпустить, например, на рынок плацебо, а брать за него деньги, как за действующий препарат. Поскольку потребитель вряд ли хотел бы платить за бесполезное вещество, в его интересах удерживать вероятность ошибки первого рода на минимальном уровне. Однако здесь есть проблема. Предположим, что мы фиксируем вероятность a ошибки на нуле. Поскольку некоторая вероятность случайного появления даже самых больших различий существует, это будет означать, что мы будем признавать плацебо все лекарства. Опять-таки понятно, что подобная ситуация никого не устраивает. Что же происходит, когда мы выбираем слишком низкую границу для ошибки первого рода? Нам становится легко принять нулевую гипотезу и отбросить интересовавшую нас с самого начала альтернативную гипотезу - гипотезу о том, различия между группами таки существуют или, выражаясь более сложным языком, что две группы принадлежат популяциям, имеющим разные средние значения. Соответственно, нам надо установить разумные границы и для возможности отбрасывания альтернативной гипотезы. Аналогично тому, как мы определили ошибку первого рода, мы можем определить ошибку второго рода - вероятность отбросить альтернативную гипотезу когда она, на самом деле, справедлива. Эта вероятность известная также как b-ошибка, иногда называется риском спонсора. Название происходит из того факта, что если компания, производящая новое лекарство фиксирует a ошибку на очень низком уровне, что приводит к высокой вероятности ошибки второго рода, она не выпустит на рынок эффективное лекарство и не сможет возместить расходы на разработку лекарства, несмотря на то, что, на самом деле, оно является эффективным.

Таким образом, задачей исследователя является организовать проект с приемлемыми значениями ошибок первого и второго родов. Чем больше людей мы исследуем, тем более благоприятные в этом отношении данные мы получаем. Действительно, если мы изучим всю популяцию, мы будем иметь абсолютно точные результаты и вероятность ошибок обоих родов будет равняться нулю, ибо найденные в исследовании различия и будут популяционными. В реальности мы не имеем возможности изучить всю популяции, и, как обсуждалось выше, вряд ли хотим. Поэтому в наших исследованиях всегда сохраняется как вероятность ошибки первого, так и второго рода. Задача исследователя - их минимизировать и держать на приемлемом уровне. Относительно ошибок первого рода существует практически универсальная договоренность, что ее уровень не должен превышать 5%. Для ошибки второго рода такой универсально признанной границы нет. Однако считается, что уровень b-ошибки не должен превышать 20%. Следует отметить, что при описании дизайна исследований иногда указывается не вероятность ошибки, а вероятность обнаружения истинных различий при их наличии (величина, равная 100% минус вероятность b-ошибки). Такой показатель называется мощностью исследования.

Таким образом, прежде, чем приступать к расчету потребного для исследования количества пациентов исследователь должен установить границы a и b- ошибок. Причем делается это на основании анализа цели и задач исследования, опираясь на относительную важность случайного пропуска положительного эффекта вмешательства или разрешения к применению неэффективной терапии. Понятно, например, что при выводе на рынок лекарства, которое имеет много побочных эффектов и, в то же время, используется для лечения заболевания, для которого есть альтернативные методы терапии, мы можем выбрать такой дизайн исследования, который будет иметь низкую a-ошибку. Если же речь идет о жизнеугрожающем заболевании при отсутствии иных методов лечения, мы будет стремиться снизить b-ошибку. В любом случае, уровень a-ошибки не должен превышать 5%, а b-ошибки - 20%

После установления параметров будущего исследования, можно приступать к расчету размеров выборки. Однако тут нас поджидает одно разочарование - нам достаточно трудно математически точно описать альтернативную гипотезу, ту самую, вероятность ошибочного отвержения которой и является b-ошибкой. Действительно, с нулевой гипотезой все просто - предполагается, что популяционные средние для двух анализируемых выборок равны (и их разность равна нулю). Для альтернативной гипотезы мы единственно установили, что они не равны. Но что означает неравны? Понятно, что ответить на вопрос, снижает ли новое лекарство АД на 50 мм рт. ст. значительно легче, чем на вопрос о снижении на 5 мм рт.ст. Клиницист знает, что АД измеряется с некоторой ошибкой, существуют случайные колебания, однако они практически никогда не достигают уровня в 50 мм рт. ст. В то же время, колебания в 5 мм рт. ст. более, чем вероятны. Таки образом интуитивно понятно, что наши представления о вероятности альтернативной гипотезы зависят от абсолютного размера ожидаемых различий и возможной вариабельности анализируемого показателя. Таким образом, прежде чем планировать исследование, надо располагать данными о прогнозируемом размере различий между группами и вариабельности измеряемых показателей. Ситуация может показаться трудноразрешимой - для планирования исследования надо знать те самые показатели, которые будут получены в результате исследования. Тут на помощь приходит несколько подходов. Самым адекватным является проведение пилотного исследования, исследования, основной задачей которого является как раз определение параметров для формулировки альтернативной гипотезы. К слову, II фаза клинических испытаний является как раз таким пилотным исследованием, направленным на выработку протокола для III фазы. Однако даже для пиотного исследования нам надо на что-то опираться. Поэтому мы используем данные литературы (аналогичные методы лечения). Действительно, вряд ли следует планировать исследование препарата, если ожидается, что он будет хуже уже имеющегося на рынке (разговоры о его меньшей стоимости являются бессмыслицей, поскольку в нее так или иначе придется закладывать стоимость разработки и тестирования - средства, уже возвращенные для препарата, присутствующего на рынке длительное время). В том случае, если планируется изучать новый класс препаратов, для которых аналогов нет, то на помощь приходит понятие о клинической эффективности и ошибке измерения. Исследователь может указать пределы минимальной клинической эффективности, которая еще будет разумна для внедрения нового метода лечения. Например, вряд ли стоит вкладывать значительные усилия в исследование препарата, который будет давать - истинное - снижение АД на 1 мм рт. ст. Аналогичные рассуждения могут нас привести к нежеланию анализировать эффекты, меньшие, чем разрешающая способность используемых нами методов оценки эффективности лечения.

Используя один из этих четырех подходов:

1. пилотное исследование

2. литературные данные

3. желаемую клиническую эффективность

4. ошибку метода

мы можем оценить абсолютное снижение, которое мы учитываем при формулировке альтернативной гипотезы.

Далее необходимо оценить вариабельность изучаемого параметра. Наиболее четко разработана статистическая теория определения размеров выборки для нормального распределения. Соответственно, показателем вариабельности в этом случае будет дисперсия или, точнее, квадратный корень из дисперсии - стандартное отклонение. Откуда можно взять показатели вариабельности? первый источник уже знакомое пилотное исследование. Второй - также знакомый - данные литературы, результаты эпидемиологических исследований. Вообще, знакомство с параметрами изучаемой популяции, полученными в ходе эпидемиологических исследований, является неотъемлемой частью подготовки протокола исследования. Однако иногда может так случиться, что параметры вариабельности показателя в популяции неизвестны. Тогда можно воспользоваться одним из свойств нормального распределения - в диапазоне 3 стандартных отклонений от среднего расположено 99.9% всех значений. Тогда диапазон значений данного параметра составляет 6 стандартных отклонений. Поскольку определить размах варьирования (диапазон) достаточно легко, можно использовать это правило для приблизительно оценки стандартного отклонения. Поясним сказанное на примере. Диапазон значений систолического АД у человека (вне реанимации) составляет 80-300 мм рт. ст. или 220 мм рт. ст. Тогда стандартное отклонение равно 220/6=37 мм рт. ст. Истинное значение стандартного отклонения, полученное в крупных популяционных исследованиях меньше - 20 мм рт. ст. Однако это означает, что мы организуем более мощное исследование, но не проведем исследование, результаты которого следовало бы сразу выкинуть в помойку (что произойдет, если мы недооценим вариабельность данных). Продолжая этот пример, реальный предел точного измерения АД в клинике 5 мм рт. ст., поэтому мы будем считать, что препарат, обеспечивающий меньшее снижение АД для нас не интересен. Таким образом мы знаем как показатели абсолютного снижения, так и вариабельность и можем сформулировать альтернативную гипотезу в форме, пригодной для расчетов требуемой выборки. (На самом деле ситуация немного сложнее, поскольку мы должны измерять уровень АД до и после приема препарата, что увеличивает мощность исследования, однако в нашем примере мы будем рассматривать "худший сценарий")

Альтернативная гипотеза при фиксации b-ошибки на уровне 20% может выглядеть так: "вероятность обнаружения различий в 5 мм рт. ст. при условии вариабельности параметров в 37 мм рт. ст. должна быть, как минимум 80%"

Самая простая формула расчета размера выборки может быть представлена так:

n=(z1-a/2+z1-b)2*V/(D)2

, где V – популяционная дисперсия (квадрат стандартного отклонения), D - разность популяционных средних, z – значения нормального распределения, «отрезающие» на интеграле нормального распределения площади, соответствующие половине приемлемой ошибки I типа (a/2) или вероятности ошибки II типа. Тогда для исследования с вероятностью b-ошибки 20% и вероятностью ошибки I типа 5% значение zb составит 0,84, а za/2 составит 1,96. Их сумма, возведенная в квадрат составит 7,84. 

Иногда исследователи предпочитают пользоваться одним-единственным показателем вместо абсолютных различий и вариабельности - стандартизованным показателем эффекта. тот показатель указывает на то, каких различий мы хотим добиться, причем различия выражены в единицах стандартного отклонения. Иными словами стандартизованный размер эффекта равен разности средних в двух группах деленное на стандартное отклонение (в группе контроля). В описанном выше примере стандартизованный размер эффекта (обозначаемый d) равен d=5/37=0.135. Для удобства работы было предложен считать размер эффекта меньший 0.2 слабым, примерно равный 0.5 - средней силы и больший 0.8 - сильным.

Использование стандартизованного размера эффекта позволяет упростить работу с формулами для расчета размера выборки и поэтому в дальнейшем мы будем пользоваться именно этим показателем.

Еще больше можно упростить методику расчета, если заранее фиксировать величину a-ошибки на уровне 5%. Тогда для наиболее распространенного типа дизайна - рандомизированное исследование с двумя группами (активное лечение и контроль), формула требуемого количества пациентов примет следующий вид:

n=2*C/d2

где С - показатель, зависящий от желаемой мощности исследования. Так, в случае 80% мощности, как уже было рассчитано выше, С=7.84, в случае 90% мощности С=10.5. Пользуясь этими данными, рассчитаем количество пациентов, которых надо включить в исследование по изучению гипотензивного действия некоего препарата описанному выше. Поскольку стандартизированный размер эффекта равен 0.135, при условии 80% желаемой мощности исследования, формула принимает вид:

n=2*7.85/0.1352=861.5

Таким образом, для адекватной организации исследования потребуется включить в него по 1724 человека - примерно по 862 человека в группе вмешательства и столько же в контроле.

Надо заметить, что численность людей в группе вмешательства и контроле должна быть примерно одинаковой, поскольку в этом случае достигается наибольшая мощность исследования.

В том случае если проводится исследование с дизайном до-после, т.е. один и тот же параметр измеряется до проведения вмешательства и после него, формула упрощается, поскольку такой дизайн исследования является более мощным:

n=C/d2

Еще одним базовым вариантом исследования является дизайн, при котором изучается изменение возникновения в популяции частоты некоего события - новых случаев заболевания или смертей. Формально распределение этих событий не подчиняется нормальному закону, однако расчеты базируются на предположении о примерном соответствии (в том случае, если эти частоты в группах отличяются не очень значительно). Тогда формула для расчета количества пациентов приобретает следующий вид (опять-таки если пограничный уровень a-ошибки равен 5%)

n=2*C*p*(1-p)/(р12)2

где р=(р12)/2, а р1 и р2 частоты в группе контроля и вмешательства, соответственно. Надо указать, что частоты измеряются не в процентах, а в долях единицы, т.е. при использовании этой формулы мы записываем смертность, например, в группе контроля не 3%, а 0.03.

После того, как нами был проведен анализ и определена численность выборки, мы приступаем к ее формированию.

В самом простом случае мы определяем популяцию, собираем информацию и создаем выборочную рамку, а затем, пользуясь генератором случайных чисел, отбираем необходимое нам количество пациентов. Поясним эту методику на примере. Как было описано выше, для того, чтобы организовать исследование по эффективности гипотензивного препарата, которое сможет обнаружить истинное снижение АД как минимум на 5 мм рт.ст. с 80% вероятностью и при этом возможность случайного признания лекарства эффективным составит не более 5%, нам потребуется 1724 человека. В качестве популяции мы определяем лиц, с недавно (последние 2 месяца) выявленной АГ в некоем городе. Их зарегистрировано 10000 человек. Мы понимаем, что не все пациенты согласятся принять участие в нашем исследовании и, если нам удастся добиться 70% отклика на наше приглашение, это будет хорошо. Соответственно, нам надо пригласить для участия на 30% больше людей, нежели нам реально необходимо (если мы этого не сделаем, мощность исследования окажется ниже планируемой). Итак, прогнозируя 70% отклик нам необходимо 2240 человек. Следует обратить внимание на то, что размер выборки не зависит от размеров исходной популяции и он составит 2240 человек вне зависимости от того, какова исходная численность популяции - 5000, 10000 или 100000 человек. Как отмечал Гэллап, для того, чтобы выяснить, насколько хорошо просолен суп, повару не надо брать ложку больших размеров, если он варит суп в котле, а не в кастрюле.

Возвращаясь к примеру, если численность популяции составляет 10000 человек, нам необходимо отобрать 22.5% исходной популяции. Большинство компьютерных программ и даже калькуляторов поддерживают генерацию случайных чисел, причем они обычно генерируют случайные числа в диапазоне от 0 до 1. При очень большом количестве испытаний значения распределяются в этом диапазоне равномерно, так что, например 50% будет больше 0.5, 70% более 0.3 и т.д. Используя эти свойство генераторов случайных чисел можно отметить, что если мы сопоставим каждому члену популяции (объекту в выборочной рамке) случайной число, у 22.5% популяции оно будет меньше 0.225, или больше 0.775. Соответственно, мы можем предложить, что те лица, у которых присвоенное случайное число окажется меньше 0.225, должны быть включены в исследование, а те, у кого оно будет выше, подобного приглашения не получат. Используя генератор случайных чисел, например, мы получили следующую последовательность чисел (если читатель попробует повторить это упражнение, то у него должны получиться другие цифры)

1 0.822885 нет

2 0.432959 нет

3 0.078945 да

4 0.391518 нет

5 0.612195 нет

6 0.456614 нет

7 0.071563 да

8 0.335766 нет

9 0.754411 нет

10 0.197432 да

Используя описанное выше правило, пациенты номер 3, 7 и 10 будут включены в выборку для проведения исследования. По мере увеличения количества лиц,  которым мы присваиваем случайный номер, число лиц со значением менее 0.225 будет приближаться к 22.5%. Таким образом, мы формируем выборку.

Затем выборка делится, опять-таки случайным образом, на две половины. Одна часть будет получать активное вещество, другая - например, плацебо. Надо заметить, что первоначальный этап формирования выборки из популяции одинаков вне зависимости от того, какой дизайн исследования будет использован в дальнейшем - РКИ , когортное исследование, или какое иное (правда, при использовании других - кроме РКИ - дизайнов, оценка количества лиц, которых надо включать в исследование несколько усложняется). Следует отметить, что очень часто этот первый этап работы - определение исследуемой популяции и формирование случайной выборки - опускается и используется то, что мы описывали выше под названием выборки удобства. Иными словами, определив требуемое количество пациентов исходя из вероятностей a - и b- ошибок, исследователи включают в исследование всех пациентов, которые лечатся в данном учреждении, а затем рандомизирует их в группы контроля и лечения. Формально подобный дизайн исследования называется РКИ, считается в рамках "доказательной медицины" наиболее доказательным, однако в реальности эти результаты плохо генерализуются, поскольку реальная популяция, для которой выводы исследования достоверны, крайне мала (пациенты, госпитализирующиеся в определенные больницы, обычно при крупных медицинских вузах). Для распространения данных РКИ на всю популяцию пациентов, выборка также должны проводиться из всей популяции.

Итак, необходимо кратко повторить то, какие шаги должен предпринять исследователь до момента начала сбора информации:

1. Определить цель и задачи исследования

2. Выбрать дизайн исследования

3. Базируясь на цели и задачах, определить, какой конструкт будет измеряться и дать его операционное определение

4. Оценить, какая шкала используется для измерения переменных

5. Определить изучаемую популяцию и сформировать выборочную рамку, если возможно

6. Определить уровни приемлемой a- и b-ошибок

7. Оценить размер выборки

8. Составить выборку

Имея выборку, надо подготовиться к сбору материала.