Накопление материала

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

Имея перед собой данные для анализа, исследователь должен двигаться следующим путем:

1. Проверка адекватности ввода данных

2. Проверка распределения данных

3. Анализ справедливости нулевой гипотезы

5. Построение модели данных, если необходимо

6. Формулировка выводов

Итак, первым этапом при статистическом анализе данных является проверка адекватности ввода данных. Дело в том, что как бы тщательно мы не вводили результаты исследований, вероятность ошибочного ввода сохраняется, особенно, если вводом занимался только один оператор. При использовании систем управления базами данных ситуация немного упрощается при использовании настройки системы на конкретные вводимые данные (проверка соответствия веденной величины заданному диапазону, возможность выбора кодов только из ограниченного числа классов и т.д.). К сожалению, сама такая настройка требует времени и знания СУБД, поэтому для небольших проектов применяется редко.

Как необходимо проводить проверку данных? Самыми простыми методами является изучение минимальных и максимальных значений, анализ выскакивающих наблюдений и оценка подвыборок. Первым методом является нахождение минимального и максимального значений (можно даже использовать для этого процедуру сортировки в MS Excel ). Затем они сравниваются с допустимым диапазоном данных. Хотя данный подход и кажется элементарным, именно он позволяет выявить частые формы опечаток (например, пропуск десятичной точки в дробных числах) или неадекватное кодирование переменных. Возвращаясь немного назад хочется отметить, что вряд ли является разумным использование в качестве кодов слов (максимум двух-трехбуквенные обозначения), поскольку вероятность опечаток в таком случае увеличивается. Очень близко к анализу максимальных и минимальных значений в случае, если исследователь таки использовал словесно-буквенные обозначения классов, относится процедура составления таблиц. Здесь анализируется частота появления каждого класса. Если какой-то класс имеет очень низкую частоту (единичные наблюдения) следует проверить, нет ли здесь опечатки.

Анализ выскакивающих наблюдений является вторым методом, который дополняется анализ минимальных и максимальных значений. Особенно хорошо он отработан для данных, подчиняющихся нормальному распределению. Как будет описано ниже, одним из фундаментальных свойств нормального распределения является, наряду с симметричностью, факт, что в диапазоне 2 стандартных отклонений (SD ) от среднего заключено 95% всех наблюдений, а в диапазоне 3 SD 99.9%. Соответственно, если у нас есть 100 наблюдений, то вероятность одного из них оказаться за пределами 3 SD составляет менее 0.05% (ввиду симметричности 0.05% выше 3 SD и такая же вероятность быть ниже). Если такое наблюдение имеется, оно рассматривается как "вылетающее" и необходимо обратиться к исходным материалам для того, чтобы проверить правильность ввода. Аналогичным образом, для тех же 100 наблюдений только два-три будут более, чем на 2 SD превышать среднее или быть ниже него. Если количество значений, превышающих 2 SD оказывается, скажем, 5-7, их лучше перепроверить. Аналогичные методы используются и в том случае, когда речь идет о распределении, отличном от нормального, однако эти подходы будут рассмотрены ниже, при обсуждении построения коробочных графиков. Общий принцип, однако, остается одинаковым - выявить наблюдения, являющиеся маловероятными и проверить действительно ли они имеют эти значения. Надо оговориться, что нельзя "выбрасывать" такие наблюдения в том случае, если анализ первичной документации показывает, что значения были внесены правильно.

Еще одним подходом, который можно использовать для оценки правильности ввода является анализ подвыборки вручную. Этот простейший, но эффективный метод предполагает ручней подсчет среднего значения измеренных параметров либо на всей группе (если ее численность невысока), либо на случайной выборке из обследованной группы. Например, имеется 50 наблюдений и следует проверить адекватность ввода. Для проверки решено вручную посчитать среднее значение 50 случайно выбранных значений. Исследователь берет список результатов (карточки обследованных) и начинает подбрасывать монетку. Если выпадает орел, карточка используется для расчета среднего, если решка - то нет. Если среднее оказывается примерно равным тому, что мы рассчитали, можно быть более спокойным за правильность ввода. Если расхождения достаточно большие, имеет смысл данные перепроверить. Аналогом данного подхода является ручное составление частотной таблицы. Например, мы разбиваем диапазон колебаний анализируемого параметра на 10 классов и вручную классифицируем карточки. Затем мы повторяем эту процедуру с электронным вариантом данных и сравниваем количество наблюдений в каждой группе. Если обнаруживаются расхождения, соответствующий класс анализируется более внимательно на предмет соответствия электронной версии исходным данным.