Введение

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

Для многих начинающих исследователей статистическая обработка данных это что-то вроде завершающего аккорда при написании научной работы. Соответственно, интерес к статистике просыпается тогда, когда исследование уже завершено, все данные собраны и осталось только написать завершающий отчет. В принципе подобный подход аналогичен тому, что мы бы попробовали ездить по незнакомому городу на машине без карты и не спрашивая совета у прохожих, и лишь в конце дня, когда бензин в баках закончился, открыли бы атлас автодорог и посмотрели, добрались ли мы до нужного нам места.

Начинать планирование статистической обработки данных надо тогда же, когда планируется само исследование. При этом надо помнить, что статистика используется, в основном, с тремя целями:

1. Описать и просуммировать полученные данные, представив их в виде небольшого количества цифр или графически, так, чтобы аудитория могла быстро оценить группу, с которой работал исследователь и ее характеристики.

2. Вывести общие закономерности на основании полученных данных. Ответить на вопрос: если у меня в исследовании уровень артериального давления снизился, будет ли отмечено снижение в других исследованиях или в практике?

3. Идентифицировать взаимосвязи или оценить различия между группами. Если мы знаем одни характеристики группы, насколько мы можем угадать другие характеристики этой группы. Например, если мы знаем результаты диагностического теста, насколько точно мы можем предсказать, что у данного пациента есть заболевание?

Теоретически выделяют два основных типа статистических техник – описательную (descriptive)и доказательную (inferential). Первая группа включает методы, с помощью которых мы можем представить наши данные в компактном виде, достаточно легком для восприятия, но не жертвуя при этом большими объемами информации или не искажая исходных данных. К таким методам относятся таблицы, графики, показатели центральной тенденции, такие как средние, медианы, моды, а также показатели разброса (дисперсия, стандартное отклонение, межквартильное расстояние и т.п.). Описательные методы характеризуют изучаемую группу. В противоположность этому доказательные методы пытаются ответить на вопрос об обобщаемости полученных  результатов. Иными словами, с их помощью исследователи пытаются на основании полученных результатов предсказать, каковы будут результаты при использовании того же метода, например, у всех пациентов с данным заболеванием. Доказательные методы являются наиболее распространенными методами статистического анализа и именно их обычно и вспоминают исследователи, когда речь заходит о статистической обработке данных.

Прежде, чем мы сможем приступить к выбору метода статистической обработки данных необходимо определиться с тем, что мы будем измерять. Конечно, ответ на этот вопрос во многом зависит от вопроса, который ставит перед собой исследователь. Однако именно ответ на этот вопрос будет определять, каким методом статистической обработки он сможет затем воспользоваться. При этом ответ не будет следовать однозначно из сформулированных целей и задач исследования. Предположим, что исследователь хочет изучить изменения болевых ощущений под воздействием нового препарата. Как измерить боль? Можно просто задать вопрос – испытываете ли вы боль сегодня. Можно использовать визуальную аналоговую шкалу боли, можно оценить, насколько боль мешает человеку выполнять повседневные действия и т.д. Реально, ответ на вопрос об изменении болевых ощущений будет различным в зависимости от того, какой аспект мы будем измерять. В науковедении принято говорить, что существует символическое представление наблюдений или опыта, называемое концепцией. Например, боль, является концепцией. При этом, выражая словами то, что мы понимаем под концепцией, мы даем концептуальное определение.  Однако это словесное определение недостаточно для того, чтобы измерить интересующую нас концепцию. Поэтому мы даем операционное определение, или «определяем вещи на основании того, что они делают». Соответственно, вне зависимости от того, какое концептуальное определение боли мы дали, у нас может быть несколько операционных определений и именно эти операционные определения и будут диктовать нам, что и как мы измеряем. Если мы сопоставляем некоторые числовые значения  операционному определению, то в результате мы имеем то, что называется переменной, являющейся фундаментальной единицей статистического анализа.

Продолжая наш пример, можно отметить, что концептуальное определение боли как «неприятное ощущение, возникающее при сильном раздражении чувствительных нервных окончаний, заложенных в органах и тканях» (СЭС, 1980, с. 156) не позволяет нам адекватно измерить ее. Мы можем дать операционное определение боли как «неприятное ощущение, степень неприятности которого измеряется по шкале от 0 до 100, где 0 – отсутствие неприятных ощущений, а 100 – нестерпимо неприятные ощущения физической природы». Тогда переменная боль, будет количественным показателем, принимающим целочисленные значения от 0 до 100. Мы также можем использовать и другой подход, предложив определить силу боли при помощи визуальной аналоговой шкалы, т.е. определив ее как «неприятные ощущения физической природы, степень неприятности которых оценивается отметкой на линии длиной 5 сантиметров так, что начало линии соответствует отсутствию болевых ощущений, а конец линии соответствует нестерпимой боли». Можно дать и другие определения (например, слабая боль – неприятное ощущение, которое не оказывает заметного воздействия на повседневную активность; умеренная боль – ощущение, которое отвлекает от повседневной активности, но не приводит к отказу от общения; сильная боль – ощущение, которое делает невозможным общение). Разные определения одной и той же концепции – боли - будут приводить к необходимости использовать разные методы статистического анализа и, на самом деле, могут приводить к различным результатам самого исследования.