Описание данных

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

После того, как был проведен анализ адекватности ввода данных, можно приступать собственно к анализу данных. Здесь первым этапом является определение формы распределения данных и ее соответствия предварительным предположениям. В принципе, исследователь обычно встречается с двумя типами распределений - нормальным и всеми остальными, коллективно называемыми не-нормальными. Такое деление связано с тем, что нормальное распределение обладает рядом особенностей, делающими его удобным для тестирования статистических гипотез и поэтому большое число тестов было разработано именно для работы с данными, распределенными по нормальному закону.

Вообще распределением называется функция, описывающая взаимоотношения между количеством наблюдений и их величиной. Если мы разделим значений, скажем, на 100 интервалов и посчитаем количество наблюдений, попадающих в каждый интервал, мы получим некую характеристику связи значений (среднего значения в интервале) и количества значений в этом интервале. Таким образом мы получим представление о распределении данных. В принципе, распределения бывают двух типов - непрерывные и дискретные. Если мы можем разделить диапазон на определенное число классов, причем мы не сможем "втиснуть" дополнительное значение между двумя соседними классами, мы говорим о прерывистом, или дискретном, распределении. Если же между двумя значениями всегда можно придумать еще одно, речь идет о непрерывном распределении.

Большинство методов статистической обработки данных рассчитано на работу с непрерывными распределениями, а для целей визуализации нам легче работать с дискретными (или превращать в таковые непрерывные).

Нормальное распределение (этот термин был впервые использован Гальтоном в 1889 г.), является непрерывным и описывается следующим уравнением:

Распределение характеризуется средней величиной (m) и стандартным отклонением (s) вверх или вниз, в которое укладываются две трети всех наблюдений. Кривая, описываемая этим уравнением имеет несколько важных характеристик: она симметрично относительно среднего значения, которое также расположено в середине ряда (является его медианой) и является самым часто встречающимся в ряду значением (мода). Нормальное распределение имеет колоколообразную форму и теоретически простирается от минус бесконечности до плюс бесконечности. Иными словами любое значение может быть обнаружено в данном нормальном распределении, однако возможно, что вероятность обнаружения подобного значения крайне мала.

Характерное свойство нормального распределения состоит в том, что 95% точек нормального распределения приходится на интервал от + до -1,96 стандартного отклонения; 99% приходится на интервал от + до -2,576 стандартного отклонения. Другими словами, при нормальном распределении, стандартизованные наблюдения, меньшие -2 или большие +2, имеют относительную частоту менее 5% (Стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение (корень из дисперсии)).

Для того, чтобы найти долю точек для любого желаемого значения нормального распределения следует обратиться к таблицам. В таблицах обычно приводится значение стандартизованного наблюдения, обозначаемого буквой z. Например, для значения z=1,00, значение составляет 0,34. Поскольку кривая симметрична, то немногим более 68% этой области лежит в пределах от -1 до +1 стандартных отклонений. Это означает, что 68% величин отдельных точек нормального распределеения приходится на этот интервал.
Чтобы продемонстрировать пользу кривой нормального распределения, предположим, что группа студентов набирает при тестировании в среднем 60 баллов со стандартным отклонением в двадцать баллов. Какими будут доли набравших более 85 и менее 50?

Если мы воспользуемся таблицами нормального распределения (которые есть в любом учебнике по статистке) то можем увидеть, что соответствующий z=1,25(=85-60)/20 равен 0,39435. Таким образом мы определяем область на кривой нормального распределения между максимальной ординатой (50%) и ординатой z. Область превышения данной ординаты отражает долю набравших более 85 баллов, к-рая приблизительно равна 11% (50%-39,435%).

Далее по данным таблицы находим показатель для z=-0,5 (=50-60); он равен 0,19146 и обозначает область между максимальной ординатой (50%) и ординатой z. Область ниже этой ординаты отражает долю набравших менее 50 баллов и приблизительно соответствует 31% (+50%-0,19146).

Обычно исследователя интересует, насколько точно эмпирическое распределение можно аппроксимировать нормальным. Простые описательные статистики дают об этом некоторую информацию. Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично. У симметричного распределения асимметрия равна 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. Другим показателем нормальности является эксцесс (показывающий "остроту пика" распределения). Если он существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0.