Г лава 3. Средние величины и показатели разброса.



Для обобщения и наглядного представления данных эпидемиологи используют много различных приемов. В главе 2 Вы познакомились с вариационными рядами (частотными распределениями), соотношениями, долями и показателями. В этой главе вы узнаете о различных средних величинах и показателях разброса и научитесь их применять.

Частотное распределение признаков (продолжение).

Классовые интервалы.

В главе 2 вы познакомились с таблицами частотного распределения данных. В случае, когда переменная принимает небольшое число значений (скажем, меньше 8-10), обычно перечисляются все эти значения. Если же переменная принимает более 10 значений, обычно эти значения группируют. Группы значений называются классами (обсуждение того, какие интервалы использовать, приведено в главе 4). При группировке данных по классам обычно выбирают от 4 до 8 интервалов. В таблице 3.1 а приведена группировка жителей округа Х на 8 классов в зависимости от количества выпиваемой воды (в стаканах в среднем в неделю).

Обратите внимание, что категории потребления воды, приведенные в таблице 3.1а, не перекрываются, то есть в первый интервал входят 0 и 1 стакан воды, во второй - 2 и 3 стакана и так далее. При вводе данных в таблицу распределения нужно вначале решить, куда относить дробные данные. Например, куда бы вы поместили значение 1,8 стакана воды?

Как правило, когда в таблицу распределения вносятся дробные данные, следуют общепринятым правилам округления. Если дробная часть больше 0,5, округлите до следующего целого (например, 6,6 округляется до 7). Если дробная часть меньше 0,5, - округлите до предыдущего целого (например, 6,4 округляется до 6). Если дробная часть равна 0,5, округлите до ближайшего четного целого (например, 5,5 и 6,5 округляются до 6).

В соответствии с этими правилами, человека, выпившего 1,8 стаканов воды, нужно поместить в категорию "2-3 стакана" таблицы 3.1а. Таким образом, в категорию "2-3 стакана воды" в действительности входят все значения, большие или равные 1,5 и меньшие 3,5 стаканов воды, то есть значения в интервале 1,5-3,4999... стаканов. Эти границы называются истинными границами интервала. Каковы истинные границы интервала "15-21 стаканов"?

Таблица 3.1а Количество стаканов воды, в среднем потребляемых в неделю жителями округа X, 1990 г.

Число стаканов воды в неделю в среднем

Число жителей

0-1

20

2-3

51

4-7

124

8-14

119

15-21

43

22-28

36

29-35

13

36-42

4

Всего

410

 

В таблице 3.16 приведены истинные границы классовых интервалов, используемых в таблице 3.1а. Как видно, истинными границами интервала "15-21 стакана" будут 14,5 и 21,4999... Истинные значения интервалов нужны для подсчета некоторых видов средних. Возраст и другие переменные, измеряющие время, не подчиняются стандартным правилам округления. Возраст не округляют. Возраст человека не изменяется между его днями рождения. Например, вам было 16 лет вплоть до 17-го дня рождения, даже за день до него. В таблице 3.2 приведено распределение количества самоубийств по возрастам, сгруппированным в 10 классов. Куда бы вы поместили человека, совершившего самоубийство в возрасте 14 лет 7 месяцев? Его нужно поместить в группу с классовым интервалом 5-14.

Таблица 3.16 Количество стаканов воды, в среднем потребляемых в неделю жителями округа X, 1990 г.

Число стаканов воды в неделю в среднем

Истинные пределы интервала классов

Число жителей

0-1

0,0-1,4999..

20

2-3

1,5-3,4999..

51

4-7

3,5-7,4999..

124

8-14

7,5-14,4999..

119

15-21

14,5-21,4999..

43

22-28

21,5-28,4999..

36

29-35

28,5-35,4999..

13

36-42

35,5-42,4999..

4

Всего

 

410

Таблица 3.2 Распределение самоубийств по возрастным группам, Соединенные Штаты, 1987 г.

Возраст при смерти (годы)

Число смертей

0-4

0

5-14

251

15-24

4924

25-34

6655

35-44

5132

45-54

3707

55-64

3650

65-74

3428

75-84

2402

85+

634

Всего

30783

До сих пор мы говорили о распределениях представленых в виде таблиц. Частотные распределения можно также представлять в виде графиков. Например, на рисунке 3.1 графически представлено распределение, взятое из таблицы 3.2. Методы построения графиков частотного распределения будут обсуждаться в главе 4. В этом уроке графические представления будут использоваться для пояснения трех характеристик частотного распределения: наличие центра распределения, разброса значений вокруг центрального значения и формы распределения.

Рисунок 3.1 Частотное распределение самоубийств, США, 1987 г. (3)

Свойства распределений.

При построении графика частотного распределения данных зачастую оказывается, что график выглядит подобно изображенному на рисунке 3.2, где большая часть наблюдений сгруппирована вокруг одного центрального значения. Такое сосредоточение значений называется центральным расположением или центральной тенденцией распределения. Значение, вокруг которого группируется основное число значений, является важной характеристикой распределения. Если оно известно, его можно использовать для обобщенного описания всего распределения.

Центральное значение можно подсчитать несколькими способами, каждый из которых приводит к несколько отличной от других величине. Из всех видов средних в эпидемиологии чаще всего используют три: среднюю арифметическую, медиану и моду. Полуразмах и средную арифметическую используют реже. Средние величины будут обсуждаться более подробно после описания других свойств частотных распределений. Вторым свойством частотного распределения (вариационного ряда) является разнообразие значений признака, выражающееся в виде разброса данных вокруг какого либо центрального значения. В эпидемиологии используются такие меры разнообразия как размах, дисперсия и стандартное отклонение. Степень разнообразия признаков частотного распределения не зависит от значения или положения средней величины. Этот факт иллюстрируется на рисунке 3.4, где приведены графики трех теоретических распределений с одинаковым значением средней, но различным разбросом признаков.

Рисунок 3.2 График частотного распределения данных, большая часть которых сосредоточена около центрального значения.

На рисунке 3.3 приведены графики трех распределений, совпадающих по форме, но с различными значениями средней.

Третьим свойством частотного распределения является его форма. Графики теоретических распределений на рисунках 3.2 и 3.3 симметричны. Распределения многих изучаемых в эпидемиологии признаков (параметров явлений) обычно выглядят достаточно симметрично. Однако это не всегда так. Например, график, представляющий данные по самоубийствам (рисунок 3.1), является асимметричным. Асимметричное распределение называют также смещенным распределением.

Распределение, пик которого сдвинут влево, а "хвост" - вправо, называется "положительно смещенным" или "смещенным вправо." На рисунке 3.5 распределение А смещено вправо. Распределение, пик которого находится справа, а "хвост" - слева, называется "отрицательно смещенным" или "смещенным влево." На рисунке 3.5 распределение С смещено влево. В какую сторону смещен график частотного распределения самоубийств, приведенный на рисунке 3.1? Распределение самоубийств, график которого дан на рисунке 3.1, является положительно смещенным, т. е. распределение смещено вправо. Симметричное группирование значений вокруг центрального расположения, типичное для многих распределений, называется нормальным распределением. Кривая в виде колокола, получающаяся при построении графика нормального распределения, показанная на рисунке 3.6, называется нормальной кривой. На таких распространенных в виде колокола распределениях основываются многие статистические тесты, используемые для анализа и обобщения исходных данных. Такого рода тесты можно применять только к нормально распределенным данным.

Рисунок 3.3 Три одинаковых по форме кривых, различающихся величиной средней

Рисунок 3.4 Три кривых, средние которых совпадают, а дисперсии различны

Рисунок 3.6 "Нормальная" кривая

Статистические обозначения

Перед тем, как приступить к рассмотрению материала последующих глав, следует ознакомиться с некоторыми статистическими обозначениями. Они приведены в таблице 3.3.

Таблица 3.3 Статистические обозначения, используемые в этой главе

Отдельное наблюдение

Для обозначения отдельной переменной, например, числа родов в прошлом, используется буква, как правило, х или у. Отдельное наблюдение набора данных обозначается i.

Число наблюдений

Для обозначения числа наблюдений набора данных используются буквы n или N. Для обозначения частоты, с которой встречается в наборе данное значение, используется символ fi, (от англ. слова "frequency" - частота)

Умножение

Расположение двух переменных рядом друг с другом означает их умножение. Например, запись ху означает произведение х и у.

Скобки

Скобки используются для:

- обозначения умножения, например, (х)(у) означает произведение величин х и у.

- указания того, что выражение в скобках нужно рассматривать как отдельную величину. Например, (х+у)2 означает, что нужно сложить х с у и возвести полученную сумму в квадрат

Сложение

Скобки используются для:

- обозначения умножения, например, (х)(у) означает произведение величин хиу.

- указания того, что выражение в скобках нужно рассматривать как отдельную величину. Например, (х+у)2 означает, что нужно сложить х с у и возвести полученную сумму в квадрат

Для обозначения суммы нескольких величин, используется греческая заглавная буква сигма, S . Предположим, например, что нужно найти сумму отдельных величин данных о количестве родов в прошлом, приведенных в упражнении 2.1. Можно перечислить отдельные данные

0+2+0+0+1+3 +1+4+1+8+2+2+0+1+3+5+1+7+2

Однако такой способ записи суммы не будет эффективным, даже в случае небольшого набора чисел. Вместо этого для обозначения подобных действий используются обозначения, принятые в статистике

Такая запись читается следующим образом: "Сумма i от i=1 до i=19. Даже эта краткая запись, как правило, сокращается до

Показатели центральной тенденции

Средние величины применяют в случае, если нужно отразить в одном значении особенности набора эпидемиологических данных. Например, представляя сведения о количестве самоубийств в США в 1987 году (данные приведены в таблице 3.2), можно сказать, что средний возраст жителей США, совершивших самоубийство в 1987 году, был 41,9 лет. Средние величины также часто используются для расчетов других статистических показателей.

Средняя арифметическая.

Средняя арифметическая является, вероятно, наиболее часто употребляемой из всех видов средних величин. Она часто называется просто "средней". В формулах средняя арифметическая обозначается в виде Х "с черточкой." Формула для расчета средней арифметической набора данных приведена ниже:

Формула читается таким образом: "х с черточкой" равняется сумме икс-итых, деленной на n."

Пример: Во время вспышки гепатита А заболело 6 человек, клинические симптомы у которых появились в промежутке между 24ым и 31 ым днем после заражения. На данном примере покажем, как подсчитывать величину среднего инкубационного периода для этой вспышки гепатита. Инкубационные периоды заболевших лиц (х;) были 29, 31, 24, 29, 30 и 25 дней.

  1. Чтобы получить значение в числителе, сложите значения наблюдений:

2. В знаменатель поставьте общее число больных:n = 6

3. Для определения средней арифметической поделите числитель (сумму результатов наблюдений) на знаменатель (число наблюдений):

Таким образом, средний инкубационный период для больных, заболевших во время данной вспышки, был равен 28,0 дней.

Пример. Ниже приведены гипотетические данные на 11 человек. Покажем на примере, как подсчитать среднюю для каждой переменной (А-Е). (Примечание: данный список, содержащий переменные А, В, С D и Е будет использоваться и в дальнейшем в примерах и упражнениях этого урока)

Переменная А

Переменная В

Переменная С

Переменная D

Переменная Е

1

0

0

0

0

0

9

0

4

1

1

6

з

1

4

9

1

7

4

1

4

3

2

7

5

1

5

4

2

7

6

5

5

5

2

8

7

9

5

6

3

8

8

9

6

7

3

8

9

9

6

8

3

9

10

10

6

9

4

9

11

10

10

10

10

10

1. Чтобы подсчитать числитель, сложите значения каждой переменной:

2. Чтобы получить знаменатель, подсчитайте число наблюдений:n = 11 для каждой переменной.

3. Для подсчета средней арифметической, разделите числитель на знаменатель.

Средняя переменной А = 55/11 =5

Средняя переменной В = 55/11 = 5

Средняя переменной С= 55/11 =5

Средняя переменно D= 31/11 =2,82

Средняя переменной Е= 79/11 =7,18

Средняя арифметическая используется чаще других видов средних, т. к. она обладает удобными статистическими свойствами. Например, сумма отклонений отдельных значений от средней арифметической равна нулю. Поясним это на примере вспышки гепатита А. Ниже в таблице приведены данные, полученные вычитанием среднего инкубационного периода из отдельных инкубационных периодов. Также приведена их сумма. Заметьте, что она равна нулю. Это означает, что средняя арифметическая является арифметическим центром распределения.

 

 

Значение минус среднее

 

Разность

 

24

-28,0

 

-4,0

 

25

-28,0

 

-3,0

 

29

-28,0

 

+1,0

 

29

-28,0

 

+1,0

 

30

-28,0

 

+2,0

 

31

-28,0

 

+3,0

 

168-168=0

 

-7,0 +7,0=0

Среднюю арифметическую иногда называют "центром тяжести" распределения. Это значит, что распределение будет находиться в равновесии, если поместить точку опоры в среднее значение, как это показано на рисунке 3.7. "Равновесие" будет нарушено, если "точку опоры" сдвинуть правее или левее средней арифметической.

Рисунок 3.7 Средняя арифметическая является "центром тяжести" распределения

Хотя средняя арифметическая представляет собой хорошую обобщающую характеристику набора данных, данные должны быть приблизительно нормально распределены, так как средняя арифметическая крайне "чувствительна" к влиянию крайних значений (вариант) распределения. Например, если бы наибольшее из перечисленных выше значений было 131, а не 31, средняя арифметическая стала бы равной 44,7, а не 28,0.

(24+25+29+29+30+131)/6 = 44,7

Величина средней арифметической (44,7) находится в "центре тяжести" этих данных, но в действительности плохо их отражает. Под воздействием одного очень большого (выступающего, экстремального) значения средняя арифметическая становится больше, чем остальные значения распределения, за исключением выступающего. Из-за того, что средняя арифметическая настолько чувствительна к воздействию экстремальных значений, она неприменима для описания асимметрично распределенных данных (сдвинутых вариационных рядов).

Медиана.

Медиана является еще одним часто применяемым видом средней. Она особенно подходит для описания асимметрично распределенных данных. Медиана буквально означает середину. Медианой будет являться среднее значение набора данных, упорядоченных по возрастанию. Точнее, медиана это значение, делящее набор данных на две половины, одна из которых состоит из наблюдений больше значения медианы, а другая - из значений меньших медианы. Предположим, например, что имеется набор значений систолического давления крови (в мм Hg): 110,120,122,130,180.

В этом примере два значения больше 122, а два других меньше; таким образом медиана равна 122 мм Hg, значению третьего наблюдения. Заметьте, что величина средней арифметической (132 мм Hg) больше 4 из 5 значений.

Определение медианы набора данных

1. Расположите наблюдения по возрастанию или по убыванию.

2. Найдите номер среднего по порядку значения по следующей формуле:

Номер среднего по порядку = (n+1)/2

а. Если число наблюдений (n) нечетно, средним по порядку будет одно изнаблюдений.

б. Если n четно, среднее по порядку попадает между двумя наблюдениями.

3. Определите значение медианы:

а. Если средним по порядку является одно из наблюдений (то есть, если n нечетно), медиана равна значению этого наблюдения.

б. Если среднее по порядку попадает между двумя значениями (то есть, если п четно), медиана равна среднему арифметическому этих значений.

Пример с нечетным числом наблюдений:

Покажем на этом примере, как найти медиану следующего набора данных, где n=5:

13,7,9, 15, 11

1. Упорядочим значения наблюдений в возрастающем или в убывающем порядке. Можно упорядочить данные либо в виде 7, 9, 11, 13, 15, либо в виде 15, 13, 11, 9, 7

2. Найдем номер среднего по порядку.

Номер среднего по порядку = (n+1)/2 = (5+1 )/2 = 3 Поэтому медиана приходится на третье наблюдение.

3. Определим значение (оно равно 11)

Пример с четным числом наблюдений:

Покажем на примере, как найти медиану следующего набора данных, где n=6:

15, 7, 13, 9, 10, 11

1. Упорядочим данные в возрастающем или в убывающем порядке. 7, 9,10,11,13,15

2. Найдем номер среднего по порядку.

Номер среднего по порядку = (п+1)/2 = (6+1 )/2 =3,5. Поэтому медиана находится между третьим и четвертым значениями.

3. Определим значение медианы. Медиана равна среднему значений третьего и четвертого наблюдений, т. е. будет равна 10,5. Медиана =(11 +10)/2=10,5

Пример. В этом примере найдем медианы 5 переменных А-Е, значения которых даны ниже.

А: 0,0,1,1,1,5,9,9,9,10,10

В: 0,4,4,4,5,5,5,6,6,6,10

C: 0,1,2,3,4,5,6,7,8,9,10

D: 0,1,1,2,2,2,3,3,3,4,10

Е: 0,6,7,7,7,8,8,8,9,9,10

1. Расположим наблюдения по возрастанию.

2. Найдем номер среднего по порядку элемента: (11 наблюдений + 1)/2 = 12/2 = 6

3. Определим значение медианы, которое будет 6-м по порядку наблюдением. Медиана переменных А, В и С равна 5. Медиана переменной D= 2 Медиана переменной Е = 8

В отличие от средней арифметической, медиана не так сильно подвержена воздействию крайних значений распределения. Обратите внимание, что следующие наборы данных различаются только последним наблюдением:

Набор А: 24, 25, 29, 29, 30, 31 среднее = 28,0, медиана = 29

Набор В: 24,25,29,29,30, 131 среднее 44,7, медиана= 29

Различие в одном наблюдении значительно изменяет величину средней арифметической, но совершенно не меняет значение медианы. Таким образом, использование медианы более предпочтительно, если вариационный ряд смещен в одну или в другую сторону, или если набор данных имеет несколько очень больших или очень маленьких значений.

Мода.

Мода - это значение, наиболее часто встречающееся в наборе данных. Например, мода следующего набора данных по количеству родов в прошлом равна 1, так как это значение встречается 4 раза - чаще любого другого значения: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3,4, 6

Обычно моду вычисляют путем построения таблицы частотного распределения, в которую вносят частоту встречаемости каждого из значений. Если оказывается, что каждое значение встречается один раз (или одинаковое количество раз), то у такого распределения не будет моды Если окажется, что два значения встречаются чаще других, то у распределения будет более одной моды.

Пример: Покажем на примере как найти моду для следующего набора данных: 29, 31, 24, 29, 30 и 25 дней.

  1. Расположим данные в виде частотного распределения, указав значения переменной (х,), и сколько раз эти значения встречаютя (f,):
 

xi

fi

 

24

1

 

25

1

 

29

2

 

30

1

 

31

1

2. Определим значение, встречающееся чаще других:

Мода = 29 дней

Пример: Покажем как найти моду следующего набора данных: 15,9, 19, 13, 17, 11.

1. Расположим данные в виде таблицы частотного распределения, как это было сделано

 

xi

fi

 

9

1

 

11

1

 

13

1

 

15

1

 

17

1

 

19

1

2. Из-за того, что все значения имеют одинаковую частоту, у этого набора данных мода отсутствует.

Пример: Покажем как найти моду для следующего набора данных: 17, 9, 15, 9, 17, 13

1. Расположим данные в виде таблицы частотного распределения, как это было сделано выше.

 

xi

fi

 

9

2

 

13

1

 

15

1

 

17

2

2. Из-за того, что два значения встречаются дважды, у распределения две моды, 9 и 17. Такое распределение называют бимодальным.

Полуразмах.

Полуразмах подсчитывается как сумма максимального и минимального значений, деленная пополам. В случае расчета значения полуразмаха набора данных о возрасте (единица измерения - годы жизни) к числителю добавляют единицу. Обычно расчет величины полуразмаха проводят на начальном этапе перед проведением анализа данных. Формулы для вычисления полуразмаха значений набора данных (наблюдений):

Полуразмах (большинство видов данных) = (х1 + хn)/2

Полуразмах (для данных о возрасте) = (x1 + хn + 1)/2

Пример: Покажем как найти полуразмах значений для каждой из пяти переменных А-Е, значения которых приведены ниже.

А: 0, 0,1,1, 1,5, 9, 9, 9, 10, 10

В: 0,4, 4, 4, 5, 5, 5, 6, 6, 6, 10

C: 0, 1,2, 3,4, 5, 6, 7, 8, 9, 10

D: 0,1, 1,2, 2, 2, 3,3, 3,4, 10

Е: 0, 6, 7, 7, 7, 8, 8, 8, 9, 9, 10

1. Расположим наблюдения в порядке возрастания.

2. Определим наименьшее и наибольшее значения: 0 и 10 для всех пяти распределений

3. Подсчитаем полуразмах (0 + 10)/2 = 10/2 = 5 для всех пяти распределений

Возрастные переменные отличаются от большинства других, так как возраст не подчиняется обычным правилам округления до ближайшего целого. Человек в возрасте 17 лет и 360 дней не может заявить, что ему 18 лет в течение, по меньшей мере, пяти последующих дней. Рассмотрим следующий пример. В конкретном детском саду детей распределяют по группам в соответствии с возрастом по состоянию на 1 сентября. В группе №2 должны находиться дети не моложе двух лет, но не достигшие еще 3-х летнего возраста по состоянию на 1 сентября. Другими словами, каждому ребенку во 2-ой группе 1 сентября два года. Каков полуразмах возрастов детей во 2-ой группе 1 сентября?

В некоторых ситуациях достаточно использовать приблизительное значение полуразмаха, которое, в данном случае, будет равно 2 (годам). Вспомним, однако, что вычисление полуразмаха является промежуточным этапом при других статистических вычислениях. Поэтому, иногда хотят быть более точными. Допустим, что некоторым детям только что исполнилось 2 года. Другим может быть почти 3 года. Пренебрегая сезонными колебаниями в рождаемости и предполагая, что количество детей в группе велико, дни рождения будут распределены приблизительно равномерно в течение всего периода времени (один год). День рождения самого младшего ребенка может приходиться на 1 сентября и ему будет ровно 2,000 года. День рождения самого старшего может приходиться на 2 сентября, ему будет 2,997 лет. В статистических целях среднее значение возраста и полуразмах этой теоретической группы 2-летних детей равны 2,5 года.

Средняя геометрическая.

Как было показано выше, средняя арифметическая хорошо подходит для описания данных, которые подчиняются закону нормального распределения. Иногда же, форма частотного распределения другая, а данные описываются формулами экспоненциальной (1, 2, 4, 8, 16 и т.д.) или логарифмической (1/2, 1/4, 1/8, 1/16 и т.д.) кривых. Например, при определении количества антител в сыворотке крови, образцы сыворотки последовательно разводят в 2 раза до тех пор, пока становится невозможным определить антитела. Таким образом, если концентрация первого образца была равна 1, после его разведения концентрация становится равной 1/2 от первоначальной. По мере дальнейшего разведения образца в 2 раза концентрация уменьшается до 1/4, 1/8, 1/16 и так далее. Иногда говорят, что эти растворы (и данные упорядоченные подобным образом) измеряются на логарифмической шкале. Для такого рода данных лучше всего (и правильнее всего) использовать среднюю геометрическую. Рассмотрим значение 100 и основание 10 и вспомним, что логарифм есть степень, в которую возводится основание. В какую степень нужно возвести основание (10), чтобы получить значение 100? Так как 10 умноженное на 10 (или 102) равно 100, логарифм 100 по основанию 10 равен 2. Подобным же образом, логарифм 16 по основанию 2 равен 4, так как 24 = 2•2•2•2 =16. Экспонента возводит основание в степень (логарифм). Например, экспонента 2 по основанию 10 равна 102 или 100. Экспонента 4 по основанию 2 равна 24 или 16. Большинство титров даются в виде множителей 2 (например, 2, 4, 8), так что проще всего использовать 2 в качестве основания. Средняя геометрическая подсчитывается как корень n-й степени произведения n наблюдений. Геометрическая средняя используется в случае, когда логарифмы наблюдений, а не сами наблюдения, распределены нормально. Ситуации такого рода характерны при разведении лабораторных проб, например, проб сыворотки крови или проб взятых из окружающей среды. Для подсчета геометрической средней вам потребуется научный калькулятор с функциями log и yx. Формула для подсчета средней геометрической следующая:

На практике средняя геометрическая подсчитывается по формуле:

Пример: Покажем на примере как подсчитывать среднюю геометрическую следующего набора данных:10,10,100,100,100,100,10000,100000,100000,1000000

Так как все значения представляют собой степени 10, имеет смысл использовать 10 в качестве основания логарифмов. Вспомним что:

100 = 1 (Любое число в степени 0 дает 1)
101 = 10
102= 100
103= 1000
104= 10000
105= 100000
106= 1000000
107=10000000
и так далее

  1. Прологарифмируем каждое значение (в данном случае по основанию 10).

    log10(xi) =1,1,2,2,2,2,4,5,5,6

  2. Подсчитаем среднее значений логарифмов, сложив их и разделив на число наблюдений (в данном случае 10).

Среднее log10(xi)=(l+l+2+2+2+2+4+5+5+6)/10 =30/10 =3

3. Возведя среднее логарифмов в степень основания получаем среднюю геометрическую, 103 =1000. Средняя геометрическая набора данных, приведенных выше, равна 1000.

Таким образом, средние величины являются обобщенной характеристикой набора наблюдаемых величин непрерывной (количественной) переменной. Наиболее распространенным видом средней является средняя арифметическая, часто называемая просто средней. Средняя арифметическая наиболее информативна, если данные распределены нормально. Она представляет собой центр тяжести набора данных. К сожалению, средняя арифметическая довольно чувствительна к влиянию экстремальных значений переменной и ее значение смещается в сторону экстремальных значений. Другой вид средней - медиана - не чувствительна к влиянию экстремальных значений. Медиана - это середина набора данных, половина из которых лежит ниже (или левее) медианы, а другая половина выше (или правее). В случае, когда набор данных асимметричен или есть несколько экстремальных значений с одной стороны, применение медианы будет более предпочтительно. Мода это просто наиболее часто встречающееся значение. В то время как любой набор данных всегда обладает одним средним арифметическим и одной медианой, у набора данных может быть одна мода, ни одной моды или несколько мод. Мода полезна в том случае, когда нужно узнать какие значения наиболее, так сказать, популярны. Средняя геометрическая должна применяться в тех случаях, когда данные подчиняются законам экспоненциального или логарифмического распределения. Средняя геометрическая часто используется при обработке лабораторных данных (титров).

Показатели варьирования или разброса.

Глядя на график частотного распределения приблизительно нормально распределенных данных можно заметить две характерные особенности: 1) кривая имеет пик, обычно недалеко от центра и 2) кривая плавно спадает по обе стороны от пика. Подобно тому, как средние величины использовались для описания местоположения пика, показатели варьирования указывают насколько велик разброс (варьирование) данных вокруг центрального значения. Существует несколько показателей варьирования.

Размах, минимальное значение, максимальное значение.

Размахом набора данных называется разница между наибольшим (максимальным) и наименьшим (минимальным) значениями набора данных. В статистике размах обычно выражают одним числом -разностью максимального и минимального значений. В эпидемиологии величину размаха принято показывать двумя цифрами - минимальным и максимальным значениями.

Пример: Покажем на примере, как найти минимальное значение, максимальное значение и размах следующего набора данных: 29, 31, 24, 29, 30, 25

  1. Упорядочим данные по возрастанию от наименьшего к наибольшему.

    24,25,29,29,30,31

  2. Найдем минимальное и максимальное значения:
  3. минимальное = 24, максимальное =31

  4. Подсчитаем размах:

размах = максимальное - минимальное= 31 -24 = 7.

Таким образом, размах равен 7.

Пример : Покажем на примере как найти размах каждой переменной (А-Е), значения которых приведены ниже.

Лицо №

Переменная А

Переменная В

Переменная С

Переменна D

Переменная Е

1

0

0

0

0

0

2

0

4

1

1

6

3

1

4

2

1

7

4

1

4

3

2

7

5

1

5

4

2

7

6

5

5

5

2

8

7

9

5

6

3

8

8

9

6

7

3

8

9

9

6

8

3

9

10

10

6

9

4

9

11

10

10

10

10

10

Сумма:

55

55

55

31

79

Средняя:

5

5

5

2,8

7,2

Медиана:

5

5

5

2

8

Полуразмах:

5

5

5

5

5

Минимум:

0

0

0

0

0

Максимум:

10

10

10

10

10

1. Упорядочим наблюдения.

2. Определим наибольшее и наименьшее значения и подсчитаем разность. Максимальное значение каждой переменной = 10 Минимальное значение каждой переменной = 0 Поэтому размах каждой переменной =10-0=10.

Очевидно, что переменные А, В и С отличаются друг от друга, но их средние, медианы, полуразмахи, максимальные значения, минимальные значения и размахи не улавливают этого различия. В случае переменных D и Е полуразмах, минимальное значение, максимальное значение и размах также не смогли уловить разницу в переменных.

Процентили, квартили и межквартильный размах.

Максимальное значение частотного распределения можно рассматривать как такое значение набора данных, с которым совпадают или являются меньше него 100% наблюдений. Когда максимальное значение рассматривают таким образом, его называют сотым процентилем. Используя такой же подход, говорят, что медиана, с которой совпадают или являются меньше ее 50% данных, является 50-ым процентилем. N-ым процентилем распределения называется значение, с которым совпадают или находятся ниже N процентов данных. Помимо медианы часто используются 25-й и 75-й процентили. 25-й процентиль называется также первым квартилем, медиана или 50-й процентиль является одновременно вторым квартилем, 75-й процентиль -третьим, а 100-й процентиль соответственно является четвертым квартилем. Межквартильный размах представляет собой центральную часть распределения и подсчитывается как разность между третьим и первым квартилями. В этом диапазоне лежит примерно половина набора нормально распределенных данных, вне его с каждой стороны находится примерно по четверти наблюдений.

Чтобы подсчитать межквартильный размах, вначале нужно найти первый и третий квартили. Подобно нахождению медианы, вначале нужно упорядочить наблюдения, затем найти позицию квартиля. Значением квартиля является значение наблюдения на этой позиции, а в случае, когда квартиль попадает между двумя наблюдениями, его значение находится между значениями этих наблюдений с одной из двух сторон от этой точки.

1. Упорядочьте наблюдения по возрастанию.

2. Найдите позиции первого и третьего квартилей по формулам:

позиция 1-го квартиля (Q1) = (n+1)/4

позиция 3-го квартиля (Q3) = 3*(n+1)/4 = 3-Q1

3. Определите значения 1-го и 3-го квартилей

- Если квартиль приходится на наблюдение (то есть если его позиция - целое число), значение квартиля будет равно величине этого наблюдения. Например, если квартиль находится в 20-й позиции, его значение будет равно значению 20-го наблюдения.

- Если квартиль попадает между двумя наблюдениями, значением квартиля будет значение меньшего наблюдения плюс указанная часть разности между двумя наблюдениями. Например, если позиция квартиля равна 20 1/4, квартиль попадает между 20-м и 21-м наблюдениями, и его значение будет равно значению 20-го наблюдения плюс 1/4 разности между значением 20-го и 21-го наблюдений.

4. Межквартильный размах равен разности значений Q3 и Q1

Рисунок 3.8 Средняя половина наблюдений частотного распределения лежит в пределах межквартильного размаха

  1. Упорядочим данные по возрастанию.
  2. Предположим, что имеются такие данные: 13, 7, 9, 15, 11, 5, 8,4

    Упорядочим их по возрастанию: 4, 5, 7, 8, 9, 11, 13, 15

  3. Найдем позиции 1-го и 3-го квартилей. Всего имеется 8 наблюдений, поэтому n=8.
  4. Позиция 1-го квартиля (Q1) = (n+l)/4 = (8+1 )/4 = 2,25

    Позиция 3-го квартиля (Q3)=3*(n+1)/4=3*(8+1)/4 =6,75

    Таким образом, Q1 находится на четверти пути между 2-м и 3-м наблюдениями, а Q3

    находится на три четверти пути между 6-м и 7-м наблюдениями.

  5. Определим значения 1-го и 3-го квартилей.
  6. Значение Q1: Позиция Q1 была 2 1/4; поэтому значение Q1 равно значению 2-го

    наблюдения плюс одна четвертая разности между значениями 3-го и 2-го наблюдений.

    Значение 3-го наблюдения (смотрите пункт1): 7

    Значение 2-го наблюдения: 5

    Q1 =5 +(1/4)*(7-5) =5 +2/4 =5,5

    Значение Q3: Позиция Q3 была 6 3/4; поэтому значение Q3 равно значению 6-го наблюдения плюс три четвертых разности между значениями 7-го и 6-го наблюдений. Значение 7-го наблюдения (смотрите пункт 1): 13

    Значение 6-го наблюдения: 11

    Q3=11 +(3/4)*(13-11)=11 +(3-2)/4=11 +6/4=12,5

  7. Подсчитаем межквартильный размах по формуле Q3 - Q1.

Q3 = 12,5 (смотрите пункт 3)

Q1=5,5

Межквартильный размах = 12,5 - 5,5 = 7

Пример :Покажем на примере, как найти 1-й, 2-й (медиану) и 3-й квартили и межквартильный размах данных по инкубационному периоду гепатита А: 29, 31, 24, 29, 30, 25

1. Упорядочим наблюдения по возрастанию: 24, 25, 29, 29, 30, 31 2,3. Найдем Q1, медиану и Q3:

Q1 находится в позиции (6+1)/4 = 1,75, так Q1 расположено на три четверти пути между 1-м и 2-м наблюдениями:

Q1 = 24 + (3/4)*(25-24)= 24,75

Медиана находится в позиции (n+1)/2 = 7/2 =3,5, поэтому медиана = (29+29)/2 = 29

Q3 находится в позиции 3*(6+1)/4 = 5,25, таким образом Q3 находится на четверти пути между 5-м и 6-м наблюдениями;

Q3 = 30 + (1/4)*(31-30) = 30,25

4. Межквартильный размах = 30,25 - 24,75 = 5,5 дней

Заметьте, что расстояние между Q1 и медианой равно 29-24,75 = 4,25. С другой стороны, расстояние между Q3 и медианой равно всего лишь 30,25-29 = 1,25. Это говорит о том, что данные смещены в сторону меньших значений (смещены влево), что можно заключить из анализа значений шести наблюдений.

Описанный выше метод подсчета квартилей не является единственным. Другие методы и другое програмное обеспечение могут дать другие результаты.

Как правило, квартили и межквартильный размах используются для описания вариабельности признака при использовании медианы в качестве меры центрального расположения. При использовании средней арифметической вместе с ней используется стандартное отклонение, описываемое в следующем разделе.

Таким образом, любой набор данных можно описать при помощи 5 основных значений:

(1) наименьшего наблюдения (минимум)

(2) первого квартиля

(3) медианы

(4) третьего квартиля

(5) наибольшего наблюдения (максимум)

Взятые вместе эти значения дают очень хорошее описание центра, разброса и формы распределения. Эти пять значений используются при построении бокс - диаграммы, особого вида графического представления данных. Применение бокс - диаграммы обсуждается в главе 4.

Дисперсия и стандартное отклонение.

Ранее было показано, что если вычесть среднюю арифметическую из каждого наблюдения, сумма полученных разностей будет равна 0. Эта идея вычитания средней из каждого наблюдения лежит в основе расчета двух показателей варьирования - дисперсии (называемой еще вариансой) и стандартного отклонения. Для получения этих показателей разности возводятся в квадрат с целью устранения отрицательных чисел. Затем квадраты разностей складываются и делятся на п-1 для нахождения "среднего" квадрата разности. Такая "средняя" величина называется дисперсией и обозначается латинской буквой s2 - сигма. Чтобы вернуться к первоначальной размерности, из s2 (значения дисперсии) извлекается квадратный корень. Квадратный корень из дисперсии называется стандартным отклонением. Ниже приведены вычисления, примененные к рассмотренному ранее примеру.

Стандартное отклонение

Дисперсия и стандартное отклонение являются показателями разнообразия или разброса значений отдельных наблюдений вокруг среднего значения. Дисперсия представляет собой среднюю суммы квадратов разностей значений каждого наблюдения и средней арифметической. Обычно в формулах она обозначается как s2. Стандартным отклонением называется квадратный корень дисперсии. Обычно в формулах оно обозначается s. Эти показатели разнообразия подсчитываются по следующим формулам:

Формулы для расчета дисперсии и стандартного отклонения

Формулы, приведенные выше, могут использоваться для вычисления дисперсии и стандартного отклонения, но они громоздки в случае большого набора данных. Следующие формулы более пригодны для вычисления этих показателей, так как в них не требуется вначале подсчитывать среднее:

Сравните два члена формулы - и . Первый указывает на то, что вначале возводят в квадрат значение каждого наблюдения, а затем находят сумму квадратов величин. Во втором говорится, что сначала находится сумма наблюдений, а затем квадрат суммы.

Покажем на примерах, как нужно использовать оба вида формул.

Пример:В данном примере используются основные формулы для подсчета дисперсии (s2) и стандартного отклонения (s) переменной С:

0, 1,2,3,4,5,6,7,8,9, 10.

Столбец 1

xi

Столбец 2

хi

Столбец 3

i-х)2

Столбец 4

xi2

0

0-5,0 =-5

25

0

1

1-5,0 =-4

16

1

2

2-5,0=-3

9

4

3

3-5,0 =-2

4

9

4

4-5,0=-!

1

16

5

5-5,0=0

0

25

6

6 - 5,0 = 1

1

36

7

7-5,0=2

4

49

8

8 - 5,0 = 3

9

64

9

9-5,0=4

16

81

10

10-5.0=5

25

100

55

0

110

385

  1. Подсчитаем среднюю арифметическую (смотрите первый столбец, xi).
  2. Вычтем величину средней арифметической из значения каждого наблюдения для определения отклонений от среднего (смотрите 2-й столбец i,-х).
  3. Возведем отклонения в квадрат (смотрите 3-й столбец, (хi-х)2,).
  4. Сложим квадраты отклонений (смотрите 3-й столбец,).
  5. Поделим сумму квадратов отклонений на n-1, чтобы найти величину дисперсии:

  6. Извлечем квадратный корень из дисперсии для подсчета стандартного отклонения:

s=3,3

Пример: В данном примере используется расчетная формула для определения дисперсии и стандартного отклонения данных, использовавшихся в последнем примере.

xi xi2

0

0

1

1

2

4

3

9

4

16

5

25

6

36

7

49

8

64

9

81

10

100

Всего 55

385

  1. Подсчитаем значение формулы, возведя в квадрат значение каждого наблюдения и определим сумму квадратов (смотрите второй столбец, хi2, в таблице выше).

  2. Подсчитаем значени в формуле, определив сумму значений наблюдений и возведя ее в квадрат (смотрите первый столбец, хi2).
  3. Подсчитаем числитель:
  4. Подсчитаем знаменатель, вычтя 1 из n и умножив полученное на n:
  5. n(n-1)= 11-10 =110

  6. Завершим вычисления дисперсии, поделив числитель на знаменатель:
  7. s2= 1210/110 =11,0

  8. Найдем стандартное отклонение, взяв квадратный корень из дисперсии:

Чтобы проиллюстрировать отношение стандартного отклонения и среднего к нормальной кривой, рассмотрим нормально распределенные данные, показанные на рисунке 3.9. 68,3% площади под нормальной кривой лежит в пределах +/- величины одного стандартного отклонения от значения средней арифметической. Примерно 95,5% площади находится в пределах +/- 2 стандартных отклонения, а 99,7% площади в пределах +/- 3 стандартных отклонения от средней. В равной степени правильно и то, что 95% площади находится в пределах +/- 1,96 стандартных отклонений от средней.

Рисунок 3.9 Площади под нормальной кривой, лежащие в пределах 1, 2 и 3 стандартных отклонений с каждой стороны от медианы

SD- стандартное отклонение

Средняя арифметическая и стандартное отклонение могут использоваться для краткого описания нормально распределенных данных. Рассмотрим, к примеру, представительную выборку уровней холестерина в сыворотке нескольких тысяч человек в возрасте около 3 5 лет. Можно представить уровни холестерина по каждому человеку (например, в виде таблицы), либо показать кривую распределения, либо просто указать значения средней арифметической и стандартного отклонения. Данные частотного распределения приведены в таблице 3.4. Для того, чтобы в сжатом виде указать особенность этого набора данных, достаточно указать, что средняя арифметическая равна 213, а стандартное отклонение - 42.

Таблица 3.4 Уровни холестерина в сыворотке крови (1)

Холестерин (мг/дл)

Частота

60-79

9

80-99

7

100-119

25

120-139

86

140-159

252

160-179

559

180-199

810

200-219

867

220-239

764

240-259

521

260-279

318

280-299

146

300-319

66

320-339

22

340-359

7

360-379

4

380-399

9

400-419

1

420-439

1

440-479

0

480-499

1

500-619

0

620-639

1

Всего

446

Подводя итоги отметим, что меры разброса количественно определяют степень разброса или изменчивость наблюдаемых значений непрерывной переменной. Простейшей мерой разброса является размах - разность между наибольшим и наименьшим значениями набора данных. Очевидно, что эта мера раброса очень чувствительна к влиянию крайних (экстремальных) значений. В случае нормально распределенных данных стандартное отклонение используется в сочетании со средней арифметической. Стандартное отклонение указывает, как близко находятся величины от среднего значения. Для нормально распределенных данных диапазон от "минус одного стандартного отклонения" до "плюс одного стандартного отклонения" включает 68,3% данных. Около 95% данных попадают в диапазон от -1,96 стандартных отклонений до +1,96 стандартных отклонений. Для описания смещенных (асимметрично расположенных) данных используется межквартильный размах в сочетании с медианой. Межквартильный размах представляет собой диапазон от 25-го процентиля (первого квартиля) до 75-го процентиля (третьего квартиля), и включает примерно, 50% данных.

Введение в теорию статистических выводов.

Средние значения и показатели разброса часто рассчитываются для описания конкретного набора данных. Однако в других случаях, когда данные представляют собой выборку из генеральной совокупности (популяции), бывает необходимо экстраполировать выводы, сделанные на основании анализа выборки, на всю популяцию, из которой эта выборка была взята. Такую экстраполяцию выводов называют статистическими выводами. Известно большое число статистических методов, позволяющих сделать эти выводы. В этом разделе рассматриваются некоторые методы, которые применяются при условии, что анализируемые данные нормально распределены.

Когда делается вывод исходя из нормально распределенных данных, заключение основывается на отношении стандартного отклонения и среднего и нормальной кривой. Эти отношения, иллюстрируемые на рисунке 3,9, используются при получении выводов. Если график распределения данных похож на нормальную кривую, предполагают, что популяция, из которой были получены данные выборки, нормально распределена. Затем предполагают, что если бы имелись все возможные наблюдения из этой популяции, обнаружилось бы, что 68,3%, 95,5% и 99,7% популяции лежит между средней и +/- 1, +/- 2 и +/- 3 стандартных отклонений соответственно. Также предполагается, что 95% популяции лежит между средней и +/- 1,96 стандартных отклонений.

Стандартная ошибка средней.

Заключения обо всей популяции могут строиться на основе выборочных наблюдений из этой популяции (метод выборки). Средняя выборки может совпадать, а может и не совпадать со средней всей популяции. Если же мы возьмем большое число выборок из одной популяции, то мы получим множество различных средних значений. Эти средние, в свою очередь, будут нормально распределены. Можно использовать различные значения этих средних в качестве нового набора данных и найти среднюю этих средних значений. Средняя средних будет ближе к популяционной (генеральной) средней.

Можно было бы найти стандартное отклонение распределения средних, которое называется стандартной ошибкой средней или просто стандартной ошибкой. Чем она меньше, тем ближе будет средняя любой конкретной выборки к популяционной средней. Удобство выборочного метода исследования заключается в том, что стандартную ошибку средней можно определить исходя из анализа всего лишь одной выборки, не прибегая к повторным исследованиям.

Не следует путать, как это часто делают, стандартное отклонение со стандартной ошибкой средней. Стандартное отклонение является мерой изменчивости (разброса) конкретного набора данных. Стандартная ошибка средней измеряет изменчивость или отклонение средних значений выборок от истинной (популяционной или генеральной) средней.

Формула для определения стандартной ошибки средней (m)

Заметьте, что стандартная ошибка средней зависит от двух составляющих: стандартного отклонения и объема выборки. Чем больше наблюдения отличаются от средней, тем больше "неуверенность" в величине средней, и тем больше стандартная ошибка средней. Чем больше объем выборки, тем больше уверенность в том, что получаемое значение будет близко к величине генеральной средней и тем меньше, соответственно, стандартная ошибка средней.

Пример: Специалисты по гигиене труда измерили рост 80 случайно отобранных мужчин, работавших на одном из заводов. Средний рост составил 69,713 дюймов со стандартным отклонением, равным 1,870 дюймов. Покажем, как подсчитывается стандартная ошибка средней роста работников этого завода.

Доверительный интервал.

Имея выборку объемом 30 или более значений, можно использовать величину средней арифметической, стандартной ошибки средней и знание площадей под нормальной кривой для определения интервала, внутри которого находится истинное среднее популяции, и степени уверенности в величине этого интервала. Например, в предыдущем примере с ростом работников, средний рост составлял 69,713 дюймов. Стандартная ошибка средней была равна 0,209. Вычитая и прибавляя стандартную ошибку средней из среднего роста, находим:

вычитая: 69,713 - 0,209 =69,504, прибавляя: 69,713 +0,209 =69,922

Эти значения представляют собой рост рабочих в дюймах равный +/- 1 стандартная ошибка (m) от полученной средней. Как показано ниже на рисунке 3.10, заштрихованная площадь показывает интервал, охватывающий 68,3% площади под нормальной кривой. Это означает, что если измерить рост многих выборок мужчин, работающих на заводе N, то окажется, что средние значения 68,3% выборок будут находиться в пределах от 69,504 дюймов до 69,922 дюймов. Мы можем сделать вывод, что можно быть на 68,3% уверенным в том, что истинное значение средней всей популяции находится между этими двумя значениями. Другими словами, вероятность того, что популяционная средняя находится в этих пределах, равна 68,3%.

При описании явлений в медицине желательно быть более уверенным в истинности делаемых выводов. Как правило, доверительные пределы берутся равными 95%. Обычно эпидемиологи трактуют 95% доверительный интервал как диапазон значений, согласующийся с данными.

Рисунок 3.10 Частотное распределение популяции рабочих завода N вместе с доверительными пределами

Формула для подсчета 95% доверительного интервала

Как было отмечено ранее, 95% площади под нормальной кривой лежит в пределах +/- 1,96 стандартных отклонений от средней. Эта информация используется для подсчета 95% доверительного интервала.

Нижний 95% доверительный предел = х - (1,96*m)

Верхний 95% доверительный предел = х + (1,96*m)

Для расчета 95% доверительного интервала надо сначала умножить стандартную ошибку выборочной средней на 1,96. Затем, отняв полученную величину от средней, находим нижний доверительный предел, а прибавив ее, получим верхнюю границу доверительного интервала. Можно утверждать, что значение генеральной средней с вероятностью округленно 95% будет лежать в этих пределах. Эпидемиологи будут интерпретировать эти данные так: можно утверждать с 95% уверенностью, что истинное среднее значение роста всех рабочих завода N находится где-то в указанных пределах. Ширина полученного доверительного интервала показывает, на сколько точны наши предсказания, т. е. с какой уверенностью мы можем перенести данные по нашей выборке на всю совокупность рабочих (популяцию).

Пример:Ниже показано как использовать эти формулы для подсчета 95% доверительных пределов среднего роста работников завода N.

Нижний 95% доверительный предел =69,713 - (1,96)(0,209)=69,713-0,410=69,303

Верхний 95% доверительный предел =69,713 + (1,96)(0,209) =69,713-0,410= 70,123

Вероятность того, что популяционная средняя (истинный средний рост работников завода N) лежит в указанных пределах, равна 95%. Эпидемиологическая интерпретация вычислений такова: данные выборки согласуются с тем, что истинный средний рост лежит в пределах от 69,3 до 70,1 дюймов.Обратите внимание, что 95% доверительный интервал довольно узок (меньше дюйма). Это говорит о том, что оценка среднего роста всей популяции довольно точна.

Средняя арифметическая не является единственным статистическим показателем, для которого можно подсчитать доверительный интервал. Доверительные интервалы часто вычисляются для интенсивных и экстенсивных показателей, для показател OR (отношения шансов) и других показателей в тех случаях, когда нужно сделать выводы обо всей популяции, исходя из характеристик выборки. Интерпретация доверительного интервала остается той же: чем уже интервал, тем точнее наша оценка величины данной характеристики в популяции (и тем больше уверенность в том, что полученное в исследовании среднее значение будет близко к значению популяционной средней).

Выбор соответствующих средних величин и показателей разброса

При описании и сравнении различных наборов данных в эпидемиологии используются все описанные меры центрального расположения и дисперсии, но все они редко применяются к какому-либо одному набору данных. Выбор меры центрального расположения зависит от особенностей распределения данных (таблица 3.5). Мера дисперсии выбирается в соответствии с выбранной мерой центрального расположения.

Таблица 3.5 Применяемые виды средних и показатели разброса в зависимости от вида распределения данных

Вид распределения

Тип средней

Показатель разброса

Нормальное

Средняя арифметическая

Стандартное отклонение

Смещенное

Медиана

Межквартильный размах

Экспоненциальное или логарифмическое

Средняя геометрическая

в этом пособии не рассматривается

Из-за того, что нормальное распределение совершенно симметрично, значения средней, медианы и моды равны, как это показано на рисунке 3.11. Однако на практике, наборы данных редко распределены таким идеальным образом, так что обычно значения средней, медианы и моды различаются. В таких случаях нужно решить, какое из этих значений описывает данные наилучшим образом.

Большое количество статистических тестов и аналитических методов основано на использовании средней арифметической. Поэтому обычно средную арифметическую предпочитают медиане и моде. Когда используется средняя арифметическая, в качестве меры дисперсии берется стандартное отклонение. В то же время, как было отмечено ранее, асимметричные данные влияют на значение среднего, смещая его в направлении экстремальных значений распределения, как это показано на рисунке 3.11. Направления смещения можно определить, сравнив значения средней и медианы. Средняя отклоняется от медианы в сторону асимметрии или смещения.

Рисунок 3.11 Воздействие смещенности на среднюю, медиану и моду

В случае асимметрично расположенных данных предпочитают использовать медиану , а не средную арифметическую, так как на нее не влияет небольшое число очень больших или очень маленьких наблюдений. При использовании медианы в качестве меры дисперсии берется Межквартильный размах. К сожалению, эти меры не так полезны для анализа данных, так как для них известно меньше статистических тестов и аналитических методов.

Из трех перечисленных мер мода наименее пригодна. У некоторых наборов данных нет моды, у других может быть более одной моды. Как правило, моду нельзя использовать при более сложных статистических вычислениях. Тем не менее, мода может помочь в описании некоторых наборов данных. Иногда для адекватного описания набора данных требуются использование нескольких мер центрального расположения. Рассмотрим опрос по поводу курения 200 человек, представленных в таблице 3.6. Анализ данных таблицы 3.6 с использованием всех видов средних и показателей разнообразия признака приводит к следующим результатам.

Средняя = 5,4 , Медиана = 0, Мода = 0,

Наименьшее значение = 0, Наибольшее значение = 40 , Размах = 0-40

Межквартильный размах = 8,8 (0,0-8,8), Стандартное отклонение = 9,5

Таблица 3.6 Число выкуриваемых в среднем сигарет в день (по сообщению учащихся курсов по общественному здравоохранению)

Полученные факты верны, но они недостаточно хорошо отражают данные. Отделив 58 курящих от 142 некурящих, можно получить более информативную картину. Среди 58 (29%) курящих:

Средняя = 18,5 , Медиана = 19,5 , Мода = 20

Наименьшее значение = 2 , Наибольшее значение = 40, Размах = 2-40

Межквартильный размах = 8,5 (13,7-22,25)

Стандартное отклонение = 8,0

Более информативная картина данных выглядела бы таким образом: "142 учащихся (71%) вообще не курят. 58 (29%) курящих, в среднем, выкуривают немногим меньше пачки сигарет в день (средняя= 18,5, медиана = 19,5). Размах составляет от 2 до 40 сигарет в день, причем примерно половина курильщиков выкуривает от 14 до 22 сигарет в день."

Заключение.

Построение вариационных рядов (группировка значений в виде частотного распределения признаков), расчет средних значений и показателей разброса является хорошим способом обобщения количественных данных (примером являются такие переменные, как рост, диастолическое давление крови, величина инкубационного периода, количество половых партнеров в течение жизни и т.п.).

Распределение многих параметров и биологических характеристик (например, величина IQ -коэффициента интеллектуального развития), имеют так называемое "нормальное" или гауссовское (симметричное в форме колокола) распределение. Распределения некоторых других характеристик смещены вправо (то есть количество больших значений мало, как в случае числа родов) или смещены влево (малое количество маленьких значений). Некоторые характеристики распределены в целом нормально, но некоторые отдельные данные лежат далеко от остальных. Некоторые характеристики, в особенности данные лабораторных анализов растворов проб, подчиняются логарифмическому распределению. Наконец, есть параметры, которые не подчиняются никакому из описанных выше видов распределений (например, равномерное распределение). Характер распределения данных является определяющим фактором при выборе и использовании того или иного вида средней или показателя разброса.

Средние величины представляют собой значения, находящиеся в центре наблюдаемого распределения значений. Различные средние указывают на положение центра по-разному. Средняя арифметическая задает центр тяжести или точку равновесия всех данных. Медиана является серединой данных, слева и справа от которой лежит половина всех данных. Мода представляет наиболее часто встречающееся значение. Средняя геометрическая сравнима со средней арифметической, расположенной на логарифмической шкале.

Показатели разброса описывают вариабельность данных наблюдаемого распределения. Размах измеряет разброс данных от наименьшего до наибольшего значения. Стандартное отклонение, обычно используемое в сочетании со средней арифметической, отражает, насколько близко к средней лежат данные. В случае нормально распределенных данных 95% всех наблюдений попадают в интервал от -1,96 до +1,96 стандартных отклонений. Межквартильный размах, обычно используемый в сочетании с медианой, представляет диапазон от 25-го процентиля до 75-го процентиля, или промежуток в котором лежит приблизительно 50% данных.

Нормально распределенные данные обычно хорошо описываются при помощи средней арифметической и стандартного отклонения. Асимметрично распределенные вариационные ряды, у которых некоторые значения очень велики или очень малы, обычно описывают при помощи медианы и межквартильного размаха. Данные, распределенные логарифмически, обычно, характеризуются при помощи средней геометрической. Мода и размах могут использоваться с данными любого вида в качестве вспомогательных показателей. Они редко используются сами по себе.

Статистические выводы - это обобщение результатов, полученных для выборки, на всю популяцию, из которой эта выборка была сделана. Выборочная средняя дает представление о величине генеральной или популяционной средней. Доверительные интервалы выборочной средней показывают, насколько точна (или неточна) наша оценка генеральной средней. Величина доверительного интервала средней арифметической выборки зависит от значения стандартной ошибки этой средней. В свою очередь, стандартная ошибка зависит от степени разнообразия данных (стандартного отклонения) и объема выборки. Наиболее часто в эпидемиологии используется 95% доверительный интервал: в 95% случаях популяционная средняя попадет в диапазон от -1,96 до +1,96 стандартных ошибок (нижний и верхний 95%-е доверительные пределы). Доверительные интервалы рассчитываются не только для выборочных средних, но и для других статистических показателей.

Литература.

1. Center for Disease Control. Health status of Vietnam veterans. Volume 3: Medical Examination. 1989.

2. Matte TD, HgueraJP, Ostrowski S, etal. Lead poisoning among household members exposed to lead-acid battery repair shops in Kingston, Jamaica, bit J Epidemiol 1989; 18:874-881.

3. National Center for Health Statistics. Advance Report of Annual Mortality Statistics, 1987. Monthly Vital Statistics Report, Vol 38 no.5 Supplement. Hyattsville, MD, PHS 1989. p.21.