Глава 4: Наглядное представление эпидемиологических данных



Когда набирается слишком много данных, чтобы рассматривать их по отдельности, можно использовать таблицы, графики и диаграммы для организации, обобщения, наглядного и эффективного изображения данных. Используя таблицы, графики и диаграммы, можно анализировать наборы данных размером от нескольких десятков до нескольких миллионов записей. Они дают возможность определять, исследовать, понимать и представлять распределения, тенденции и взаимоотношения между данными. Таким образом, таблицы, графики и диаграммы очень важны не только для описательной или аналитической эпидемиологии, но и тогда, когда мы хотим сообщить об обнаруженных эпидемиологических фактах другим людям.

Введение в частотные распределения, графики и диаграммы

Анализ данных является важной составляющей работы эпидемиолога. Для того, чтобы анализ был эффективным, перед применением аналитических приемов эпидемиолог должен поближе познакомиться с данными. Если данных немного, эпидемиолог может начать работу с просмотра отдельных данных, содержащихся, например, в построчном списке. Следующим этапом будет обобщение данных и представление их в виде нескольких таблиц распределения. Иногда этого бывает достаточно для анализа, в особенности, когда данных немного, и полученные выводы очевидны. Когда данных много, и структура их более сложная, на помощь приходят графики и диаграммы, давая возможность более отчетливо представить особенности распределения и тенденции, а также выявить выступающие или "выскакивающие" значения, которые могут говорить о новых важных фактах или об ошибках ввода и кодирования, которые нужно исправить. Таким образом, таблицы распределения, графики и диаграммы весьма важны при проверке качества и анализе данных.

Таблицы распределения, графики и диаграммы могут в дальнейшем служить в качестве наглядного материала при объяснении результатов анализа данных. Подготавливая таблицы, графики и диаграммы, не забывайте о том, что их главной целью является передача информации, содержащейся в данных.

Таблицы распределения

Таблица распределения (в дальнейшем просто таблица) - это набор данных, размещенных в виде столбцов и строк. В таблицу можно занести практически любую количественную информацию. Таблицы используются при демонстрации закономерностей, исключений, различий и взаимосвязи данных. В дополнение таблицы зачастую служат в качестве основы при подготовке более наглядной формы представления данных, такой, как график или диаграмма, с возможной потерей некоторых подробностей.

Таблицы, предназначенные для демонстрации данных, должны быть как можно более простыми. Две или три небольшие таблицы, каждая из которых показывает один из аспектов данных, легче воспринимаются, чем одна большая таблица, перегруженная множеством подробностей или переменных.

Таблица должна быть самодостаточной. Это значит, что если таблицу изъять из контекста выступления, она все равно должна передавать читателю всю информацию, необходимую для понимания данных. Чтобы создать самодостаточную таблицу, следуйте приведенным ниже рекомендациям.

- Снабдите таблицу коротким и ясным заголовком, говорящим о том, как данные распределены в пространстве и во времени, т.е. по принципу: "Кто?", "Где?" и "Когда?" (заболел). Если используется несколько таблиц, то в начале заголовка поместите номер таблицы (например, таблица 4.1).

- Озаглавьте каждую строку и столбец коротко и ясно, указав единицы измерения данных (например, годы, мг/дл, мм, показатель на 100000 человек и т.п.).

-Приведите суммарные значения строк и столбцов. Если указываются проценты (%), также укажите, что их сумма равна 100%.

- В сносках дайте объяснения всех используемых сокращений, шифров или условных обозначений (например, "ПВС - означает первичный и вторичный сифилис" и т.д.)

- Отметьте в сноске все исключения (например, "1 больной и 2 контроля были исключены из анализа неполных данных").

- Если данные заимствованы, укажите в сноске источник данных.

Таблицы распределения одной переменной

В описательной эпидемиологии наиболее простым видом таблицы является таблица частотного распределения одной переменной. Ее пример приведен в таблице 4.1 а. (Частотные распределения обсуждались выше, во второй и третьей главах). В такой таблице в первом столбце ставят значения классов или категории такой переменной как, например, возраст или пол. Во втором столбце указывают число лиц или явлений, входящих в каждую из категорий.

Часто в третьем столбце приводят процентные соотношения лиц или явлений, входящих в каждую из категорий, как это показано в таблице 4.16. Обратите внимание, что проценты таблицы 4.16 в сумме дают 100.1%, а не 100,0% из-за погрешностей округления до десятых. Это обычное явление для таблиц распределения, в которых приведены проценты. Тем не менее, показываемый в таблице суммарный процент должен быть равен 100,0%, а в сноске нужно пояснить, что разница возникает из-за погрешности округления.

Таблица 4. la Число случаев заболеваний первичным и вторичным сифилисом по возрастным группам, США, 1989 г.(12)

Возрастная группа(годы)

Число случаев

< 14

230

15-19

4378

20-24

10405

25-29

9610

30-34

8648

35-44

6901

45-54

2631

^ 55

1278

Всего

44081

Таблица 4.1б Число случаев заболеваний первичным и вторичным сифилисом по возрастным группам, США, 1989 г.(12)

Возрастная группа

Случаи

(годы)

Число

Процент

< 14

230

0,5

15-19

4378

10,0

20-24

10405

23,6

25-29

9610

21,8

30-34

8648

19,6

35-44

6901

15,7

45-54

2631

6,0

^ 55

1278

2,9

Всего

44081

100,0*

* Сумма процентов не равна 100,0% из-за погрешности округления.

Таблица с одной переменной может быть составлена так, чтобы в ней содержались накопленные значения переменной или накопленные проценты, как это сделано в таблице 4.1 в. При таком варианте представления данных хорошо видно без дополнительных вычислений, что 75,5% первичных и вторичных случаев сифилиса возникло среди людей в возрасте до 35 лет.

Таблица 4.1в Заболеваемость первичным и вторичным сифилисом по возрастным группам, США, 1989 г.(12)

Возрастная группа

Случаи

(годы)

Число

Процент

Совокупный %

^ 14

230

0,5

0,5

15-19

4378

10,0

10,5

20-24

10405

23,6

34,1

25-29

9610

21,8

55,9

30-34

8648

19,6

75,5

35-44

6901

15,7

91,2

45-54

2631

6,0

97,2

>55

1278

2,9

100,0

Всего

44081

100,0*

100,0%

* Сумма процентов не равна 100,0% из-за погрешности округления.

Таблицы сопряженности признаков

В таблицах 4.la, 4.1б и 4.1в приведено распределение случаев сифилиса в зависимости от изменения значений одной переменной - возрастной группы. Таблицу можно составить таким образом, что будут показаны изменения значений одной переменной в зависимости от изменения значений второй переменной. Например в таблице 4.2 приведено распределение числа больных сифилисом по полу и возрасту. Подобные таблицы называют таблицами сопряженности признаков. Частньм случаем таблиц сопряженности является исключительно популярная в эпидемиологии таблица "четырех полей" (четырехпольная таблица или "таблица 2 на 2"), в которой каждая из двух указанных переменных может принимать только два значения, как, например, в таблице 4.3 (одна переменная имеет значения "больной - здоровый", другая "выжил - умер"). Таблицы "четырех полей" незаменимы для наглядного представления данных, используемых в расчетах показателей статистической связи и значимости.

Таблица 4.2 Впервые диагностируемые заболевания первичным и вторичным сифилисом, по возрасту и полу, США, 1989 г.(12)

Возрастная группа

Число случаев по полу

(годы)

Мужчины

Женщины

Всего

< 14

40

190

230

15-19

1710

2668

4378

20-24

5120

5285

10405

25-29

5304

4306

9610

30-34

5537

3111

8648

35-44

5004

1897

6901

45-54

2144

487

2631

^ 55

1147

131

1278

Всего

26006

18075

44081

На рисунке 4.4 показан общий вид таблицы "четырех полей". В заголовках столбцов таблицы обычно указывают статус заболевания (болен - здоров), а в заголовках строк - статус воздействия (наличие или отсутствие воздействия фактора риска).

При демонстрации данных лучше всего использовать таблицы с одной или двумя переменными, подобно приведенным на предыдущих страницах. Однако бывают случаи, когда нужно использовать три переменные для более полного отображения набора данных. Таблица 4.5 является примером такого рода таблицы с тремя переменными, включая в себя возраст, расу и пол. Можно заметить, что таблица с тремя переменными довольно сложна для восприятия. Три переменных - максимальное количество переменных, которое рекомендуется помещать в одной таблице.

Таблица 4.3 Статус выживаемости больных и не больных диабетом белых мужчин, исследование NHANES*, 1982-1984 гг.(18)

 

 

Умерших

Живых

Всего

Процент умерших

Больные

100

89

189

52,9

Не больные

811

2340

3151

25,7

Всего

911

2429

3340

 

 

 

* NHANES = Национальное исследование состояния здоровья и питания американцев Источник: 18

Рисунок 4.4 Общая форма таблицы 2х2 или "четырехпольной" таблицы

БольныеЗдоровыеВсего
Лица, подверженные воздействию фактора риска а b Г1

Лица, неподверженные воздействию фактора риска

с d Г2

Всего

B1

B2

C

Таблица 4.5 Заболеваемость первичным и вторичным сифилисом по возрасту, расе и полу, США, 1989 г.(12)

Возраст (годы)

Пол

Белая раса

Черная раса

Другая раса

Всего

 

 

Мужской

9

31

7

40

< 14

Женский

14

165

11

190

 

 

Всего

16

196

18

230

 

 

Мужской

88

1412

210

1710

15-19

Женский

253

2257

158

2668

 

 

Всего

341

3669

368

4378

 

 

Мужской

407

4059

654

5120

20-24

Женский

475

4503

307

5285

 

 

Всего

882

8562

961

10405

 

 

Мужской

550

4121

633

5304

25-29

Женский

433

3590

283

4306

 

 

Всего

983

7711

916

9610

 

 

Мужской

564

4453

520

5537

30-34

Женский

316

2628

167

3111

 

 

Всего

880

7081

687

8648

 

 

Мужской

654

3858

492

5004

35-44

Женский

243

1505

149

1897

 

 

Всего

897

5363

641

6901

 

 

Мужской

323

1619

202

2144

45-54

Женский

55

392

40

487

 

 

Всего

378

2011

242

2631

 

 

Мужской

216

823

108

1147

>55

Женский

24

92

15

131

 

 

Всего

240

915

123

1278

Всего по всем

Мужской

2804

20376

2826

26006

возрастам

Женский

1813

15132

1130

18075

 

 

Всего

4617

35508

3956

44081

 

Таблица 4.6 Данные на жителей дома для престарелых А во время вспышки кишечного заболевания, январь 1989 г.

Житель (номер) Возраст Пол Номер комнаты Меню Заболел? (понос) Дата появления симптомов

1

71

Ж

103

А

Да

15/1

2

72

Ж

105

А

Да

23/1

3

74

Ж

105

А

Нет

 

 

4

86

Ж

107

В

Нет

 

 

5

83

Ж

107

В

Нет

 

 

6

68

Ж

109

А

Да

18/1

7

69

Ж

109

С

Нет

 

 

8

64

Ж

111

А

Да

16/1

9

66

м

111

А

Да

18/1

10

68

м

104

А

Да

20/1

11

70

м

106

А

Нет

 

 

12

86

м

110

А

Нет

 

 

13

73

м

112

В

Нет

 

 

14

82

м

219

С

Нет

 

 

15

72

м

221

С

Нет

 

 

16

70

м

221

В

Нет

 

 

17

77

м

227

D

Нет

 

 

18

80

м

227

D

Нет

 

 

19

71

ж

231

А

Да

14/1

20

68

ж

231

D

Да

15/1

21

64

ж

233

А

Нет

 

 

22

73

ж

235

А

Да

13/1

23

75

ж

235

В

Нет

 

 

24

78

ж

222

С

Нет

 

 

25

72

ж

222

А

Нет

 

 

26

66

м

224

В

Нет

 

 

27

69

м

226

А

Да

16/1

28

75

м

228

Е

Нет

 

 

29

71

м

230

А

Да

13/1

30

83

м

232

F

Нет

 

 

31

84

м

232

D

Нет

 

 

32

79

м

234

А

Да

12/1

33

72

м

234

D

Да

14/1

34

77

м

236

А

Да

13/1

35

78

м

236

В

Нет

 

 

36

80

м

238

D

Нет

 

 

Табличное представление других статистических данных

В таблицах 4.1-4.3 было приведено абсолютное число случаев заболевания. В таблицы можно также заносить средние величины и различные показатели, например годы потенциально потерянной жизни, относительный риск и т.п.. Как и в случае любой другой таблицы, в ее названии, в заголовках столбцов и рядов должно быть четко указано, какие данные приводятся. Например, как в названии, так и в заголовках столбцов таблицы 4.7 указано, что представлены показатели заболеваемости.

Таблица 4.7 Впервые диагностированные случаи первичного и вторичного сифилиса, возрастные и расовые показатели на 100000 населения, США, 1989 г.(12)

Возрастная группа

Расовый показатель на 100000

(годы)

Белая раса

Черная раса

Другие расы

Всего

< 14

0,0

2,4

0,8

0,4

15-19

2,4

131,5

51,0

24,3

20-24

5,8

323,0

139,2

55,9

25-29

5,4

270,9

117,9

44,1

30-34

4,7

256,6

83,2

38,8

35-44

2,9

135,0

47,8

19,0

45-54

1,7

76,7

29,6

10,5

>55

0,5

19,4

10,4

2,4

Всего

2,2

115,8

45,8

17,7

Шаблоны таблиц

Хотя данные невозможно анализировать до их сбора, тем не менее рекомендуется заранее приготовить макеты таблиц. Это позволяет ускорить анализ данных после их сбора. В действительности, в большинстве случаев до проведения исследования следует иметь план того, как данные будут анализироваться. В качестве одной из составляющих плана анализа разрабатывают шаблоны или макеты таблиц, в которых указывается, какие данные будут собираться и анализироваться. Шаблоны таблиц - это незаполненные таблицы, в которых не хватает только данных. При разработке шаблона таблицы, в который будет входить непрерывная количественная переменная (например, возраст) создают большее число категорий, чем будет использовано впоследствии, для того, чтобы обнаружить интересные закономерности и особенности данных.

Следующий набор шаблонов был разработан перед проведением ретроспективного эпидемиологического исследования (типа "случай-контроль"), проведенного для изучения синдрома Кавасаки (СК). СК - это редкое детское заболевание неизвестной этиологии. В данном исследовании проверялись две гипотезы:

1) больные СК достоверно чаще имели в анамнезе какое-либо вирусное заболевание;

2) больные СК достоверно чаще имели контакт с определенным средством для чистки ковров.

Дополнительно нужно было проверить замеченную ранее особенность - большую распространенность заболевания в семьях с уровнем доходов выше среднего.

Шаблон Таблицы 1. Клинические симптомы у больных синдромом Кавасаки с началом заболевания в октябре-декабре 1984 г.

Клинический симптом

Число больных

Процент

1. Лихорадка > 5 дней

   

2. Двухсторонняя инъекция конъюнктивы

   

3. Изменения во рту

   

*инъецированные губы

   

*инъецированная носоглотка

   

*сухие потрескавшиеся губы

   

*малиновый язык

   

4. Изменения периферических отделов конечностей

   

*отек

   

*эритема

   

*околоногтевое шелушение

   

5. Сыпь

   

6. Размер лимфоузлов больше <1,5 см

   

Всего

   

Шаблон Таблицы 2. Демографические характеристики больных синдромом Кавасаки с началом заболевания в октябре-декабре 1984 г.

Демографическая характеристика

Число

Процент

Возраст

     
 

< 1 года

   
 

1 год

   
 

2 года

   
 

3 года

   
 

4 года

   
 

5 лет

   
 

6 лет

   

Пол

     
 

Мужской

   
 

Женский

   

Раса

     
 

Белая

   
 

Черная

   
 

Азиатская

   
 

Прочие

   

Всего

   

(100)

С другой стороны, шаблон таблицы 2 мог бы быть таблицей с тремя переменными, перечисляющей число случаев по возрасту, полу и расе.

Рисунок 4.1 Пример шаблонов таблиц, разработанных перед проведением ретроспективного исследования случаев синдрома Кавасаки

Место проживания

Количество (%)

 

___ ( )

 

___ ( )

Доход ($)

Количество (%)

$ 10,000

___ ( )

10,001 -15,000

___ ( )

15,001 -20,000

___ ( )

20,001 - 25,000

___ ( )

25,001 - 30,000

___ ( )

30,001 - 35,000

___ ( )

>35,001

___ ( )

Количество дней госпитализации

Количество пациентов %

0

___ ( )

1

___ ( )

2

___ ( )

3

___ ( )

4

___ ( )

5

___ ( )

 

Среднее= ___

 

Медиана= ___

Тяжелые осложнения

Количество %

Сердечно-сосудистые

___ ( )

Артрит

___ ( )

Смерть

___ ( )

 

___ ( )

Демографические характеристики

Случаи

Контроль

 

Количество %

Количество %

Возраст

     
 

<1 года

___ ( )

___ ( )

 

1 год

___ ( )

___ ( )

 

2 года

___ ( )

___ ( )

 

3 года

___ ( )

___ ( )

 

4 года

___ ( )

___ ( )

 

5 лет

___ ( )

___ ( )

 

>6 лет

___ ( )

___ ( )

Пол

     
 

Мужской

___ ( )

___ ( )

 

Женский

___ ( )

___ ( )

Раса

     
 

Белая

___ ( )

___ ( )

 

Черная

___ ( )

___ ( )

 

Азиатская

___ ( )

___ ( )

 

Прочие

___ ( )

___ ( )

Всего

 

___ ( 100 )

___ ( 100 )

Доход ($)

Случаи

Контроль

 

Количество (%)

Количество (%)

$ 10,000

___ ( )

___ ( )

10,001 -15,000

___ ( )

___ ( )

15,001 -20,000

___ ( )

___ ( )

20,001 - 25,000

___ ( )

___ ( )

25,001 - 30,000

___ ( )

___ ( )

30,001 - 35,000

___ ( )

___ ( )

>35,001

___ ( )

___ ( )

Шаблон Таблицы 9. Воздействие подозреваемых факторов риска на больных синдромом Кавасаки (начало заболевания в октябре-декабре 1984 г.) и ситуация в контрольной группе

 

 

Больные

Контрольные лица

Эпидемиологическая характеристика

абс. число

Процент

абс.число

Процент

Вирусное заболевание в анамнезе

Да

Нет

——

——

( )

( )

——

——

( )

( )

Отношение шансов = ______

95% Доверительный интервал = ( , )

Критерий хи2 =_____, значение р =_______

Контакт с чистящим средством в анамнезе

Да

Нет

——

——

( )

( )

——

——

( )

( )

Отношение шансов = ______

95% Доверительный интервал = ( , )

Критерий хи2 =_____, значение р =_______

 

Набор шаблонов, показанный выше и на рисунке 4.1, дает систематический и логический подход к анализу данных.

Определение классовых интервалов

Большинство качественных переменных, таких, например, как пол (мужской-женский) или состояние здоровья (здоров-болен), обладают ограниченным числом возможных значений. Эти значения удобно использовать в виде отдельных табличных категорий. При изучении количественных переменных (таких, как возраст или значение систолического артериального давления) с широким диапазоном возможных значений, бывает необходимо сгруппировывать их в удобное число категорий (так называемых классов). При определении ширины классовых интервалов руководствуйтесь следующими рекомендациями:

Таблица 4.8 Пример стандартных возрастных групп, применяемых в CDC для анализа и представления данных(3,4,21)

Подлежащие регистрации заболевания

Смертность от пневмонии и гриппа

Окончательные данные по смертности

ВИЧ/СПИД

<1 года

<28 дней

<1года

<5лет

1-4

28 дней -<1 года

1-4

5-12

5-9

1-14

5-14

13-19

10-14

15-24

15-24

20-24

15-19

25-44

25-34

25-29

20-24

45-64

35-44

30-34

25-29

65-74

45-54

35-39

30-39

75-84

55-64

40-44

40-49

>85

65-74

45-49

50-59

Неизвестно

75-84

50-54

>60

 

 

>85

55-59

Возраст не указан

 

 

Не указано

60-64

 

 

 

 

 

 

>65

Всего

Всего

Всего

Всего

Поместите группу сравнения в отдельный класс. Например, при разбивке людей на группы в зависимости от количества выкуриваемых в день сигарет, создайте отдельную категорию для некурящих (0 сигарет в день), а затем разбейте курильщиков на классы согласно одному из способов, описанных ниже. В случае если отсутствуют очевидные или стандартно применяемые интервалы, можно разбить данные частотного распределения (вариационного ряда) одним из следующих способов:

1 способ: Деление набора данных на классы, содержащие равное число значений

Применяя эту стратегию, можно создать удобное число интервалов классов, в каждый из которых попадает примерно одинаковое число наблюдений. Вначале можно использовать 8 интервалов, сводя их к 4 интервалам при демонстрации или публикации данных. По существу, 4 интервала будут 4 квартилями распределения данных. Этот способ группировки данных хорошо подходит для определения числа уровней заштриховки (плотности цвета) при построении географических карт распределения случаев.

2 способ: Определение ширины классовых интервалов на основе значений средней арифметической и стандартного отклонения

Применяя эту стратегию, можно создать 3, 4 или 6 интервалов классов. Вначале нужно найти значение средней арифметической и величину стандартного отклонения. (Объяснение того, как подсчитывать эти показатели, приведено в главе 3.) Затем определите верхние границы интервалов. Например:

Предположим, например, что нужно определить шесть интервалов для набора данных со средней арифметической равной 50 и стандартным отклонением равным 10. Наименьшее значение равно 19, а наибольшее значение 82. Можно подсчитать верхние границы интервалов следующим образом:

Определяя затем очевидным образом нижнюю границу по верхней границе, получаем шесть интервалов

Можно получить три или четыре интервала, объединив некоторые из смежных интервалов:

Шесть интервалов

Четыре интервала

Три интервала

Интервал 1 =19-30

Интервал 2 = 31-40

Интервал 3 =41-50

Интервал 4 = 51-60

Интервал 5 =61-70

Интервал 6 =71-82

 

Интервал1 =19-40

Интервал 2 =41-50

Интервал 3 =51-60

 

Интервал 4 =61-82

 

Интервал1 =19-40

 

Интервал 2 =41-60

 

Интервал 3 =61-82

 

3 способ: Деление диапазона значений на классы равной величины

Этот способ является самым простым и используется чаще всего. Классовые интервалы равной длины удобны при построении и демонстрации графиков и диаграмм. Чтобы воспользоваться этим методом, проделайте следующее:

1.Найдите размах значений набора данных, то есть найдите разность между наибольшим значением (или некоторым немного большим и удобным значением) и нулем (или наименьшим значением).

2.Решите, на сколько классов (групп или категорий) разбить распределение данных. Для таблиц обычно берут от 4 до 8 интервалов классов. В случае графиков и карт, обычно используют от 3 до 6 интервалов классов. Число интервалов будет зависеть от того, на какие аспекты данных нужно обратить внимание.

3.Определите размер интервалов классов, разделив размах на число интервалов классов, определенное ранее.

4. Начните с наименьшего значения в качестве нижней границы первого интервала и отмеряйте интервалы классов ранее подсчитанной длины до тех пор, пока не дойдете до наибольшего значения набора данных.

Таблица 4.9 Средние годовые поправленные на возраст показатели заболеваемости раком шейки матки на 100000 человек, в порядке убывания, по штатам, США, 1984-86 г,(2)

Порядковый Номер

Штат

Показатель на 100000

Порядковый Номер

Штат

Показатель на 100000

1

SC

5,6

26

KS

3,6

2

WV

5,6

27

AR

3,6

3

AL

5,4

28

MD

3,5

4

LA

5,4

29

IA

3,4

5

AK

5,1

30

PA

3,4

6

TN

4,9

31

FL

3,4

7

ND

4,9

32

HI

3,4

8

KY

4,8

33

OR

3,3

9

MS

4,7

34

ML

3,3

10

NC

4,6

35

CA

3,2

11

GA

4,6

36

Ш

3,1

12

ME

4,6

37

AZ

3,1

13

VR

4,3

38

MA

2,9

14

DE

4,3

39

NM

2,9

15

NH

4,3

40

WA

2,8

16

IN

4,1

41

NV

2,8

17

OK

4,1

42

СГ

2,8

18

IL

4,0

43

RI

2,8

19

МГ

4,0

44

WI

2,7

20

VA

3,9

45

CO

2,5

21

OH

3,8

46

NE

2,4

22

МО

3,8

47

SD

2,4

23

TX

3,7

48

MN

2,2

24

NY

3,7

49

WY

1,9

25

NT

3,7

50

UT

1,8

 

 

 

 

 

 

Всего

U.S.

3,7

 

Пример: Покажем на примере, как применять описанные выше способы разбивки данных на классы. Будут использоваться данные по смертности от рака шейки матки, приведенные в Таблице 4.9. В каждом случае будет найдено четыре интервала классов.

1 способ: Деление набора данных на классы, содержащие равное число значений

(Примечание: если бы данные в таблице 4.9 были расположены по алфавиту, первым шагом было бы упорядочение данных в соответствии с величиной показателя).

1. Поделим список на четыре группы одинакового размера: 50 штатов / 4 = 12,5 штатов на группу. Поскольку штат нельзя разделить пополам, получатся 2 группы по 12 штатов и две группы по 13 штатов. Из-за того, что Вермонт (№ 13) можно причислить либо к первой, либо ко второй группе, а Массачусетс можно отнести к третьей или к четвертой группе, получаем следующие группы:

а. от Северной Каролины до Мэйн (с 1 по 12)

б. от Вермонта до Нью-Джерси (с 13 по 25)

в. от Канзаса до Аризоны (с 26 по 37)

г. от Массачусетса до Юты (с 38 по 50)

Обратите внимание, что при таком распределении Вермонт и Делавар (у которых показатель равен 4,3) и Массачусетс и Нью-Мексико (у которых показатель равен 1,8) оказались в одной группе.

2. Определим показатели первого и последнего штата в каждой группе:

Штаты

Показатели на 100000

a. ME-SC

4,6-5,6

b. NJ-VT

3,7-4,3

c.AZ-KS

3,1-3,6

d.UT-МА

1,8-2,9

 

3. Изменим границы интервалов так, что не останется промежутков между концом одного интервала класса и началом следующего (сравните интервалы ниже с интервалами выше):

Штаты

Показатели на 100000

Число штатов

а. ME-SC

4,5-5,6

12

b. NJ-VR

3,7-4,4

13

c.AZ-KS

3,0-3,6

12

d.UT-МА

1,8-2,9

13

 

2 способ: Определение ширины классовых интервалов на основе значений средней арифметической и стандартного отклонения

1. Подсчитаем среднюю арифметическую и стандартное отклонение (как подсчитать эти показатели, объясняется в главе 3.):

Средняя арифметическая =3,70

Стандартное отклонение = 0,96

2. Найдем верхние границы 4 интервалов (Примечание: как получить 4 интервала из 6, объединяя пары интервалов и получая новые верхние и нижние границы, было описано ранее. Здесь же будут использоваться соответствующие верхние границы пар объединяемых интервалов.)

Верхняя граница 1-го интервала = среднее - 1 стандартное отклонение = 2,74

Верхняя граница 2-го интервала = среднее = 3,70

Верхняя граница 3-го интервала = среднее + 1 стандартное отклонение = 4,66

Верхняя граница 4-го интервала = наибольшее значение =5,6

3. Для получения интервалов определим по каждой верхней границе нижнюю границу. Определим штаты, попадающие в каждый из интервалов (Примечание: чтобы поместить штаты с наибольшими показателями вначале, использовался обратный порядок интервалов):

Штаты

Показатели на 100000

Число штатов

a. MS-SC

4,67-5,60

9

b. MO-NC

3,71-4,66

13

c.RI-TX

2,75-3,70

21

d. UT-WI

1,80-2,74

7

3 способ: Деление диапазона значений на классы равной величины

1. Разделим размах, то есть разность наибольшего и наименьшего значений на 4:

(5,6 -1,8) / 4 =3,5 /4=0,95

2. Используем величины, кратные 0,95 для определения четырех категорий, начиная с 1,8:

от 1,80 до (1,8+0,95) = от 1,8 до 2,75

от 2,76 до (1,8+2х0,95) = от 2,76 до 3,70

от 3,71 до (1,8+3х0,95)-= от 3,71 до 4,65

от 4,66 до (1,8+4х0,95) = от 4,66 до 5,6

3. Окончательные категории:

Штаты

Показатели на 100000

Число штатов

a. MS-SC

4,66-5,60

9

b. MO-NC

3,71-4,65

13

c.RI-TX

2,76-3,70

21

d. UT-WI

1,80-2,75

7

 

4. С другой стороны, из-за того что 0,95 близко к 1,0, для получения интервалов классов можно было использовать числа кратные 1,0. Начав с середины, (5,6 + 1,8)/2 = 3,7, вычтите 1,0 для определения верхней границы первого интервала (2,7). Верхними границами третьего и четвертого интервалов будут 3,7 +1,0 =4,7 и 3,7+2х1,0 =5,7.

Окончательные категории:

Штаты

Показатели на 100000

Число штатов

a. KY-SC

4,71-5,70

8

c.RI-TX

3,71-4,70

14

b.MO-MS

2,71-3,70

21

d. UT-WI

1,71-2,70

7

 

 

Таблица 4.9 (повторение) Средние годовые поправленные на возраст показатели заболеваемости раком шейки матки на 100000 человек, в порядке убывания, по штатам, США, 1984-86 гг.

Порядковый Номер

Штат

Показатель на 100000

Порядковый Номер

Штат

Показатель на 100000

1

SC

5,6

26

KS

3,6

^

WV

5,6

27

AR

3,6

3

AL

5,4

28

MD

3,5

4

LA

5,4

29

IA

3,4

5

AK

5,1

30

PA

3,4

6

TN

4,9

31

FL

3,4

7

ND

4,9

32

HI

3,4

8

KY

4,8

33

OR

3,3

9

MS

4,7

34

ML

3,3

10

NC

4,6

35

CA

3,2

11

GA

4,6

36

Ш

3,1

12

ME

4,6

37

AZ

3,1

13

VR

4,3

38

MA

2,9

14

DE

4,3

39

NM

2,9

15

NH

4,3

40

WA

2,8

16

IN

4,1

41

NV

2,8

17

OK

4,1

42

СГ

2,8

18

IL

4,0

43

RI

2,8

19

МГ

4,0

44

WI

2,7

20

VA

3,9

45

CO

2,5

21

OH

3,8

46

NE

2,4

22

МО

3,8

47

SD

2,4

23

TX

3,7

48

MN

2,2

24

NY

3,7

49

WY

1,9

25

NT

3,7

50

UT

1,8

 

 

 

Всего

U.S.

3,7

Графики

Графики являются способом визуализации данных с использованием системы координат. Они подобны моментальным снимкам, которые помогают заметить закономерности, тенденции и отклонения в распределении данных, сравнить несколько наборов данных друг с другом. С помощью графика можно эффектно представить результаты анализа. Обычно аудитория лучше запоминает важные аспекты набора данных, если его представить в виде графика, а не в виде таблицы.

В эпидемиологии часто используются графики в системе прямоугольных координат, с двумя осями, пересекающимися под прямым углом: горизонтальной осью ОХ и вертикальной осью ОУ. Обычно горизонтальная ось используется для нанесения значений (категорий) независимой переменной (х) , например, промежутки времени, возрастные группы и т.п.. Вертикальная ось используется для нанесения значений зависимой переменной (у), которая в эпидемиологии чаще всего является частотой встречаемости конкретного значения (категории) признака, например в виде абсолютного числа случаев или показателя заболеваемости. Каждая из осей помечается соответствующим образом (указывается название переменной и единицы ее измерения), и на каждую из осей наносится шкала измерения. Чаще всего применяют линейные и столбиковые (простые или надставленные) графики. Линейные графики не следует путать с многоугольниками частот, а столбиковые графики - с гистограммами (см. ниже).

В таблице 4.10 приведены данные о числе случаев заболевания корью по годам с 1950 по 1989 г. Часть этих данных использовалась для получения линейного графика, изображенного на Рисунке 4.2. Независимая переменная (годы) нанесена на горизонтальную ось. Зависимая переменная (число случаев заболевания) приведена на вертикальной оси. На Рисунке 4.2 также приведена сетка для пояснения того, как наносились на график точки. Например, чтобы нанести на график точку, соответствующую числу случаев в 1953 году, проведите вертикальную прямую через 1953 вверх, затем проведите горизонтальную прямую через 449 вправо. Точка пересечения этих двух прямых соответствует точке графика с абсциссой 1953. Используя данные, приведенные в Таблице 4.10, постройте график на рисунке 4.2, нанеся точки, соответствующие годам с 1955 по 1959.

Графики в арифметической шкале

Графики в арифметической шкале иллюстрируют закономерности или тенденции распределения данных в зависимости от изменения некоторой переменной, обычно времени. Графики такого рода используются в эпидемиологии для представления динамики нескольких рядов данных. Они предпочтительны при изображении динамики изменения показателей заболеваемости.

В случае графика в арифметической шкале, определенный отрезок на оси представляет одну и ту же величину в любом месте на этой оси. Это справедливо в отношении как оси ОХ, так и оси ОУ. Например, на рисунке 4.3 расстояние между штрихами по оси ОУ представляет собой 100000 (100*1000) случаев в любом месте на этой оси.

Таблица 4.10 Заболеваемость корью по годам регистрации, США, 1950-89 гг.(12)

Год

Отмечено случаев
(x 1000)

Год

Отмечено случаев
(x 1000)

1950

319

1970

47

1951

530

1971

75

1952

683

1972

32

1953

449

1973

27

1954

683

1974

22

1955

555

1975

24

1956

612

1976

41

1957

487

1977

57

1958

763

1978

27

1959

406

1979

14

1960

442

1980

13

1961

424

1981

3

1962

482

1982

2

1963

385

1983

1

1964

458

1984

3

1965

262

1985

3

1966

204

1986

6

1967

63

1987

4

1968

22

1988

3

1969

26

1989

18

Рисунок 4.2 Незавершенный линейный график заболеваемости корью по годам регистрации, США, 1950-59 гг.(12)

Рисунок 4.3 Пример графика в арифметической шкале:

Заболевания корью по годам регистрации, США, 1950-89 гг.(12)

 

Рисунок 4.4 Пример графика в арифметической шкале:

Заболевание бешенством диких и домашних животных по годам регистрации в США и Пуэрто-Рико, 1955-89 гг.(12)

На одном графике в арифметической шкале могут быть отражены несколько наборов данных. На рисунке 4.4 одна из кривых показывает снижение числа случаев бешенства среди домашних животных, начиная с 1955 года, в то время как другая представляет собой параллельное увеличение случаев бешенства среди диких животных. На третьей кривой изображена сумма всех случаев бешенства.

Используемая на оси ОХ шкала определяется тем, какие интервалы использовались для независимой переменной при сборе данных. Обычно временные данные наносятся на график с точностью, равной периоду их сбора, например, недельной, годовой и так далее. Однако, если при сборе данных использовались очень маленькие интервалы, при графическом изображении данных можно объединить эти интервалы в более крупные.

Чтобы определить масштаб для оси ОУ,

- Нарисуйте ось ОУ короче оси ОХ, так что полученный график будет горизонтальным (то есть, его размер по горизонтали больше размера по вертикали) и выберите хорошее соотношение между осями: рекомендуемое соотношение длины осей - 5:3.

- Всегда начинайте ось ОУ с 0.

- Определите диапазон значений, которые нужно отобразить на графике, установив наибольшее наносимое значение и округлив его до ближайшего большего целого числа. Например, наибольшим значением У на рисунке 4.3 будет 763000 в 1958 году. С целью определения диапазона показываемых на оси ОУ значений это число было округлено до 1000000.

- Выберите размер интервалов таким образом, чтобы он позволял нанести достаточное для подробного представления данных число интервалов. На рисунке 4.3 посчитали, что 10 интервалов по 100000 будет достаточно для отображения важных аспектов данных.

- Если среди значений, изображаемых на оси ОУ, есть пробел, то есть если есть часть графика, на которой нет точек, можно сделать соответствующий пробел в шкале. В случае шкалы с разрывом, ось ОУ прерывается на начале разрыва и продолжается с конца разрыва. Разрывы в шкале можно использовать только при изображении графиков.

Графики с использованием полулогарифмической шкалы

В случае графика с использованием полулогарифмической шкалы (полулогарифмического графика) ось ОУ делится логарифмически, а не арифметически, как это было в случае графиков в арифметической шкале. Шкала оси ОХ остается арифметической, как и в случае графиков в арифметической шкале. На рисунке 4.5 приведен пример полулогарифмического графика. Обратите внимание на следующие свойства шкалы оси ОУ:

- На ней расположено пять групп штрихов; все группы штрихов совпадают по длине.

- Каждая группа представляет значения на порядок больше, чем предыдущая, то есть значения в каждой из групп в десять раз больше значений в предыдущей группе. К примеру, в 4-й группе значения изменяются от 1 до 10, а в 5-й от 10 до 100, но расстояния по шкале между этими двумя парами значений одинаковы.

- Каждая группа содержит десять штрихов, причем расстояния между штрихами становятся меньше и меньше по мере продвижения вверх в пределах одной группы. Так, расстояние от 1 до 2 не равно расстоянию от 2 до 3.

- Значения, представленные на оси ОУ, лежат в довольно большом диапазоне, и их было бы трудно четко изобразить в арифметической шкале. Если требуется представить графически большой диапазон значений, как на этом рисунке, может пригодиться график в полулогарифмической шкале.

Рисунок 4.5 Пример графика в полулогарифмической шкале:

Зарегистрированные случаи заболевание паралитическим полиомиелитом на 100000 человек по годам регистрации, США, 1951-89 гг. (12)

На логарифмической шкале одинаковые расстояния по оси ОУ представляют одинаковую степень (процент) изменения значения данных. Эта особенность графиков в полулогарифмической шкале используется для изображения скорости или темпа изменения данных. Чтобы интерпретировать данные полулогарифмического графика, нужно понимать следующие свойства графика.

- Прямая наклонная линия указывает на постоянный темп или скорость изменения (уменьшения или увеличения) значений переменной, но не на постоянную величину, на которую изменяются значения переменной.

- Горизонтальная прямая означает отсутствие изменений.

- Степень наклона кривой говорит о темпах или скорости увеличения или уменьшения.

- Две или более кривых, идущих параллельно, означают одинаковые темпы (скорости) изменения.

Чертежная бумага с полулогарифмической шкалой может иметь несколько групп штрихов, называемых "циклами". Чтобы определить требуемое число групп штрихов или циклов, исходя из особенностей конкретного набора данных, нужно сделать следующее.

1. Определить наименьшее значение, которое нужно отметить на оси ОУ и его порядок. Таким образом можно найти значения, которые будет представлять первая группа. Например, если наименьшее значение на оси ОУ будет 47, первая группа будет представлять значения от 10 до 100; если бы оно было равно 352, первая группа представляла бы значения от 100 до 1000.

2. Установить наибольшее значение, которое нужно отметить на оси ОУ и определить его порядок. Таким образом определяются значения, которые будут представлены последней группой. Например, если наибольшее значение на оси ОУ равно 134826, последняя группа начнется со значения 100000. Хотя группа, начинающаяся с 100000, заканчивается 1000000, отмечать на оси все штрихи этой группы необязательно. Достаточно показать только первые несколько штрихов последней группы : 100000, 200000 и 300000.

3. Определить количество групп между первой и последней. Потребуется это число групп плюс еще две группы для первой и последней. Так, если наименьшее значение на оси ОУ равно 47, а наибольшее значение равно 134826, потребуются следующие группы:

Таким образом, если значения, отмечаемые на оси ОУ изменяются от 47 до 134826, потребуются четыре группы и часть пятой.

Рисунок 4.6 Допустимые величины откладываемых по оси ОУ значений графика в полулогарифмической шкале

На Рисунке 4.6 представлены некоторые диапазоны значений, которые можно представить на полулогарифмическом графике с четырьмя группами.

Какой из графиков использовать, зависит от того, хотите ли Вы показать действительные изменения набора значений или выделить скорость изменения. Чтобы отразить действительные изменения, используйте арифметическую шкалу на оси ОУ (график в арифметической шкале). Чтобы показать скорость изменения, используйте логарифмическую шкалу на оси ОУ (график в полулогарифмической шкале). Тем не менее, в случае, если диапазон представляемых на оси ОУ значений неудобно велик, полулогарифмический график может оказаться предпочтительным, даже если действительные изменения в данных более важны.

Гистограммы.

Гистограмма - это диаграмма распределения непрерывной количественной переменной или вариационного ряда. Для представления числа наблюдений в каждом интервале (классе) распределения данных используются соприкасающиеся столбики. Площадь каждого столбца пропорциональна числу наблюдений в соответствующем интервале. Гистограммы нельзя путать со столбиковыми графиками. В случае последних ширина используемых столбиков не имеет значения.

На рисунках 4.7, 4.8 и 4.9 показаны гистограммы распределений с равными интервалами классов. Из-за того, что интервалы классов равны на всех этих гистограммах, высота каждого столбца пропорциональна числу представляемых им наблюдений. Гистограммы с различными интервалами классов трудно построить и интерпретировать надлежащим образом, поэтому их использование не рекомендуется. Также не стоит использовать разрывы на оси ОУ, так как они приводят к обманчивой картине относительных величин.

Рисунок 4.7 Пример гистограммы: число зарегистрированных случаев заболевания паралитическим полиомиелитом по месяцам заболевания, Оман, январь 1988 - март 1989 гг.(24)

Рисунок 4.8 Пример гистограммы: уровни холестерина в крови 4462 мужчин, США, 1985-86 гг.(13)

Как показано на рисунках 4.7, 4.9 и 4.10, в качестве независимой переменной чаще всего используется время. Тем не менее, на оси ОХ могут отмечаться и другие непрерывные переменные, такие, как уровень холестерина или артериальное давление. На рисунке 4.8 приведено распределение числа наблюдений в зависимости от уровня холестерина.

На гистограмме можно показать и вторую переменную, заштриховав каждый столбец в соответствии с категориями второй переменной. Предположим, например, что нужно показать распределение случаев гепатита А по датам начала заболевания и месту жительства. На рисунке 4.9 случаи, соответствующие жителям других районов, заштрихованы внизу каждого столбца (т.е. фактически мы имеем дело с надставленными столбиками). Однако при представлении данных в таком виде трудно сравнивать верхние части столбцов, т.к. линии основания у каждого надставленного столбика находятся на разном уровне. Поэтому нужно поместить интересующую Вас составляющую в основание столбцов. С другой стороны, вместо закрашивания столбцов можно построить отдельную гистограмму по каждой составляющей второй переменной, поместив их одну над другой, как это сделано на рисунке 4.10.

Сравните рисунки 4.9 и 4.10. На них изображены одни и те же данные, но в различной форме. Какую из форм Вы бы предпочли при сравнении распределения во времени случаев среди жителей данного и других районов?

Рисунок 4.9 Пример гистограммы. Число зарегистрированных случаев заболевания гепатитом А по дате начала заболевания и месту жительства, округ Огмо, апрель-май 1968 г.(22)

Рисунок 4.10 Пример гистограммы. Число зарегистрированных случаев заболевания гепатитом А по дате начала и статусу постоянного места жительства, округ Огмо, апрель-май 1968 г.(22)

 

Чтобы наглядно показать, сколько значений (обычно случаев) входит в каждый столбец, можно поделить их на отдельные квадраты или прямоугольники. Ширина таких прямоугольников будет равна ширине столбца, а длина равна некоторому удобному числу значений на оси ОУ, например, 1, 5,10 и т.д. В таком случае график - гистограмма снабжается легендой с указанием числа случаев, представляемых каждым квадратиком (или прямоугольником), как это сделано на рисунке 4.10.

Эпидемиологи довольно часто представляют данные в виде эпидемических кривых. Эпидемическая кривая - это не линия, а гистограмма, показывающая количество случаев заболевания во время вспышки или эпидемии в соответствии с датами начала заболеваний. Как показано на рисунке 4.9, столбцы гистограммы часто изображаются состоящими из квадратов, каждый из которых представляет один случай. Рисунок 4.9 говорит о том, что дата начала заболевания одного лица была между 27 и 28 апреля, еще одного 29 или 30 апреля, а между 1 и 2 мая заболели еще 5 человек. Весь период эпидемии расположен по оси ОХ, разбитой на равные промежутки времени. На эпидемической кривой каждое число должно быть расположено посередине между штрихами соответствующих интервалов. Используемые интервалы времени зависят от исследуемого заболевания. В случае вспышки гастроэнтерита, вызванного Clostridium perfringens, это будут часы, а гепатита А - 3-5 дней. Рекомендуется использовать интервалы меньше четверти инкубационного периода исследуемого заболевания. Ось ОХ начинается до даты первого случая эпидемии. На рассматриваемом рисунке также показано несколько случаев заболевания, возникших до начала вспышки. Эти случаи могут представлять спорадическую заболеваемость, на фоне которой возникла вспышка (так называемая "фоновая заболеваемость"), и нередко среди них может оказаться человек, послуживший общим источником инфекции для заболевших во время этой вспышки.

Многоугольники частот.

Многоугольник частот, подобно гистограмме, представляет собой график частотного распределения данных. При построении многоугольника частот число наблюдений, соответствующее каждому интервалу, помечается в виде точки, помещаемой на вертикальной оси, проходящей через середину интервала. Затем эти точки последовательно соединяют прямыми линиями. На рисунке 4.11 приведен пример многоугольника частот на фоне показанной пунктиром гистограммы тех же данных. Обычно обе диаграммы не даются вместе. Здесь они приведены для того, чтобы Вы смогли их сравнить.

Обратите внимание, что гистограмма и прямые многоугольника частот, по мере продвижения от середины интервала к середине, образуют последовательность пар треугольников одинакового размера, один из которых лежит вне гистограммы, а другой в гистограмме. Это является характерной особенностью многоугольников частот: площадь многоугольника частот набора данных должна быть равна площади гистограммы этого же набора данных. Каждому треугольнику гистограммы вне многоугольника должен соответствовать треугольник той же площади в многоугольнике.

Рисунок 4.11 Число зарегистрированных ОРВИ по неделе их начала

Чтобы сохранить свойство равенства площадей, нужно "закрыть" многоугольник надлежащим образом. На рисунке 4.12 приведены два способа: правильный слева и неправильный справа, оба из которых наложены на соответствующие части гистограммы. Обратите внимание, что на правильном рисунке линия многоугольника частот начинается ниже первого интервала, содержащего наблюдения, полностью вне гистограммы. Она начинается в середине этого интервала (со значением У равным 0) и проходит через середину первого интервала, содержащего наблюдения. Продолжение кривой за наблюдаемые значения служит для создания площади А под кривой многоугольника, которая равна площади А, вырезанной из соответствующей гистограммы. Заметьте, что правая сторона многоугольника частот на рисунке 4.11 закрыта таким же образом.

Рисунок 4.12 Правильный способ закрытия многоугольника частот (слева);

Неправильный способ закрытия многоугольника частот (справа)

В противоположность этому, неправильный, но, к сожалению, часто используемый способ закрытия многоугольника показан справа на рисунке 4.12. На этом примере кривая начинается с основания в начале первого интервала, оставляя таким образом снаружи площадь С, не охватывая равной площади внутри и снаружи гистограммы. Вследствие этого площадь многоугольника не будет пропорциональна общему числу наблюдений в наборе данных.

Многоугольники частот облегчают задачу изображения и сравнения двух или большего числа распределений в одной системе координат. На рисунке 4.13 показаны три сравниваемых между собой и с нормальным распределением многоугольника частот.

Многоуголъники частот отличаются от графиков в арифметической шкале по нескольким пунктам. Многоугольники частот, также, как и гистограммы, используются для изображения частотного распределения значений количественной непрерывной переменной или вариационного ряда. Графики в арифметической шкале используются для изображения нескольких цифровых значений (в абсолютных числах или в виде показателей), обычно на протяжении определенного промежутка времени. Многоугольник частот должен быть закрыт с обеих сторон, так как величина площади под кривой имеет статистический смысл и представляет всю совокупность данных частотного распределения; точки графика в арифметической шкале просто представляют отдельные данные.

Рисунок 4.13 Антропометрические данные по детям Гаити в возрасте от 24,0 до 59,9 месяцев в сравнении с эталонной (референтной) популяцией Национального Центра Статистики Здоровья CDC и Всемирной Организации Здравоохранения, северные районы Гаити, 1990 г.(9)

Кривые накопленных частот и кривые выживаемости

Как следует из названия, на кривой накопленных частот изображаются не действительные частоты по каждому из интервалов классов переменной, а накопленные частоты. На рисунке 4.14 показаны четыре кривых накопленных частот. Этот вид графиков удобен при определении медиан, квартилей и других процентилей. На оси ОХ отмечены интервалы классов, а на оси ОУ совокупные частоты либо в абсолютном значении (например, число случаев), либо в виде долей (процентов). Точка, соответствующая каждой накопленной частоте, ставится над правой границей интервала, к которому она относится, а не над серединой, как в случае многоугольников частот. Такой график можно использовать для наглядного представления числа или процента наблюдений выше или ниже конкретного значения.

Кривые выживаемости используются при когортных исследованиях для показа доли живых людей в одной, или большем числе групп на разные моменты времени. Подобно осям кривой накопленных частот, на оси ОХ отмечаются одинаковые периоды времени, а на оси ОУ показаны проценты (от 0% до 100%) людей, оставшихся в живых. Различие кроется в самих кривых. В то время, как кривая накопленных частот начинается с нуля в нижнем левом углу диаграммы и приближается к 100% в верхнем правом углу, кривая выживаемости начинается со 100% в верхнем левом углу и смещается в направлении нижнего правого угла по мере того, как умирают члены группы. На рисунке 4.15 показаны две кривые выживаемости больных заболеванием периферических артерий (ЗПА) и лиц, не имеющих этого заболевания. В какой группе выше процент выживаемости (или продолжительность выживания)? К 10-му году процент выживаемости среди лиц, не имеющих ЗПА, был гораздо выше, чем среди больных этим заболеванием.

Рисунок 4.14 Кумулятивная, накопленная заболеваемость при заражении вирусом гепатита В по типу и продолжительности ведения поведения риска (1,17,19,23)

Рисунок 4.15 Кривые выживаемости когорт людей с заболеванием периферических артерий (ЗПА) (n=482) и лиц, не имеющих этого заболевания (n=262), г. Питтсбург, штат Пенсильвания, США 1977-85 гг.(20)

Диаграммы рассеяния.

Диаграммы рассеяния (скаттер-диаграммы, от англ. scatter - разбрасывать) служат для изображения взаимоотношения между двумя количественными (непрерывными) переменными. При этом ось ОХ служит для представления одной переменной, а ось ОУ другой. Чтобы построить диаграмму рассеяния, нужно иметь пару значений по каждому лицу, группе или другому элементу имеющегося набора данных, по одному значению для каждой из переменных. Затем каждая пара значений наносится на диаграмму (обычно в вице точки, но может использоваться и любой другой символ), в том месте, где два значения пересекаются. На рисунке 4.16 показана диаграмма рассеяния, иллюстрирующая уровень тетрахлородибензо-р-диоксина (ТХДД) в сыворотке крови группы рабочих, в зависимости от длительности работы (в годах) с этим веществом.

При интерпрегации диаграмм рассеяния обращают внимание на конфигурацию разброса точек. Небольшой разброс точек означает высокую степень корреляции. Большой разброс указывает на слабую корреляцию. Если хотят получить более точную, количественную меру взаимоотношения между переменными диаграммы рассеяния, используют методы корреляционного или регрессионного анализа. Обсуждение этих методов не входит в задачу данного пособия.

Рисунок 4.16 Пример диаграммы рассеяния: уровни тетрахлородибензо-п-диоксина (ТХДД) в сыворотке, с поправкой на содержание липидов, у 253 рабочих, в зависимости от длительности работы, на 12 химических заводах, США, 1987 г.(16)

 

Диаграммы.

Диаграммы служат для отображения статистической информации, используя только одну линию координат. Они более всего подходят для сравнения значений качественных переменных.

Столбиковые диаграммы.

Представить данные из таблицы значений одной переменной может простейшая столбиковая диаграмма. Каждое значение или категория переменной представлена столбиком или прямоугольником. Длина прямоугольника пропорциональна числу лиц или явлений в соответствующей категории. На рисунке 4.17 показано число случаев смерти среди детей в США по видам причин смерти. Такой вид представления данных позволяет легко сравнить относительные величины различных причин и увидеть, что врожденные дефекты являются наиболее частой причиной младенческой смертности.

Переменные, представляемые столбиковыми диаграммами, либо дискретны, т. е. являются качественными (например, раса, пол) или считаются дискретным вариантом количественной переменной (например, возрастные группы, а не возрастные интервалы по оси).

Рисунок 4.17 Пример горизонтальной дискретной гистограммы: число смертей среди младенцев по основным причинам, США, 1983 г.(6)

Ось OX - абсолютное число смертельных случаев среди новорожденных; сверху вниз: врожденные уродства, недоношенность/синдром дыхательного расстройства, синдром внезапной детской смерти, гипоксия/асфиксия в родах, травмы/побочные реакции, перинатальные инфекции, осложнения мембран/плаценты/пуповины, пневмония/грипп, осложнения у матери.

Столбики могут быть либо горизонтальными, либо вертикальными. Длина или высота каждого столбика пропорциональна числу вариант в этой категории. По этой причине не нужно использовать разрывы в шкале, показывающей высоту, так как это может привести к неправильной интерпретации при сравнении величин различных категорий.

Вертикальная столбиковая диаграмма отличается от гистограммы тем, что прямоугольники столбиковой диаграммы отделены друг от друга, в то время как прямоугольники гистограммы соприкасаются. Это различие определяется видами переменных, используемых по оси ОХ. Гистограммы показывают распределения непрерывных (количественных) переменных, таких как возраст или уровень холестерина или даты начала заболевания во время эпидемии. Столбиковая диаграмма показывает распределение дискретной (качественной) переменной (например, пол, раса, штат).

Комбинированные столбиковые диаграммы.

Комбинированные столбиковые диаграммы используются для изображения значений двух или трех переменных в случаях, когда результирующая переменная является дихотомной (т.е. имеет только два значения). Обычно столбики в пределах одной группы соприкасаются. Столбики должны быть окрашены в разные цвета (или по-разному заштрихованы), а легенда должна пояснять, какой переменной соответствует данный цвет или тип заштриховки. Лучше всего ограничить число столбиков в одной группе тремя. Как можно видеть на рисунке 4.18, если на диаграмме слишком много столбиков, ее трудно интерпретировать.

Рисунок 4.18 Пример комбинированной столбиковой диаграммы:

Основные причины младенческой смертности по расовым/этническим группам, США, 1983 г.(6)

 

Ось OX - раса/этническая группа; Ось ОУ -число смертей на 1000 живорожденных; прямоугольники: черные -дефекты рождения; темная штриховка - низкий вес при рождении, преждевременные роды, синдром респираторного расстройства; белые - синдром внезапной смерти ребенка; светлая штриховка - другие

Рисунок 4.19 Пример вертикальной столбиковой диаграммы с примечаниями: процент курильщиков среди взрослых (лиц в возрасте не менее 18 лет, выкуривших не менее 100 сигарет за всю жизнь и курящих в настоящее время) по полу и возрасту, США, 1988 г.(10)

 

Столбиковая диаграмма на рисунке 4.19 изображает три переменные: возраст, пол и наличие вредной привычки (курения). В данном случае переменная "наличие вредной привычки (курения)" имеет два возможных значения: да и нет. Столбики представляют 10 возрастно-половых категорий. Высота каждого столбика пропорциональна проценту курильщиков в настоящее время в каждой возрастно-половой категории.

Надставленные столбиковые диаграммы.

Можно также показать категории второй переменной в виде составных частей столбиков диаграммы, представляющих первую переменную, как это сделано на рисунке 4.20. Обратите внимание, что надставленную столбиковую диаграмму труднее интерпретировать, так как, за исключением нижних столбиков (прямоугольников), остальные не лежат на одной горизонтальной прямой.

Столбиковые "елочные" диаграммы.

Столбиковые диаграммы можно использовать и для показа отклонений значений переменной в ту или иную сторону от какого-либо базового (референтного) значения. На рисунке 4.21 приведена столбиковая елочная диаграмма, показывающая отклонения числа зарегистрированных за указанные четыре недели 1991 года случаев некоторых, подлежащих регистрации заболеваний от выбранного референтного значения, которым является среднее число случаев этих же заболеваний, зарегистрированных за аналогичный период времени в предыдущие пять лет. Подобные диаграммы публикуются еженедельно в "Еженедельном отчете по заболеваемости и смертности", издаваемом CDC.

Рисунок 4.20 Пример диаграммы с надставленными столбиками: основные причины младенческой смертности по расовым/этническим группам, США, 1983 г.(6)

Обозначения такие же, как и на рисунке 4.18

Рисунок 4.21 Пример "елочной" диаграммы: число зарегистрированных заболеваний, сравнение суммарных данных за 4 недели, оканчивающиеся 26 января 1991, года с историческими данными, США, 1991 г.(8)

 

Название нижнего столбика: Rubella - краснуха

Отклонение самого нижнего столбика вправо означает, что в конкретный четырехнедельный период 1991 года было зарегистрировано больше случаев краснухи, чем в среднем за этот же период в последние 5 лет. Отклонение влево означает уменьшение в числе регистрируемых заболеваний по сравнению с предыдущим годами. На этой диаграмме ось ОХ имеет логарифмический масштаб, так что 50% уменьшение (половина случаев) и удвоение (50% увеличение) числа случаев будет представлено прямоугольниками одинаковой длины, хотя и в разных направлениях. Значения, попадающие вне исторических пределов (сравнимых с 95% доверительными пределами), выделены черным цветом с целью привлечения внимания.

Стопроцентные (100 %) столбиковые диаграммы.

Этот вид надставленных дискретных гистограмм отличается тем, что все прямоугольники имеют одинаковую высоту (или длину), а составляющие представлены процентами целого, а не абсолютными значениями. Диаграммы такого типа удобны для сравнения вкладов различных составляющих в каждую из категорий основной переменной. Процентная столбиковая диаграмма показана на рисунке 4.22. Обратите внимание, что диаграммы такого рода непригодны для сравнения относительных размеров различных категорий основной переменной (в данном случае расовой/этнической принадлежности); только суммы, приведенные поверх прямоугольников, показывают различие категорий по размеру.

Рисунок 4.22 Пример 100% столбиковых диаграмм: основные причины младенческой смертности по расовым/ этническим группам, США, 1983 г. (6)

Ось OX - раса/этническая группа; Ось ОУ - смертей на 1000 живорожденных; прямоугольники: черные -дефекты рождения; темная штриховка - низкий вес при рождении, преждевременные роды, синдром респираторного расстройства; белые - синдром внезапной смерти ребенка; светлая штриховка - другие

Как построить столбиковую диаграмму?

Чтобы построить столбиковую диаграмму, следуйте приведенным ниже правилам:

- Расположите категории, описываемые столбиками или группами столбиков, в естественном порядке, например по алфавиту, по возрасту или так, чтобы в результате длины столбиков возрастали или убывали.

- Столбики можно расположить как вертикально, так и горизонтально. При построении столбиковой "елочной" диаграммы столбики обычно располагаются горизонтально.

- Ширина столбиков должна быть одинакова.

- Определите длину столбиков в соответствии с количеством событий в категориях. Не разрывайте шкалу, так как это может привести к неправильной интерпретации при сравнении размеров различных категорий.

- Не используйте более трех столбиков в одной группе.

- Оставляйте место между смежными группами столбиков, но не между столбиками в одной группе (смотрите hисунок 4.19).

- Изобразите различные переменные различными цветами, штриховкой и т.д. и приведите список обозначений, объясняющий кодирование.

Круговые или секторные диаграммы.

Круговая или секторная диаграмма - это простая, легко воспринимаемая диаграмма, на которой величина секторов отражает вклад каждой составляющей одной (обычно качественной) переменной. Чтобы отличить один сектор от другого, рекомендуют использовать различные цвета или виды заштриховки. Рядом с диаграммой нужно указать, чему соответсвуюг 100%. Рекомендуется также указать внутри или снаружи секторов, какой процент представляет каждый из них. Несколько круговых диаграмм, расположенных рядом, как на рисунке 4.23, не являются самым удобным способом сравнения одинаковых составляющих в более чем одной группе или переменной, так как сравнивать составляющие, взятые из различных круговых диаграмм, довольно трудно. Когда хотят сравнить составляющие более чем одной группы или переменной, используют 100% процентные столбиковые диаграммы.

Рисунок 4.23 Пример круговых или секторных диаграмм: доля различных видов смертельных случаев в результате травм среди рабочих мужского и женского пола, США, 1980-85 гг.(11)

Левый круг - мужчины; правый круг - женщины;

квадраты сверху вниз: неумышленные повреждения; убийства; самоубийства; прочие

Карты (диаграммы в географических координатах).

Карты, которые по сути являются диаграммами в географических координатах, используются для изображения месторасположения случаев заболеваний или других явлений или событий, интересующих эпидемиологов. Примерами часто используемых диаграмм такого рода являются точечные карты местности и административные или территориальные карты. Для показа случаев на карте обычно используют точки (но могут использоваться и другие символы). На рисунке 4.24 показан пример точечной карты.

Рисунок 4.24 Пример точечной карты местности: заболевания гистоплазмозом по месту жительства, г.Остин, штат Миннесота, США, октябрь-ноябрь 1984 г.(CDC, неопубликованные данные, 1985 год)

Ч

Чтобы построить точечную карту, поместите точку или другой символ в том месте карты, где возникло интересующее вас событие или случай. Если случаи сосредоточены в одном месте, затрудняя отделение одной точки от другой, можно использовать групповые символы (например, точка= 1 случай, -прямоугольник = 2 случая, а треугольник = 3 случая, и т.д.).

Точечные карты используются при показе географического распределения событий, но из-за того, что при этом не принимается во внимание количество населения, подвергающегося риску, такая карта не дает сведений о риске (т. е. вероятности заболевания) в каждом конкретном месте, например, вероятность заболевания жителей конкретным заболеванием. Даже если на точечной карте нанесено много точек в одной области, вероятность заболевания может быть не очень велика, если эта область плотно населена.

При построении административной или территориальной карты используют разные цвета или заштриховку различной плотности для изображения количества случаев заболевания или другого явления на отдельных участках географического района. Пример такого рода карты показан на рисунке 4.25.

Рисунок 4.25 Пример административной карты: подтвержденные и предполагаемые случаи заболевания энцефалитом Сент-Луис по округу жительства, штат Флорида, США июль-октябрь 1990 г.(7)

На административной или территориальной карте можно показывать как абсолютное число случаев, так и показатели. На рисунке 4.25 показано число случаев энцефалита Сент-Луис в различных округах Флориды в 1990 году. Подобно точечной карте, такая карта ничего не говорит о вероятности заболевания энцефалитом Сент-Луис живущих в этих округах людей. Тем не менее, указывая на карте местности показатели, можно продемонстрировать различие в вероятности явлений по районам. При подсчете показателей нужно рассчитать их по каждому району в отдельности, то есть нужно разделить число случаев в каждом районе на количество подверженного населения в этом же районе.

Точечные диаграммы и коробчатые графики.

Точечные диаграммы подобны диаграммам рассеяния, так как на них изображается зависимость одной переменной от другой. Однако на точечных диаграммах одна из переменных (обычно указываемая на оси ОХ) является качественной, в то время как при построении диаграмм рассеяния обе переменные должны быть непрерывными количественными. Как показано на рисунке 4.26, каждое наблюдение наносится на график в виде точки над соответствующей категорией по оси OX на уровне соответствующего значения У. В этом месте размещают ровно столько точек, сколько имеется наблюдений с теми же значениями. Обратите внимание, что на рисунке 4.26 различное положение по вертикали 12 точек на пересечении "Зараженные" (Exposed) и "40" не указывает на различие в титре, у всех у них титр равен 40. Эти точки были расположены на различных уровнях с целью восприятия их как единого целого. Подобным же образом, все 25 точек выше "Незараженные" представляют титры, меньшие 10.

Точечные диаграммы используются для наглядного представления фактических значений принимаемых различными категориями качественной переменной. Если же нужно сравнить особенности распределения двух (и больше) вариационных рядов, используют коробчатые графики. На коробчатом графике отдельный вариационный ряд (или частотное распределение данных) представлен в виде прямоугольника с "усиками", как это показано на рисунке 4.27. Проекции боковых краев прямоугольника соответствуют ширине межквартильного размаха, т.е. того диапазона, внутри которого находится 50% всех данных, а "усики" простираются к наименьшему и наибольшему значениям. Положение медианы отмечают вертикальной чертой. Таким образом, с помощью коробчатого графика можно показать положение медианы, оценить степень разброса значений (межквартильный размах и амплитуду значений) и асимметрию, о которой будет говорить линия медианы, проходящая не точно по центру прямоугольника.

Рисунок 4.26 Пример точечной диаграммы: результаты исследования титров антител к вирусу гриппа свиней у зараженных и незараженных экземпляров свиней, штат Висконсин, США 1988 год (26)

Ось OX: Группа точек, образующих столбик слева - подверженные воздействию фактора риска, группа точек справа - неподверженные; Ось ОУ - титры антител к ВИЧ (вирусу иммунодефицита человека).

Рисунок 4.27 Пример коробчатого графика: распределение титров антител класса IgG к вирусу парагриппа I типа в образцах сывороток, взятых на стадии реконвалесценции у больных и здоровых, округ Балтимор, штат Мэрилэнд, США январь 1990 г. (CDC, неопубликованные данные, 1990г)

Ось OX - поглощение; Ось ОУ: бокс сверху - больные; бокс внизу - здоровы.

Замечания об использовании компьютеров.

В настоящее время имеется большое количество программных средств для персональных компьютеров, которые облегчают задачу построения таблиц, графиков и диаграмм. Эти программы еще называют графическими пакетами. Большинство из них весьма удобны, позволяя нарисовать график нажатием нескольких клавиш. При наличии таких программ задача построения оптимальной эпидемической кривой перестает быть обременительной и утомительной, так как можно быстро и легко создать и оценить несколько вариантов кривых с различными интервалами классов по оси ОХ.

С другой стороны, иногда программа пытается диктовать, какой вид графика будет построен. Например, многие современные графические пакеты могут рисовать гистограммы и круговые (секторные) диаграммы в так называемом "3D" или трехмерном изображении. Означает ли это, что теперь нужно строить только трехмерные диаграммы? Конечно же, нет. Нужно помнить о главной цели построения диаграммы или графика - представить данные в удобоваримой доступной форме. Передаст ли трехмерная диаграмма информацию лучше двухмерной?

Решите для себя сами: дает ли трехмерная диаграмма на рисунке 4.286 больше сведений, чем двухмерная диаграмма на рисунке 4.28а? Какую из них легче интерпретировать?

Если нужно сосредоточить внимание на тенденциях в динамике изменения числа регистрируемых и подвержденных случаев полиомиелита, показанных на этих двух диаграммах, возможно, трехмерная диаграмма и предпочтительнее. Однако, линейный график с двумя кривыми в арифметической шкале может оказаться лучше всего. Общая для трехмерных гистограмм проблема состоит в том, что столбик в ближнем ряду может загородить прямоугольник в дальнем. Предположим, что рассматривается отношение подтвержденных случаев к зарегистрированным за каждый год. Из двумерной гистограммы можно сразу же увидеть, что число подтвержденных случаев в 1985 году равно примерно двум третям числа зарегистрированных в 1985 году случаев. Сколько придется смотреть на трехмерную диаграмму, чтобы прийти к тому же выводу? Теперь сравните отношение подтвержденных и зарегистрированных случаев по всем пяти годам. Если бы потребовалось показать эти сведения на слайде за 20 секунд в течение 10-ти минутного доклада, какой из рисунков вы бы показали?

Рисунок 4.28а Пример двухмерной дискретной гистограммы: число зарегистрированных и подтвержденных случаев заболевания полиомиелитом по годам, Южная и Северная Америки, 1985-89 гг.(5)

Ось ОХ - годы; Ось ОУ - число случаев; белым - подтвержденные случаи; штриховкой -зарегистрированные случаи.

 

Рисунок 4.28б Пример трехмерной дискретной гистограммы: число зарегистрированных и подтвержденных случаев заболевания полиомиелитом по годам, Южная и Северная Америки, 1985-89 гг.(5)

Ось OX - годы; Ось ОУ - число случаев; белым - подтвержденные случаи; штриховкой зарегистрированные случаи

Дает ли трехмерная круговая диаграмма на рисунке 4.296 больше сведений, чем двухмерная диаграмма на рисунке 4.29а? Можно ли определить относительные размеры составляющих так же хорошо и в трехмерном варианте? Посмотрите на трехмерный круг и закройте цифры, показывающие, каков процент испаноговорящих лиц и выходцев из Азии/островов Тихого океана. Можете ли вы теперь определить, какой из секторов диаграммы больше и на сколько? Наверное, не сможете. Можно ли определить то же самое с помощью двухмерного круга? Помните, что представить относительную величину каждого сектора является единственной целью круговой диаграммы.

Использование "спецэффектов", ничего не добавляющих для понимания представляемых данных, называют "засорением" диаграммы (25).

 

( 12)

Рисунок 4.29б Пример трехмерной круговой диаграммы: процентное распределение больных туберкулезом по расовым и этническим группам, США, 1989 г. ((n=23495)(12))

 

Многие люди неправильно используют технику при выборе цвета, в особенности для слайдов, сопровождающих доклады. Если вы собираетесь использовать слайды, следуйте следующим советам:

- Выберите цвета так, чтобы все составляющие графика, диаграммы или рисунка, такие, как заголовок, оси абсцисс, точки, линии и другие обозначения были контрастными, т. е. четко выделялись на общем фоне.

- Старайтесь не использовать рядом красный и зеленый цвета, так как до 10% мужчин в аудитории могут не различать их в той или иной степени (дальтонизм).

- Если возможно, выбирайте цвета, передающие информацию. Например, рассмотрим карту местности, на которой штаты разделены на четыре группы в соответствии с показателями заболеваемости конкретной болезнью. Вместо того, чтобы взять хорошо выглядящие цвета, можно использовать светлый цвет или оттенок для штатов с наименьшими показателями и более темные цвета или оттенки для групп с большими показателями. Таким образом, цвета способствуют восприятию, а не искажают или отвлекают от сообщаемых сведений.

Наконец, некоторые графические программы не позволяют строить некоторые из описанных в этом руководстве видов диаграмм. В частности, некоторые пакеты не строят гистограммы, а только столбиковые графики и диаграммы. Тип и форма графиков должны зависеть от данных и взаимоотношений, которые нужно наглядно изобразить, а не от имеющихся средств. Если программное обеспечение в вашем распоряжении не может "приспособиться" к имеющимся данным, не жертвуйте данными или их представлением. Используйте другое программное обеспечение!

Выбор и построение таблиц, графиков и диаграмм.

Чтобы сообщить о выводе, следующем из эпидемиологических фактов, вначале нужно выбрать наилучший способ его иллюстрации. Но даже наилучший способ нужно правильно построить, иначе сообщение будет потеряно. Таблицы в этом разделе дают указания по выбору способов иллюстрации и построения таблиц, графиков и диаграмм.

Таблица 4.13 Указания по иллюстрации эпидемиологических данных с помощью графиков и диаграмм

Вид графика или диаграммы

Применение

График в арифметической шкале

Тенденции данных или показателей во времени

График в полулогарифмической шкале

1. Выделение скорости изменения во времени

2. Изображение значений, отличающихся друг от друга более, чем на 2 порядка

Гистограмма

1. Частотное распределение непрерывной переменной

2. Число заболеваний во время эпидемии (эпидемическая кривая) или во времени

Многоугольник частот

Частотное распределение непрерывной переменной, в частности, для представления составляющих

Кривая накопленных частот

Показ накопленных частот количественной переменной

Диаграммы рассеяния

Нанесение на график связи между двумя переменными

Простая столбиковая диаграмма

Сравнение величин или частот различных категорий одной переменной

Комбинированная столбиковая диаграмма

Сравнение величин или частот различных категорий 2-4 наборов данных

Наложенная дискретная гистограмма

Сравнение суммарных данных и показ их составляющих частей по нескольким группам данных

Дискретная гистограмма отклонения

Изображение отклонений, как положительных, так и отрицательных, от опорного уровня

Дискретная процентная гистограмма

Сравнение долей различных составляющих в суммарных данных

Круговая диаграмма

Изображение частей целого

Точечная карта

Изображение мест появления случаев или явлений

Карта местности

Изображение явлений или показателей в соответствии с географическим делением

Коробчатый график

Наглядное представление статистических характеристик (медианы, размаха, смещения) переменной

Таблица 4.14 Выбор способов иллюстрации эпидемиологических данных

Если данные представляют собой,

И выполняются следующие условия,

То нужно выбрать:

Последовательность временных данных

Абс. число случаев заболеваний (вспышка или многолетяя динамика)

1 или 2 набора

Гистограмму

2 или более набора

Мног оуг оль ник частот

Показатели

Значения отличаются друг от друга на < 2 порядка

График в арифметической шкале

Значения отличаются друг от друга на >2 порядка

График в полулогарифмической шкале

Непрерывные данные, но не временные

Частотное распределение

Гистограмму или многоугольник частот

Данные с дискретными категориями (но не местом)

 

 

Дискретную гистограмму или круговую диаграмму

Место

Число случаев

Трудно определяемое с помощью карты

Дискретную гистограмму

Легко определяемое с помощью карты

Конкретное место важно

Точечную карту

Конкретное место неважно

Карту местности

Показатели

Карту местности

 

Таблица 4.15 Проверочный список для построения таблиц, графиков, диаграмм и наглядных пособий

Проверочный список при построении таблиц

  1. Заголовок
  2. Строки и столбцы
  3. Сноски

Проверочный список для графиков и диаграмм:

  1. Заголовок.
  2. Оси.
  3. Линии на графике или диаграмме.
  4. Графики.
  5. Сноски.
  6. Наглядное изображение данных.

Проверочный список для наглядных пособий (14):

  1. Разборчивость (нужно сделать пособие читаемым).
  2. Простота (нужно сделать пособие легко усвояемым).
  3. Использование цветов.
  4. Выбор цветов для наглядного пособия может отразиться на его воздействии.

    Для выбора надлежащего цвета для получения желаемого эффекта можно воспользоваться приводимой ниже таблицей.

     

     

    Горячие

    Теплые

    Прохладные

    Холодные

    Цвета Красный
    Ярко-оранжевый
    Ярко-желтый
    Ярко -золотой

    Светло-оранжевый
    Светло-желтый
    Светло-золотой
    Коричневые

    Светло-голубой
    Светло-зеленый
    Светло-фиолет.
    Светло-серый

    Темно-синий
    Темно-зеленый
    Темно-фиолет.
    Темно-серый

    Воздействие

    Возбуждающее

    Мягкое

    Подавляющее

    Угнетающее

    Используется ли наилучшая комбинация цветов? Наиболее важные пункты должны быть выделены наилучшим цветом и иметь наибольший контраст относительно фона. К наиболее благоприятным комбинациям цветов относятся:

  5. Точность и аккуратность.
  6. Долговечность.

Заключение.

Таблицы, графики и диаграммы являются эффективными средствами для получения и сообщения сводных данных. Таблицы часто используются для представления абсолютных чисел и показателей. Чтобы не потерять простоты и наглядности, они не должны включать данные более чем по двум переменным, причем каждая из переменных не должна состоять из более чем восьми категорий (интервалов классов). Таблицы иногда могут использоваться другими лицами вне контекста, так что они должны иметь надлежащее название, заголовки, легенды и ссылки.

Таблицы могут использоваться как с качественными, так и с количественными непрерывными переменными. Категории качественных переменных, таких как пол или штат постоянного жительства, очевидны. У непрерывных количественных переменных может не быть очевидных групп значений, поэтому бывает нужно такие группы (классы) создать. В случае такой количественной непрерывной порядковой переменной, как возраст, обычно применяют стандартные классы (стандартные возрастные группы). В других случаях имеется несколько методов определения ширины интервалов классов. При помощи них можно разбить интервал значений признака на классы с одинаковым числом наблюдений в каждом из них, либо на классы одинаковой ширины, либо на классы, размер которых будет зависеть от величины средней арифметической и стандартного отклонения.

Графики и диаграммы являются еще более эффективным средством для передачи информации. Не следует путать эти два вида наглядного представления данных. Под графиком в данном пособии понимается рисунок, на котором значения двух непрерывных количественных переменных отображаются в системе двух координат: горизонтальной оси ОХ и вертикальной оси ОУ. Например, на оси ОУ обычно представляют абсолютные значения числа случаев заболевания или показатели заболеваемости, а на оси ОХ наносится время. Под диаграммой понимают рисунок, на котором показано взаимоотношение количественной и качественной (нередко дихотомной) переменной. Например, на диаграмме может быть показано распределение числа случаев (непрерывная количественная переменная) по полу (качественная переменная).

Графики в арифметической шкале традиционно используются для изображения тенденций показателя заболеваний на протяжении времени. Если показатели отличаются друг от друга в 100 раз или больше, лучше использовать графики в полулогарифмической шкале. Гистограммы и многоугольники частот используются для изображения распределения данных вариационного ряда. Специальный вид гистограммы, называемый эпидемической кривой, показывает число случаев в зависимости от времени начала заболевания или даты постановки диагноза. Случаи могут быть представлены квадратами, которые стоят друг на друге, образуя столбцы диаграммы. Квадраты могут быть окрашены (заштрихованы) с целью отражения важных характеристик случаев, например, смертельных исходов.

Простые столбиковые и круговые (секторные) диаграммы используются для показа структуры распределения данных одной переменной. Комбинированные и надставленные столбиковые диаграммы могут описывать структуру двух и более переменных.

На точечных картах указано местоположение каждого случая или события. Административные контурные карты раскрашивают в разные цвета или заштриховывают с целью отражения уровней заболеваемости или других показателей в различных районах.

При использовании этих средств важно помнить о конечной цели: получить и представить итоговые данные. Поэтому, чем проще средства - тем лучше!

Литература:

1. Alter MI, Ahtone J, Weisfuse I, Starko K, Vacalis TD, Maynard JE Hepatitis В virus transmission between heterosexuals. JAMA 1986; 256:1307-1310.

2. Centers for Disease Control. Chronic Disease Supplement, 1987. Deaths from cervical cancer-U.S., 1984-1986. MMWR1989;38:38.

3. Centers for Disease Control. HTWAIDS Surveillance Report. November 1990.

4. Centers for Disease Control. Manual of reporting procedures for national morbidity reporting and public health surveillance activities. July 1985.

5. Centers for Disease Control. Progress toward eradicating poliomyelitis from the Americas. MMWR1989;39:33.

6. Centers for Disease Control. Infant mortality among racial/ethnic minority groups, 1983-1984. MMWR 1990;39:SS-;

7. Centers for Disease Control. St. Louis encephalitis - Florida and Texas, 1990. MMWR 1990;39:42.

8. Centers for Disease Control. MMWR 1991;40:4.

9. Centers for Disease Control. Nutritional assessment of children in drought-affected areas — Haiti, 1990. MMWR 1991;40:13.

10. Centers for Disease Control. Cigarette smoking among adults-United States, 1988. MMWR 1988;40:44.

11. Centers for Disease Control. National Institute of Occupational Safety and Health. National Traumatic Occupational Fatalities Database.

12. Centers for Disease Control. Summary of notifiable diseases. United States, 1989. MMWR1989;38(54).

13. Centers for Disease Control. Health status of Vietnam veterans. Volume3: Medical Examination. 1989.

14. Creech JW. Effective oral presentations. Epi in Action Course, Centers for Disease Control, 1988.

15. Dicker RC, Webster LA, Layde PM, Wingo PA, Qry HW. Oral contraceptive use and the risk of ovarian cancer: The Centers for Disease Control Cancer and Steroid Hormone Study. JAMA 1983;249:1596-1599.

16. Hngerhut MA, etal. Cancer mortality in workers exposed to 2,3,7,8-tetrachlorodibenzo-p-dioxin. New Engl J of Med 1991; 324:212-218.

17. HaderSC, etal. Occupational risk of hepatitis В infection in hospital workers. Infect Ctrl 1985; 6:24-31.

18. Kleinman JC, Donahue RP, Harris MI, Fmucane FF, Madans JH, Brock DB. Mortality among diabetics in a national sample. AmJ Epidemiol 1988; 128:389-401.

19. LettauLA, etal. Outbreak of severe hepatitis due to delta and hepatitis F viruses in parenteral drug abusers and their contacts. New Engl J of Med 1987; 317:1256-1262.

20. McKenna M, Wolf son S.KullerL. The ratio of ankle and arm arterial pressure as an independent predictor of mortality. Atherosclerosis 1991; 87:119-128.

21. National Center for Health Statistics. Advance report of final mortality statistics, 1987. Monthly vital statistics report; vol 38, no 5 supp. Hyattsville, MD Public Health Service. 1989.

22. Schoenbaum SC, Baker 0, Jezek Z. Common source epidemic of hepatitis due to glazed jaundiced pastries. AmJ Epidemiol 1976; 104:74-80.

23. SchreederMT, etal. Hepatitis В in homosexual men: prevalence of infection and factors related to transmission. J Infect Disl982; 146:1.

24. Sutter RW, Patriarca PA, Brogran S et al. Outbreak of paralytic poliomyelitis in Oman. Evidence for wide spread transmission among fully vaccinated children. Lancet 1991; 338:715-20.

25. TufteER. The visual display of quantitative information. Cheshire, CT: Graphics Press, 1983.

26. Wells DL, Hopfensperger DJ, ArdenNH, et al. Swine influenza virus infections. JAMA 1991; 265:478-481.

27. Williamson DF, Parker RA, Kendrick JS. The box plot: A simple visual method to interpret data Ann Intern Med 1989; 110:916-921.