Регрессионный анализ

Выполнение регрессионного анализа при помощи системы Stata не является сложным процессом. Определение регрессионной модели, которая имеет смысл, является значительно более сложной задачей. В особенности следует подумать над следующим:

• Если вы ищите причинно-следственные связи, убедитесь в том, что ваша модель является разумной. Не включайте независимые переменные, которые представляют собой этапы в пути, приводящим к развитию некоего события. Это создаст вам больше проблем, чем позволит решить. Автоматические процедуры отбора переменных также доступны в Stata (смотри [R] sw), но поскольку они могут способствовать тому, что пользователь перестанет думать, я их описывать не буду.

• Если ваша гипотеза не является причиной, и вы просто смотрите на предикторы, тогда логические требования при построении модели могут быть более свободными, однако убедитесь в том, что вы действительно смотрите на предикторы, а не на последствия того, что вы изучаете.

• Обратите внимание на тесно связанные друг с другом независимые переменные, например такие переменные как образование и социальный класс, включение обоих может иногда скорее затуманить картину, чем прояснить ее.

12.1. Линейная регрессия

Команда regress [R]

Стандартная линейная регрессия с переменной bmi в качестве зависимой переменной может быть выполнена так:

regress bmi sex age

Префикс xi: [R] xi

Префикс xi: позволяет включать в регрессионную модель качественные переменные. Из пятиуровневой качественной переменной xi: генерирует четыре индикаторных переменных; в регрессионной модели они обозначаются буквочкой i., которая используется как префикс к оригинальному имени переменной:

 xi: regress bmi sex i.agegrp

Вы можете также использовать xi: для того, чтобы включить член уравнения, который будет являться между двумя или более переменными:

 xi: regress bmi age i.sex i.treat i.treat*i.sex

По умолчанию опускается первая категория, которая имеет наименьший код и она становиться референтной группой. Вы можете перед анализом выбрать третью возрастную группу (agegrp 3) как референтную, определив ее следующую 'характеристику':

 char agegrp[omit] 3

Команда predict [R] predict

После выполнения регрессионного анализа вы можете сгенерировать предсказанные значения из регрессионных коэффициентов, что может оказаться полезным для изучения остаточных значений:

 regress bmi sex age

 predict pbmi

 generate rbmi = bmi-pbmi

 scatter rbmi pbmi  или используйте rvfplot, смотри ниже

Регрессионная диагностика [R]

Данная глава содержит очень большой объем информации. Можно создать график остатков с горизонтально референтной линией при помощи команды:

 rvfplot , yline(0)