Методы анализа связей между переменными. Связи между количественными переменными

Из кн.: Плавинский С.Л. Биостатистика.Планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS. СПб: Издательский дом СПб МАПО.- 2005

Довольно часто исследователю приходится изучать связи между двумя показателями, измеренными на интервальной шкале или шкале отношений (количественными переменными). Несколько лет назад подобные исследования были очень популярны в медицине, однако с укреплением позиций доказательной медицины моды на них стала проходить - оказалось, что важные для пациента исходы лучше измеряются при помощи качественных показателей (жив/умер, перенес инфаркт/нет и т.д.), да и объяснять пациенту что "при снижении уровня артериального давления на 5 мм. рт. ст. риск инфаркта снизится на 20%" было тяжело. Кроме того попали под огонь критики очевидно бессмысленные заявления, являвшиеся следствием корреляционного анализа, например, "при снижении уровня холестерина на 1% риск инфаркта миокарда снижается на 2%". Как едко отмечал один американский автор "снизим уровень холестерина на 50% и инфаркта не будет?". Все это привело к уменьшению популярности коэффициента корреляции и регрессионного анализа (двух родственных методов статистического анализа связей количественных показателей). И теперь они занимают соответствующую им нишу, несколько уступая отношениям шансов в деле суммирования результатов научных исследований, однако все еще часто встречаясь в публикациях.

Для того, чтобы понять идею корреляционного анализа необходимо вспомнить школьный курс геометрии. Предположим, что у нас есть набор точек на плоскости. Тогда каждая точка характеризуется двумя цифрами - координатами - одной по оси х, другой по оси у. Эти две цифры однозначно описывают местоположение точки. Также читатель этой книги помнит, что через две точки всегда можно провести одну и только одну прямую. Однако что же делать, если точки три? Провести одну прямую через них все, уже, наверное, не удастся, если только они не лежат на одной прямой. Какова характеристика точек лежащих на одной прямой? Мы помним, что уравнение прямой описывается формулой y=a*x+b. Соответственно, для любой пары точек с координатами (х11) и (х22) расстояние между координатами по одной оси будет пропорционально расстоянию по другой. Действительно, если у1=a*x1+b и y2=a*x2+b, то y1-y2=a*x1-a*x2=a*(x1-x2). Если точки не лежат на одной прямой, это правило выполняться не будет. Если точек много, проводить по парные сравнения муторно, да и не нужно. Можно сравнить все точки с одной - неким центром. Что является центром? Точка, которая находится посредине значений на оси х и посредине - на оси у. Иными словами, точка с координатами (xср, yср). Логика наших рассуждений не меняется и мы можем продолжать утверждать, что для точек на прямой отношение (x-xср)/(y-yср) должно быть одинаковым. Если это так, то произведение (x-xср)*(y-yср) равно а*(x-xср)2. Но мы помним, что данное выражение просуммированное для всех точек - не что иное, как сумма квадратов, составная часть дисперсии (Sx2). Соответственно, наше выражение можно записать как a*(n-1)*Sx2. С другой стороны, то же самое произведение будет равно (1/a)*(n-1)Sy2. Произведение двух величин друг на друга даст нам выражение a*(n-1)*Sx2*(1/a)*(n-1)*Sy2=(n-1)2*Sx2*Sy2. Иными словами, в случае, если точки располагаются на одной прямой, произведение (S(x-xср)*(у-уср))2 равно (n-1)2*Sx2*Sy2. Все это можно преобразовать так: (S(x-xср)*(у-уср))2/(n-1)2=Sx2*Sy2. Поскольку в левой части стоит то, что мы можем обозначить как совместную дисперсию х и у, то можно выражение записать как Sxy2=Sx2*Sy2. Иными словами, в случае, если точки лежат на одной прямой, то совместная дисперсия равна произведению дисперсий точек по осям х и у.

Теперь предположим, что точки разбросаны на плоскости абсолютно случайно. Иными словами, никакой зависимости между изменениями по оси х и соответствующих им изменений по оси у нет. Тогда произведение ((x-xср)*(y-yср)) Поскольку оба множителя в данном произведении колеблются вокруг нуля, если х и у полностью независимы друг от друга это сумма таких произведений будет равна нулю. Таким образом мы получаем два крайних случая - точки никак не связаны - совместная дисперсия равна 0, или точки лежат на одной прямой - совместная дисперсия равна произведению дисперсий показателей по оси х и у. Если теперь мы введем показатель, равный совместной дисперсии, деленной на дисперсии по х и по у [S2xy/(S2x*S2y)], он будет равен нулю если точки разбросаны случайно и 1, если точки лежат на одной прямой и, соответственно, между ними имеется линейная статистическая связь. Если точки разбросаны не случайно, но и не лежат на одной прямой, эта величина будет лежать где-то между крайними значениями в 0 и 1. Надо заметить, что мы можем извлечь корень квадратный из дисперсий и тогда значение в числителе (совместная дисперсия) сможет принимать как положительные, так и отрицательные значения. При этом стандартные отклонения, находящиеся в знаменателе будут продолжать оставаться только положительными. От чего будет зависеть знак Sxy? Если при увеличении значений по оси х значения по оси у увеличиваются, то тогда и х и у находятся по одну сторону от своих средних значений и разности  (x-xср) и (y-yср) имеют один знак. Если при росте по одной оси, значения по другой снижаются, знаки будут разные. Соответственно, если знаки одинаковые, произведение всегда будет положительным. Если знаки разные, произведение будет отрицательным. В крайнем случае - точки лежат на одной прямой и координаты растут по обеим осям - описанное выше отношение  стандартных отклонений, будет равно +1. Если же по одной оси координаты растут, а по другой - падают, и все точки уложились на одной прямой, значение будет равно -1.

Таким образом, коэффициент Sxy/(Sx*Sy), называемый коэффициентом корреляции, равен -1 если между двумя показателями есть полная линейная связь, но с ростом одной переменной другая снижается, равен 0 если две переменных не связаны, и равен +1, если имеется полная линейная связь и рост одной переменной приводит к росту другой.

Вернемся теперь на время к квадрату коэффициента корреляции. Он равен отношению квадрата суммарной дисперсии к произведению квадратов значений по осям и меняется в диапазоне от 0 до 1. Если он равен 1, то вся имеющаяся дисперсия одного показателя объясняется дисперсией другого. Если нулю - дисперсии друг с другом не связаны. Отсюда следует важное для анализа коэффициентов корреляции правило - его квадрат показывает, насколько дисперсия одной переменной объясняется другой переменной. Иными словами, если коэффициент корреляции равен 0.5, его квадрат равен 0.25 и, значит, одна переменная объясняется другой на 25%.

Коэффициент корреляции представляет собой довольно удобный и информативный показатель степени линейности связи между переменными, однако рассчитав его на некотором наборе данных мы не должны успокаиваться. Действительно, мы же подсчитали значение коэффициента корреляции не на всей популяции, на отдельной группе, выборке. Теперь необходимо ответить на вопрос, каково будет значение коэффициента корреляции в популяции. Ответ на этот вопрос зависит от двух показателей - абсолютного значения коэффициента и количества наблюдений, использованных при его расчете. Для начало придется рассчитать ошибку коэффициента корреляции, которая равна Ö(1-r2)/Ö(N-2). Видно, что чем больше наблюдений использовалось для расчета коэффициента корреляции, тем более надежной является оценка (что логично). Доверительный интервал коэффициента корреляции затем можно рассчитать путем умножения данной величины на 2 (1.96, если наблюдений было много) и прибавления и вычитания произведения из вычисленного значения коэффициента корреляции. Так, если было получено значение коэффициента корреляции 0.5 на группе из 27 человек, популяционное значение коэффициента корреляции должно быть расположено в пределах 0.5+2*Ö(1-0.25)/Ö(25)= 0.5+2*0.87/5=0.85 и 0.5-2*0.87/5=0.15.

Иными словами, хоть на основании выборки нам и могло показаться, что одна переменная объясняет другую на 25%, на самом деле определенности никакой нет - она может объяснять до 72% дисперсии, а может и всего 2%. Определенного вывода о степени связи сделать, таким образом, нельзя.

Некоторые выводы о характере связи, тем не менее, сделать можно. Видно, что коэффициент корреляции не захватывает нулевое значение. Соответственно, мы можем утверждать, что в популяции коэффициент корреляции не может быть равен нулю. Иными словами, связь между переменными наблюдается, она положительная, но насколько она выраженная, мы точно определить не можем.