Интерпретация коэффициента корреляции

Корреляция представляет собой статистическую взаимосвязь случайных величин, при которой изменения значений одной величины сопутствуют систематическому изменению значений другой (других). Ниже рассмотрены некоторые тонкости трактовки результатов корреляционного анализа.
Сила корреляции ≠ значимость корреляции
При интерпретации результатов корреляционного анализа стоит разделять следующие понятия:
  • Сила связи
Её характеризует коэффициент корреляции (r), но в большей степени – квадрат коэффициента корреляции, или коэффициент детерминации (r2). Последний показывает, какая доля дисперсии одной переменной объясняется зависимостью от другой переменной.
  • Значимость связи
Её характеризует уровень значимости (p). Он показывает, какова вероятность при истинном отсутствии связи в популяции получить такой коэффициент корреляции, как в исследовании.
При этом связь между переменными может быть сильной, но при этом статистически не значимой.
Пример 1: r = 0,600, p = 0,060
Это означает, что в данной выборке показатели заметно коррелируют друг с другом, однако такая корреляция с достаточно высокой вероятностью может быть случайной.
И наоборот, связь между переменными может быть слабой, но при этом статистически значимой.
Пример 2: r = 0,200, p = 0,020
Это означает, что в данной выборке показатели слабо коррелируют друг с другом, однако такая корреляция с достаточно высокой вероятностью наблюдается неслучайно.
NB! Ключевым фактором является размер выборки
  • Для небольших выборок более характерна первая из вышеописанных ситуаций.
Поэтому важно обращать внимание на значимость корреляции, чтобы не сделать поспешных выводов.
  • Для больших выборок более характерна вторая из вышеописанных ситуаций.
Поэтому важно обращать внимание на силу корреляции, чтобы понять, многое ли объясняет выявленная связь.
Сила корреляции ≠ значимость корреляции
Во-первых, взаимосвязь переменных необязательно является линейной.
  • Параметрический корреляционный анализ (например, расчет коэффициента корреляции Пирсона) не позволяет оценивать наличие и силу нелинейных корреляций.
  • Непараметрический корреляционный анализ (например, расчет коэффициента Спирмена), позволяет оценивать наличие и силу нелинейных корреляций. Однако по его результатам не всегда можно представить, как именно выглядит взаимосвязь.
Во-вторых, даже при линейной взаимосвязи корреляционный анализ не позволяет судить о некоторых её аспектах, таких как угол наклона кривой.
Поэтому при оценке взаимосвязи переменных следует ориентироваться не только на результаты корреляционного анализа, но и на диаграммы рассеяния.
Корреляция ≠ причинно-следственная связь
Наличие значимой корреляции не является достаточным условием для установления причинно-следственной связи. Её можно рассматривать только как косвенное подтверждение такой связи.
Например, повышение качества жизни при увеличении продолжительности сна необязательно говорит о том, что сон влияет на самочувствие. Возможна и обратная ситуация: качество сна зависит от того, как себя чувствует человек. Также не исключено, что на сон и качество жизни влияет какой-то скрытый фактор (например, уровень тревожности).
И напротив, отсутствие значимой корреляции не означает отсутствия связи. Как было сказано выше, взаимосвязь может остаться не выявленной, если имеет сложный нелинейный характер.
Например, качество жизни может быть максимальным при продолжительности сна 6-8 часов, но снижаться, если человек спит больше или меньше. Очевидно, что показатели связаны друг с другом, однако корреляционный анализ (особенно параметрический) не всегда способен обнаружить подобную зависимость.
О чём именно можно судить по результатам корреляционного анализа?
  • Значимость связи
По уровню значимости р (с учетом вышеупомянутых ограничений)
  • Сила связи
По коэффициентам корреляции и детерминации (с учетом вышеупомянутых ограничений).
Для оценки силы связи по коэффициенту корреляции удобно использовать шкалу Чеддока.
  • Направление линейной связи (для некоторых вариантов корреляционного анализа)
NB! Речь не о причине и следствии, а о характере изменении одной переменной при изменении другой
  • Положительная корреляция —увеличение одной переменной связано с увеличением другой
  • Отрицательная корреляция —увеличение одной переменной связано с уменьшением другой
Made on
Tilda