Уровень значимости (p-value, p) так часто упоминается в исследованиях, что кажется интуитивно понятным. Однако его интерпретация не так проста, как представляется на первый взгляд. Вместе с тем правильное понимание статистической значимости играет важную роль в анализе результатов исследования и планировании дальнейшей работы. Anatomise Biostats напоминают о нескольких ключевых моментах интерпретации уровня значимости.
Интерпретация Р зависит от формулировки гипотезы
Исследователи делают вывод о свойствах генеральной совокупности, изучая извлеченную из неё выборку. Статистический анализ показывает, какова вероятность при верной нулевой гипотезе (Н0) получить такие данные, как в проведенном исследовании. Эта вероятность и называется уровнем значимости. Если он ниже условного порога, это считается достаточным, чтобы отклонить нулевую гипотезу и принять альтернативную. Соответственно, интерпретация уровня значимости напрямую зависит от формулировки нулевой гипотезы.
Пример: проверка гипотезы равенства
Н0: μ1 = μ2 Н1: μ1 ≠ μ2 (μ– среднее значение в группе)
Допустим, по результатам статистического анализа р = 0,01, а пороговый уровень значимости α = 0,05. Это означает, что при истинном отсутствии различий между группами (т.е. верной Н0) вероятность получить такие данные, как в проведенном исследовании, составляет всего 1%. Это меньше порогового значения, поэтому можно отвергнуть Н0 и считать, что группы различаются.
Позволяет ли Р судить о правильности гипотез?
Снова рассмотрим ситуацию, когда р = 0,01, а α = 0,05. Это не говорит о том, что вероятность истинного отсутствия различия между группами (верной Н0) составляет 1%, и тем более не позволяет доказать наличие различий между группами (верную Н1). Полученный уровень значимости лишь показывает, что при отсутствии различий между группами (верной Н0) вероятность случайно получить такие данные, как в исследовании, крайне мала. Поэтому можно считать, что наблюдаемые различия неслучайны.
Позволяет ли Р судить о частных случаях?
Предположим, уровень значимости для различий между группами лечения и контроля оказался ниже порогового. Это позволяет сделать вывод об эффективности препарата в целом, однако не отражает вероятность успеха терапии для конкретного пациента. Иными словами, р = 0,01 не означает, что при назначении препарата вероятность, что он не подействует, составляет 1%.
Позволяет ли Р судить об ошибке I рода?
Результаты анализа разных выборок из одной и той же генеральной совокупности будут приводить к получению различных р-значений. В связи с этим уровень значимости не отражает напрямую вероятность совершения ошибки I типа (неправильного отклонения верной нулевой гипотезы). Об этой вероятности позволяет судить пороговое значение α.
Позволяет ли Р судить о величине эффекта?
Результаты статистического анализа не имеют прямой связи с величиной эффекта. Слабые корреляции и небольшие различия между группами могут оказаться статистически значимыми, особенно при большом объеме выборки. И напротив, более сильные корреляции и заметные различия групп оказываются значимыми далеко не всегда.
Позволяет ли Р судить о практической ценности?
Результаты статистического анализа ничего не говорят о том, является ли результат клинически значимым. Бывает, что различия между группами не представляют научной или практической ценности. Например, препарат приводит к значимому снижению систолического артериального давления на 2 мм рт. ст. В связи с этим при интерпретации результатов анализа следует учитывать не только уровень значимости, но и клинически/научно значимую разницу.
Как видно из вышеописанного, в интерпретации уровня значимости много подводных камней. Внимательная и осторожная трактовка результатов статистического анализа позволит обойти их и не допустить ложных выводов.