В большинстве случаев статистический анализ предполагает тестирование не одной, а нескольких гипотез. Однако, чем больше таких тестов проводится, тем выше вероятность сделать ошибочные выводы.
Почему же так происходит?
Предположим, мы проверяем нулевую гипотезу (Н0) об отсутствии различий между группами. При этом пороговый уровень значимости α определен на уровне 0,05.
Если Н0 верна, и группы действительно не различаются:
Вероятность, что тестирование гипотезы покажет отсутствие различий между группами (верный результат) составляет 95% (1 – α)
Вероятность, что тестирование гипотезы покажет наличие различий между группами (ошибочный результат) составляет 5% (α)
Всё вышеописанное верно для тестирования одной гипотезы. Если мы проверяем m гипотез:
Вероятность сделать правильный вывод при тестировании ОДНОЙ верной Н0 составляет те же (1 – α)
Вероятность сделать правильный вывод при тестировании ВСЕХ верных Н0 составляет (1 – α)m
Вероятность, что НЕ ВСЕ выводы при тестировании верных Н0 окажутся правильными (т.е. хотя бы один статистический тест выявит различия, которых в действительности нет), составляет 1 – (1 – α)m
Проводя больше статистических тестов, исследователь всё сильнее рискует столкнуться с их ложноположительными результатами. При α = 0,05 вероятность, что хотя бы одна из верных нулевых гипотез будет ошибочно отклонена, составляет:
Возрастающая вероятность ошибок превратит анализ в лотерею. Некоторые значимые результаты статистических тестов окажутся случайными, причем исследователь не будет знать, где именно спряталась ошибка.
Существуют поправки на множественность сравнений, такие как поправка Бонферрони. Однако они могут быть чрезмерно или недостаточно строгими. Поэтому желательно планировать статистический анализ таким образом, чтобы сократить число тестируемых гипотез (если это не в ущерб поставленным задачам).