To main content

Категоризация:

всегда ли это хорошо?

С математической точки зрения переменные можно условно разделить на три типа: количественные, порядковые и качественные.
  • Количественные (интервальные) переменные допускают все математические операции.
Например, возраст: можно не только определить, кто младше, но и сказать, на сколько лет.
  • Порядковые (ранговые, ординальные) допускают только сравнение.
Например, стадия заболевания: можно сказать, какая хуже, но нельзя оценить, во сколько раз.
  • Качественные (категориальные, номинативные) не допускают никаких математических операций.
Например, пол: понятия «больше / меньше» не применимы.
Нередко одну и ту же переменную можно представить и как качественную, и как количественную.
Например, можно привести возраст в годах или указать принадлежность к возрастной группе.
Идея замены количественной переменной на качественную может показаться заманчивой, поскольку категории визуально проще воспринимать. Однако это не всегда рационально.
Математические свойства переменных влияют на выбор статистических методов для их анализа. Количественные переменные позволяют проводить статистическую обработку более чувствительными методами, то есть исследователь с большей вероятностью заметит существующие различия между группами.
Допустим, планируется сравнение концентрации препарата в плазме крови пациентов из двух несвязанных групп.
  • Если концентрация препарата представлена как количественная величина, сравнение можно проводить с помощью Т‑критерия Стьюдента для независимых выборок (если показатель имеет нормальное распределение) или критерия Манна-Уитни (если распределение не соответствует нормальному).
Для данных, представленных на рисунке, при использовании параметрического метода уровень значимости для различий между группами составляет р = 0,035. Даже при использовании менее чувствительного непараметрического метода уровень значимости составляет р = 0,037.
В обоих случаях можно допустить, что группы A и B различаются.
  • Если концентрация препарата представлена как категориальная величина, сравнение можно проводить с помощью критерия согласия Пирсона или (при малом размере выборки) точного критерия Фишера.
Для данных, представленных на рисунке, при использовании точного критерия Фишера уровень значимости для различий между группами составляет р = 0,545.
Это не позволяет допустить, что группы A и B различаются.
Данные, представленные в формате категорий, легче воспринимаются при беглом ознакомлении и потому могут казаться более информативными. Тем не менее, при проведении статистического анализа лучше использовать количественный формат, если это представляется возможным. Такой подход повысит вероятность того, что различия между группами не останутся незамеченными.
Made on
Tilda