Почему уровни измерения важны
В предыдущем уроке мы узнали, что данные бывают качественными (категории) и количественными (числа). Но есть более глубокий слой: не все категории равнозначны, и не все числа работают одинаково. Уровень измерения говорит о том, что можно и чего нельзя делать с вашими данными.
Это важно, потому что неправильная математика с неправильным типом данных даёт бессмыслицу. Например, если присвоить номера цветам формы футбольных клубов (красный = 1, синий = 2, зелёный = 3), то «средний цвет» равный 2 не означает, что средний цвет — синий. Такой расчёт лишён смысла.
Существует четыре уровня измерения, и каждый следующий надстраивается над предыдущим. Давайте пройдём от простейшего к самому информативному.
Уровень 1: Номинальный
Номинальные данные — это самый простой уровень. Это названия, ярлыки или категории без естественного порядка. Слово «номинальный» происходит от латинского «nomen» — «имя». Именно это этот уровень и делает: даёт имена вещам.
Номинальные данные:
- Группа крови: I, II, III, IV. Нет смысла утверждать, что II «больше» I.
- Любимая кухня: Русская, грузинская, итальянская, японская. Никакого рейтинга не подразумевается.
- Цвет глаз: Карий, голубой, зелёный, серый. Просто ярлыки.
- Почтовый индекс: Хотя индексы выглядят как числа, 101000 не «больше» 190000 в каком-либо значимом смысле. Это обозначения мест.
Что можно делать с номинальными данными: Считать, сколько элементов попало в каждую категорию (частота). Найти самую распространённую категорию (мода). На этом всё. Вычислять среднее номинальных данных бессмысленно.
Уровень 2: Порядковый (ординальный)
Порядковые данные имеют категории с естественным порядком или рейтингом. Можно сказать, что одно значение выше или ниже другого. Однако расстояния между значениями не обязательно равны.
Порядковые данные:
- Размеры одежды: S, M, L, XL. Есть чёткий порядок от меньшего к большему, но разница в ткани между S и M не обязательно такая же, как между L и XL.
- Удовлетворённость клиентов: Очень недоволен, Недоволен, Нейтрально, Доволен, Очень доволен. «Доволен» лучше «Нейтрально», но одинаков ли разрыв между ними и между «Недоволен» и «Нейтрально»? Мы не можем быть уверены.
- Уровень образования: Среднее, среднее специальное, бакалавриат, магистратура, аспирантура. Чёткая последовательность, но «расстояние» между ступенями разное.
- Места в соревнованиях: 1-е, 2-е, 3-е место. Первое лучше второго, но отрыв может быть в доли секунды или в несколько минут.
Что можно делать с порядковыми данными: Всё, что с номинальными (считать, находить моду), плюс можно ранжировать и находить среднее значение (медиану). Но вычислять настоящее среднее арифметическое некорректно, потому что промежутки между категориями не гарантированно равны.
Рейтинги на маркетплейсе. Вы ставите товару 4 звезды из 5. Ваш друг — 2 звезды. Ваш опыт ровно «вдвое лучше»? Вряд ли. Звёздный рейтинг упорядочен (5 лучше 4), но психологическое расстояние между 1 и 2 звёздами может ощущаться совсем иначе, чем между 4 и 5. В этом суть порядковых данных: порядок есть, а равные промежутки — нет.
Уровень 3: Интервальный
Интервальные данные имеют порядок и равные промежутки между значениями. Разница между 10 и 20 такая же, как между 40 и 50. Однако у интервальных данных нет истинного нуля, а значит, соотношения не работают.
Интервальные данные:
- Температура в градусах Цельсия: Разница между 10 и 20 градусами такая же, как между 30 и 40. Но 0 градусов не означает «отсутствие температуры». И 40 градусов — это не «вдвое жарче», чем 20.
- Годы в календаре: Промежуток между 1990 и 2000 годами такой же, как между 2010 и 2020 (10 лет). Но нулевой год — условная точка отсчёта, а не реальное отсутствие времени.
- Баллы IQ: Разница между 100 и 110 считается такой же, как между 120 и 130. Но IQ равный 0 не означает «отсутствие интеллекта», а 140 — не «вдвое умнее», чем 70.
Что можно делать с интервальными данными: Всё, что на предыдущих уровнях, плюс можно вычислять полноценное среднее и измерять точные разницы. Но нельзя говорить «вдвое больше», потому что нет истинного нуля.
Идея «нет истинного нуля»
Это та часть, которая путает большинство людей. «Истинный ноль» означает полное отсутствие измеряемой величины. Ноль градусов Цельсия не означает отсутствия тепла — это всего лишь температура замерзания воды, выбранная условно. Ноль по Фаренгейту — другая условная точка. Поскольку ноль искусственный, утверждение «40 градусов вдвое теплее 20 градусов» не имеет смысла.
Уровень 4: Относительный (пропорциональный)
Относительные данные имеют всё, что и интервальные — порядок, равные промежутки — плюс истинный ноль. Когда ноль означает «ничего нет», перед вами относительные данные. Это самый информативный уровень измерения.
Относительные данные:
- Вес: 0 кг — это отсутствие веса. 100 кг — действительно вдвое тяжелее 50 кг.
- Рост: 0 см — отсутствие роста. Человек ростом 180 см в полтора раза выше ребёнка ростом 120 см.
- Деньги на счету: 0 рублей — денег нет. 200 000 рублей — ровно вдвое больше, чем 100 000.
- Расстояние: 0 км — вы никуда не ехали. 300 км — втрое больше, чем 100 км.
- Температура в Кельвинах: 0 Кельвинов — абсолютный ноль, полное отсутствие тепловой энергии. Поэтому Кельвин — относительная шкала, хотя Цельсий и Фаренгейт — интервальные.
Что можно делать с относительными данными: Всё. Считать, ранжировать, находить среднее, сравнивать разницы и делать осмысленные утверждения о соотношениях («А втрое тяжелее Б»). Это самый гибкий уровень.
Рецепт борща. В рецепте 500 г свёклы и 250 г капусты. Можно сказать, что свёклы нужно вдвое больше, потому что граммы имеют истинный ноль (0 г = нет продукта). Это относительное сравнение. А теперь представьте, что борщ варится при 100 градусах Цельсия. Нельзя сказать, что 100 градусов «вдвое горячее» 50 градусов, потому что у шкалы Цельсия нет истинного нуля. Одна кухня, одно блюдо — а уровни измерения разные.
Как запомнить четыре уровня
Представьте уровни как строительные блоки, где каждый следующий добавляет новую возможность:
- Номинальный: Только названия. Можно группировать и считать.
- Порядковый: Названия + порядок. Можно ранжировать.
- Интервальный: Названия + порядок + равные промежутки. Можно измерять точные разницы.
- Относительный: Названия + порядок + равные промежутки + истинный ноль. Можно сравнивать пропорции.
Удобная мнемоника: «НПИО» — Номинальный, Порядковый, Интервальный, Относительный. Или по-английски «NOIR» (по-французски «чёрный»): Nominal, Ordinal, Interval, Ratio. Каждая буква — уровень от наименее к наиболее информативному.
Почему это важно на практике
Выбор неправильного анализа для данного уровня измерения ведёт к ошибочным результатам. Вот типичные ошибки:
- Среднее значение почтовых индексов. Среднее от 101000 и 190000 равно 145500. Это число не имеет смысла, потому что индексы — номинальные данные.
- Среднее звёздных рейтингов. «Средняя оценка ресторана 3,7 звезды» — распространённая практика, но формально некорректная, поскольку звёздные рейтинги порядковые и промежутки между звёздами не обязательно равны.
- «Вдвое жарче.» Утверждение, что 40 градусов Цельсия «вдвое теплее» 20 градусов — некорректно, потому что Цельсий — интервальная шкала.
Четыре уровня измерения — номинальный, порядковый, интервальный и относительный — определяют, какие сравнения и расчёты допустимы для ваших данных. Номинальные данные — просто ярлыки. Порядковые добавляют ранжирование. Интервальные — равные промежутки. Относительные — истинный ноль, открывающий полный спектр анализа. Прежде чем анализировать данные, определите их уровень измерения. Это убережёт вас от ложных выводов.