Нормальное распределение и Z-оценки

Сложность: Средний Время чтения: 12 минут

Кривая колокола повсюду

Если бы вы измерили рост каждого взрослого в большом городе и нанесли данные на график, вы увидели бы знакомую форму: плавный, симметричный холм с пиком в середине, который сужается по обе стороны. Эта форма называется нормальным распределением, и это, пожалуй, самый важный концепт во всей статистике.

Нормальное распределение встречается в удивительном количестве мест. Результаты тестов, показания артериального давления, время на дорогу до работы, производственные допуски на заводе, даже погрешности в научных измерениях -- всё это стремится следовать колоколообразному паттерну. Причина математическая: когда измерение подвержено влиянию множества мелких, независимых факторов, результат стремится к нормальному распределению. Этот принцип тесно связан с центральной предельной теоремой.

55 70 85 100 115 130 145

На графике выше пик представляет наиболее частое значение (среднее), а кривая симметрично спадает в обе стороны. Большинство значений группируется вблизи центра, и всё меньше наблюдений появляется по мере удаления к крайним значениям.

Среднее, стандартное отклонение и форма

Нормальное распределение полностью определяется всего двумя числами: средним (центр кривой) и стандартным отклонением (насколько разбросаны данные). Среднее говорит, где пик расположен на числовой оси. Стандартное отклонение говорит, насколько широк или узок колокол.

Рассмотрим показатели IQ, которые спроектированы так, чтобы следовать нормальному распределению со средним 100 и стандартным отклонением 15. Большинство людей набирает от 85 до 115 баллов. Немногие набирают ниже 70 или выше 130. Крайне редко кто-то набирает ниже 55 или выше 145. Если изменить стандартное отклонение на 5, колокол станет намного уже -- почти все группируются между 90 и 110. Если изменить его на 25, колокол сплющивается, и баллы распределяются гораздо шире.

В этом красота нормального распределения: как только вы знаете среднее и стандартное отклонение, вы знаете всю форму и можете вычислить вероятность любого значения.

Правило 68-95-99.7

Одна из самых практичных особенностей нормального распределения -- это эмпирическое правило, также называемое правилом 68-95-99.7. Оно гласит, что для любых нормально распределённых данных:

  • Около 68% значений попадают в пределы 1 стандартного отклонения от среднего.
  • Около 95% значений попадают в пределы 2 стандартных отклонений.
  • Около 99.7% значений попадают в пределы 3 стандартных отклонений.
-3 -2 -1 0 1 2 3

Это правило даёт быстрый способ оценить, насколько необычно значение. Если ваши данные распределены нормально и кто-то сообщает о значении, отстоящем более чем на 3 стандартных отклонения от среднего, это крайне редко -- такое случается менее чем в 0.3% случаев. Инженеры по контролю качества используют эту идею каждый день: деталь, которая выходит за три стандартных отклонения от целевого размера, помечается как бракованная.

Пример

Допустим, среднее время ежедневной поездки на работу в городе составляет 35 минут со стандартным отклонением 8 минут. По правилу 68-95-99.7, около 68% поездок занимают от 27 до 43 минут. Около 95% -- от 19 до 51 минуты. И почти все (99.7%) -- от 11 до 59 минут. Если кто-то говорит, что его поездка занимает 65 минут, это более 3 стандартных отклонений выше среднего -- действительно необычная поездка для этого города.

Z-оценки: универсальная линейка

Разные нормальные распределения используют разные единицы и шкалы. Как сравнить оценку 82 на экзамене со средним 75 (стандартное отклонение 5) с оценкой 720 на SAT со средним 500 (стандартное отклонение 100)? С помощью Z-оценки.

Z-оценка показывает, на сколько стандартных отклонений значение находится выше или ниже среднего. Формула проста: вычтите среднее из значения, затем разделите на стандартное отклонение. Для экзамена: (82 - 75) / 5 = 1.4. Для SAT: (720 - 500) / 100 = 2.2. Результат SAT более впечатляющий относительно своего распределения, потому что он дальше от среднего в единицах стандартного отклонения.

Z-оценка 0 означает, что значение точно равно среднему. Положительная Z-оценка означает, что оно выше среднего. Отрицательная -- ниже среднего. Величина показывает, насколько далеко от среднего. Z-оценка 2.0 означает, что значение выше примерно 97.7% всех значений в распределении.

-3 -2 -1 0 1 2 3

Z-оценки мощны, потому что преобразуют любое нормальное распределение в стандартное нормальное распределение -- кривую колокола со средним 0 и стандартным отклонением 1. Это позволяет использовать единую справочную таблицу (или калькулятор) для нахождения вероятностей любой нормально распределённой переменной, независимо от её исходной шкалы.

Применение в реальном мире

Нормальное распределение и Z-оценки -- это не просто учебные концепции. Оценивание по кривой означает подгонку оценок студентов к нормальному распределению. Результаты медицинских лабораторных анализов часто отмечаются как аномальные, когда они выходят за 2 стандартных отклонения от среднего по популяции. Финансовые аналитики моделируют доходность акций с помощью нормальных распределений (хотя хвосты в реальности часто толще, что является критическим ограничением). Страховые компании используют нормальные модели для оценки страховых выплат.

Также важно знать, когда нормальное распределение не применимо. Распределения доходов сильно скошены вправо -- несколько очень высоких доходов оттягивают среднее далеко выше медианы. Время ожидания и данные о выживаемости тоже часто скошены. Данные счёта (например, количество аварий в день) следуют совершенно другим распределениям. Всегда проверяйте, обоснованно ли предположение о кривой колокола, прежде чем применять эти инструменты.

Ключевой вывод

Нормальное распределение -- это симметричная кривая колокола, полностью определяемая средним и стандартным отклонением. Правило 68-95-99.7 даёт быстрое представление о том, как данные распределяются вокруг среднего. Z-оценки позволяют перевести любое значение в универсальную шкалу, измеряемую в стандартных отклонениях, что позволяет сравнивать показатели в совершенно разных контекстах. Всегда проверяйте, что ваши данные приблизительно нормальны, прежде чем полагаться на эти инструменты -- не все реальные данные следуют кривой колокола.