Крива дзвоника зустрічається скрізь
Якби ви виміряли зріст кожного дорослого у великому місті та побудували графік, ви побачили б знайому форму: гладкий, симетричний пагорб із піком посередині, що поступово зменшується з обох боків. Ця форма називається нормальний розподіл, і це, мабуть, найважливіша концепція у всій статистиці.
Нормальний розподіл зустрічається у надзвичайній кількості місць. Результати тестів, показники артеріального тиску, час на дорогу до роботи, виробничі допуски на заводі, навіть похибки у наукових вимірюваннях - усе це має тенденцію до дзвоноподібної форми. Причина математична: коли на вимірювання впливає багато малих, незалежних факторів, результат прагне до нормального розподілу. Цей принцип тісно пов'язаний із Центральною граничною теоремою.
На графіку вище пік відповідає найпоширенішому значенню (середньому), а крива симетрично спадає з обох боків. Більшість значень групуються біля центру, і дедалі менше спостережень з'являється в міру віддалення до крайніх значень.
Середнє, стандартне відхилення та форма
Нормальний розподіл повністю визначається лише двома числами: середнім (центр кривої) та стандартним відхиленням (наскільки розкидані дані). Середнє вказує, де знаходиться пік на числовій прямій. Стандартне відхилення вказує, наскільки широкий або вузький дзвоник.
Розглянемо показники IQ, які побудовані так, щоб відповідати нормальному розподілу із середнім 100 та стандартним відхиленням 15. Більшість людей набирають від 85 до 115 балів. Деякі набирають менше 70 або більше 130. Вкрай мало хто набирає нижче 55 або вище 145. Якщо змінити стандартне відхилення на 5, дзвоник стане набагато вужчим - майже всі будуть між 90 та 110. Якщо змінити на 25, дзвоник стане плоским, і бали будуть розкидані набагато ширше.
У цьому й полягає краса нормального розподілу: знаючи середнє та стандартне відхилення, ви знаєте всю форму і можете обчислити ймовірність будь-якого значення.
Правило 68-95-99,7
Одна з найпрактичніших особливостей нормального розподілу - це емпіричне правило, також відоме як правило 68-95-99,7. Воно стверджує, що для будь-яких нормально розподілених даних:
- Приблизно 68% значень потрапляють у межі 1 стандартного відхилення від середнього.
- Приблизно 95% значень потрапляють у межі 2 стандартних відхилень.
- Приблизно 99,7% значень потрапляють у межі 3 стандартних відхилень.
Це правило дає швидкий спосіб оцінити, наскільки незвичним є значення. Якщо ваші дані нормально розподілені, а хтось повідомляє про значення, яке відхиляється від середнього більш ніж на 3 стандартних відхилення, це надзвичайно рідко - трапляється менш ніж у 0,3% випадків. Інженери з контролю якості використовують цю ідею щодня: деталь, яка виходить за межі трьох стандартних відхилень від цільового розміру, позначається як дефектна.
Припустимо, що середній час дороги до роботи у місті становить 35 хвилин зі стандартним відхиленням 8 хвилин. За правилом 68-95-99,7 приблизно 68% людей їдуть від 27 до 43 хвилин. Приблизно 95% - від 19 до 51 хвилини. І майже всі (99,7%) - від 11 до 59 хвилин. Якщо хтось каже, що їде на роботу 65 хвилин, це більш ніж 3 стандартних відхилення вище середнього - справді незвичайний час для цього міста.
Z-оцінки: Універсальна лінійка
Різні нормальні розподіли використовують різні одиниці та шкали. Як порівняти результат тесту 82 на іспиті, де середній бал 75 (стандартне відхилення 5), з результатом 720 на SAT, де середній бал 500 (стандартне відхилення 100)? Для цього використовують Z-оцінку.
Z-оцінка показує, на скільки стандартних відхилень значення знаходиться вище або нижче середнього. Формула проста: віднімаєте середнє від значення, потім ділите на стандартне відхилення. Для іспиту: (82 - 75) / 5 = 1,4. Для SAT: (720 - 500) / 100 = 2,2. Результат SAT більш вражаючий відносно свого розподілу, оскільки він далі від середнього в одиницях стандартного відхилення.
Z-оцінка 0 означає, що значення точно середнє. Додатна Z-оцінка означає вище за середнє. Від'ємна - нижче за середнє. Величина показує, наскільки далеко від середнього. Z-оцінка 2,0 означає, що значення перевищує приблизно 97,7% усіх значень у розподілі.
Z-оцінки потужні тим, що перетворюють будь-який нормальний розподіл на стандартний нормальний розподіл - криву дзвоника із середнім 0 та стандартним відхиленням 1. Це дозволяє використовувати єдину довідкову таблицю (або калькулятор) для знаходження ймовірностей будь-якої нормально розподіленої змінної, незалежно від її початкової шкали.
Застосування у реальному світі
Нормальний розподіл та Z-оцінки - це не просто підручникові поняття. Оцінювання за кривою означає підгонку балів студентів під нормальний розподіл. Результати медичних аналізів часто позначаються як відхилення від норми, коли вони виходять за межі 2 стандартних відхилень від середнього для населення. Фінансові аналітики моделюють прибутковість акцій за допомогою нормальних розподілів (хоча хвости на практиці часто товстіші, що є критичним обмеженням). Страхові компанії використовують нормальні моделі для оцінки збитків.
Також важливо знати, коли нормальний розподіл не застосовується. Розподіл доходів сильно зміщений вправо - кілька дуже високих заробітків тягнуть середнє далеко вище медіани. Час очікування та дані виживання також часто зміщені. Дані підрахунку (наприклад, кількість аварій на день) взагалі підпорядковуються іншим розподілам. Завжди перевіряйте, чи є припущення про криву дзвоника обґрунтованим, перш ніж застосовувати ці інструменти.
Нормальний розподіл - це симетрична крива дзвоноподібної форми, яка повністю визначається середнім та стандартним відхиленням. Правило 68-95-99,7 дає швидке уявлення про те, як дані розподіляються навколо середнього. Z-оцінки дозволяють перевести будь-яке значення в універсальну шкалу, виміряну в стандартних відхиленнях, що дає можливість порівнювати результати з абсолютно різних контекстів. Завжди перевіряйте, чи є ваші дані приблизно нормальними, перш ніж покладатися на ці інструменти - не всі дані реального світу підпорядковуються кривій дзвоника.