Від дисперсії до стандартного відхилення
У попередньому уроці ми вивчили дисперсію -- середнє квадратів відхилень. Проблема в тому, що дисперсія вимірюється у квадратних одиницях. Якщо зарплати в гривнях, дисперсія -- в "гривнях квадратних". Це незручно.
Рішення просте: візьміть квадратний корінь з дисперсії. Результат -- стандартне відхилення. Воно вимірюється в тих самих одиницях, що й оригінальні дані, і тому набагато інтуїтивніше.
Що воно означає?
Стандартне відхилення показує, наскільки далеко типове значення знаходиться від середнього. Мале стандартне відхилення -- дані компактно згруповані. Велике -- розкидані широко.
Дві кав'ярні у Львові відстежують час приготування лате. Кав'ярня А: середнє 3 хвилини, стандартне відхилення 0,3 хв. Кав'ярня Б: середнє 3 хвилини, стандартне відхилення 1,5 хв. У обох середній час однаковий, але у Кав'ярні А ви майже напевно отримаєте каву за 2,5-3,5 хв, а у Кав'ярні Б -- можете чекати і 1 хвилину, і 5. Кав'ярня А стабільніша.
Обчислення крок за кроком
- Обчисліть середнє.
- Знайдіть відхилення кожного значення від середнього.
- Піднесіть відхилення до квадрата.
- Знайдіть середнє квадратів (дисперсію).
- Візьміть квадратний корінь -- це стандартне відхилення.
Ціни на бензин А-95 на 5 АЗС Києва (грн/л): 52, 54, 53, 55, 51.
Середнє = (52+54+53+55+51)/5 = 53 грн
Відхилення: -1, +1, 0, +2, -2
Квадрати: 1, 1, 0, 4, 4
Дисперсія = 10/5 = 2
Стандартне відхилення = √2 ≈ 1,41 грн
Типова ціна відхиляється від середньої приблизно на 1,41 гривні.
Правило 68-95-99,7
Для даних із нормальним (дзвоноподібним) розподілом стандартне відхилення має чарівну властивість:
- 68% даних -- в межах 1 стандартного відхилення від середнього.
- 95% -- в межах 2 відхилень.
- 99,7% -- в межах 3 відхилень.
Зріст дорослих жінок в Україні: середнє 165 см, стандартне відхилення 6 см.
68% жінок мають зріст від 159 до 171 см (165 ± 6).
95% -- від 153 до 177 см (165 ± 12).
99,7% -- від 147 до 183 см (165 ± 18).
Жінка зі зростом 185 см -- поза трьома відхиленнями, тобто серед менш ніж 0,3% населення.
Z-оцінка: скільки відхилень від середнього?
Z-оцінка показує, скільки стандартних відхилень значення знаходиться від середнього: Z = (значення - середнє) / стандартне відхилення.
Бали НМТ з української мови: середнє 150, стандартне відхилення 20. Марія набрала 190. Z = (190-150)/20 = +2,0. Вона на 2 стандартних відхилення вище середнього -- серед кращих 2,5% абітурієнтів. Андрій набрав 130. Z = (130-150)/20 = -1,0. Він на 1 відхилення нижче, але все ще в межах нормального діапазону.
Стандартне відхилення на практиці
- Інвестиції: Monobank показує дохідність фонду 10% з відхиленням 3%. Це означає, що в більшості років дохідність буде від 7% до 13%. Фонд з відхиленням 15% набагато ризикованіший.
- Виробництво: Завод виготовляє болти довжиною 50 мм із відхиленням 0,1 мм. Це висока точність. Якщо відхилення зросте до 0,5 мм -- є проблема з обладнанням.
- Спорт: Футболіст УПЛ забиває в середньому 0,5 голу за гру з відхиленням 0,7. Великий розкид означає нестабільність: в одному матчі може забити 3, в іншому -- жодного.
Поширена помилка
Стандартне відхилення не може бути від'ємним. Мінімальне значення -- 0, що означає: всі дані абсолютно однакові. Якщо хтось каже "стандартне відхилення -2" -- це помилка.
Стандартне відхилення -- це квадратний корінь із дисперсії, і вимірюється в тих самих одиницях, що й дані. Воно показує типову відстань значень від середнього. Правило 68-95-99,7 дає швидку інтерпретацію для нормально розподілених даних. Z-оцінка переводить будь-яке значення в кількість стандартних відхилень від середнього, що дозволяє порівнювати дані з різних шкал.