Центру недостатньо
У попередньому уроці ми навчилися знаходити центр даних: середнє, медіану, моду. Але центр -- це лише половина історії. Два набори даних можуть мати однакове середнє, але виглядати зовсім по-різному.
Дві групи студентів склали НМТ з математики. Група А: 148, 150, 152, 150, 150. Група Б: 100, 130, 150, 170, 200. Середнє в обох групах -- 150. Але Група А -- майже всі навколо 150, а в Групі Б -- розкид від 100 до 200. Середнє однакове, але картини абсолютно різні.
Нам потрібні міри розсіювання -- вони показують, наскільки дані розкидані навколо центру.
Розмах: найпростіша міра
Розмах -- це різниця між найбільшим і найменшим значенням. Обчислюється миттєво.
Розмах = Максимум - Мінімум
Температура в Києві за тиждень у липні: 25, 28, 30, 27, 32, 29, 26 градусів. Розмах = 32 - 25 = 7 градусів. У січні: -5, 2, -10, 0, -3, -8, 1. Розмах = 2 - (-10) = 12 градусів. Зимова погода більш мінлива.
Переваги розмаху: простий, інтуїтивний. Недолік: він залежить лише від двох крайніх значень і ігнорує решту. Одне екстремальне значення робить розмах оманливим.
Ціни на квартири у Львові (тис. грн): 800, 850, 900, 870, 880, 5000. Розмах = 5000 - 800 = 4200. Ця одна елітна квартира за 5 мільйонів робить розмах величезним, хоча решта цін дуже компактні (від 800 до 900 тисяч).
Дисперсія: середнє розсіювання
Дисперсія вирішує проблему розмаху: вона враховує кожне значення, а не лише крайні. Ідея проста: виміряти, наскільки далеко кожне значення від середнього, і потім усереднити ці відстані.
Крок за кроком
- Обчисліть середнє.
- Для кожного значення знайдіть різницю від середнього (відхилення).
- Піднесіть кожне відхилення до квадрата (щоб від'ємні не скасовували додатні).
- Знайдіть середнє квадратів відхилень.
Кількість голів "Шахтаря" у 5 матчах: 1, 3, 2, 4, 0.
Крок 1: Середнє = (1+3+2+4+0)/5 = 2,0
Крок 2: Відхилення: -1, +1, 0, +2, -2
Крок 3: Квадрати: 1, 1, 0, 4, 4
Крок 4: Дисперсія = (1+1+0+4+4)/5 = 10/5 = 2,0
Популяційна та вибіркова дисперсія
Є тонка, але важлива різниця. Якщо ваші дані -- це вся генеральна сукупність, ділите на N. Якщо це вибірка (що буває частіше), ділите на N-1 -- це дає точнішу оцінку. Різниця помітна при малих вибірках.
Ті самі дані "Шахтаря", якщо це вибірка з усіх матчів сезону: Дисперсія = 10/(5-1) = 10/4 = 2,5. Трохи більше, ніж 2,0 -- це компенсація за те, що ми не бачимо всіх матчів.
Що означає дисперсія?
Більша дисперсія = більший розкид. Менша = дані компактніші. Дисперсія 0 означає, що всі значення однакові.
Одна проблема: дисперсія вимірюється в квадратах одиниць. Якщо дані в гривнях, дисперсія -- в "гривнях квадратних", що не дуже інтуїтивно. Саме тому існує стандартне відхилення -- квадратний корінь з дисперсії, яке повертає нас до оригінальних одиниць. Про це -- у наступному уроці.
Практичне значення
- Контроль якості: На заводі в Дніпрі виробляють деталі. Середня довжина -- 10 см. Якщо дисперсія мала, деталі стабільної якості. Якщо велика -- процес нестабільний.
- Фінанси: Два інвестиційні фонди мають однакову середню дохідність 12% на рік. Але один з дисперсією 4, інший -- 25. Другий набагато ризикованіший.
- Освіта: Два класи мають середній бал 75. Але в одному всі між 70 і 80, а в іншому -- від 40 до 100. Другий клас потребує більш диференційованого підходу.
Розмах -- найпростіша міра розсіювання (максимум мінус мінімум), але враховує лише два значення. Дисперсія -- середнє квадратів відхилень від середнього -- враховує кожне значення і є набагато інформативнішою. Для вибірки ділимо на N-1, для генеральної сукупності -- на N. Міри розсіювання доповнюють міри центру і дають повнішу картину даних.