Розмах та дисперсія

Складність: Початковий Час читання: 10 хвилин

Центру недостатньо

У попередньому уроці ми навчилися знаходити центр даних: середнє, медіану, моду. Але центр -- це лише половина історії. Два набори даних можуть мати однакове середнє, але виглядати зовсім по-різному.

10 12 14 16 18 20 15.0
Приклад

Дві групи студентів склали НМТ з математики. Група А: 148, 150, 152, 150, 150. Група Б: 100, 130, 150, 170, 200. Середнє в обох групах -- 150. Але Група А -- майже всі навколо 150, а в Групі Б -- розкид від 100 до 200. Середнє однакове, але картини абсолютно різні.

Нам потрібні міри розсіювання -- вони показують, наскільки дані розкидані навколо центру.

Розмах: найпростіша міра

Розмах -- це різниця між найбільшим і найменшим значенням. Обчислюється миттєво.

Розмах = Максимум - Мінімум

Приклад

Температура в Києві за тиждень у липні: 25, 28, 30, 27, 32, 29, 26 градусів. Розмах = 32 - 25 = 7 градусів. У січні: -5, 2, -10, 0, -3, -8, 1. Розмах = 2 - (-10) = 12 градусів. Зимова погода більш мінлива.

Переваги розмаху: простий, інтуїтивний. Недолік: він залежить лише від двох крайніх значень і ігнорує решту. Одне екстремальне значення робить розмах оманливим.

Приклад

Ціни на квартири у Львові (тис. грн): 800, 850, 900, 870, 880, 5000. Розмах = 5000 - 800 = 4200. Ця одна елітна квартира за 5 мільйонів робить розмах величезним, хоча решта цін дуже компактні (від 800 до 900 тисяч).

Дисперсія: середнє розсіювання

Дисперсія вирішує проблему розмаху: вона враховує кожне значення, а не лише крайні. Ідея проста: виміряти, наскільки далеко кожне значення від середнього, і потім усереднити ці відстані.

Крок за кроком

  1. Обчисліть середнє.
  2. Для кожного значення знайдіть різницю від середнього (відхилення).
  3. Піднесіть кожне відхилення до квадрата (щоб від'ємні не скасовували додатні).
  4. Знайдіть середнє квадратів відхилень.
Приклад

Кількість голів "Шахтаря" у 5 матчах: 1, 3, 2, 4, 0.

Крок 1: Середнє = (1+3+2+4+0)/5 = 2,0

Крок 2: Відхилення: -1, +1, 0, +2, -2

Крок 3: Квадрати: 1, 1, 0, 4, 4

Крок 4: Дисперсія = (1+1+0+4+4)/5 = 10/5 = 2,0

Популяційна та вибіркова дисперсія

Є тонка, але важлива різниця. Якщо ваші дані -- це вся генеральна сукупність, ділите на N. Якщо це вибірка (що буває частіше), ділите на N-1 -- це дає точнішу оцінку. Різниця помітна при малих вибірках.

Приклад

Ті самі дані "Шахтаря", якщо це вибірка з усіх матчів сезону: Дисперсія = 10/(5-1) = 10/4 = 2,5. Трохи більше, ніж 2,0 -- це компенсація за те, що ми не бачимо всіх матчів.

Що означає дисперсія?

Більша дисперсія = більший розкид. Менша = дані компактніші. Дисперсія 0 означає, що всі значення однакові.

Одна проблема: дисперсія вимірюється в квадратах одиниць. Якщо дані в гривнях, дисперсія -- в "гривнях квадратних", що не дуже інтуїтивно. Саме тому існує стандартне відхилення -- квадратний корінь з дисперсії, яке повертає нас до оригінальних одиниць. Про це -- у наступному уроці.

Практичне значення

  • Контроль якості: На заводі в Дніпрі виробляють деталі. Середня довжина -- 10 см. Якщо дисперсія мала, деталі стабільної якості. Якщо велика -- процес нестабільний.
  • Фінанси: Два інвестиційні фонди мають однакову середню дохідність 12% на рік. Але один з дисперсією 4, інший -- 25. Другий набагато ризикованіший.
  • Освіта: Два класи мають середній бал 75. Але в одному всі між 70 і 80, а в іншому -- від 40 до 100. Другий клас потребує більш диференційованого підходу.
Ключовий висновок

Розмах -- найпростіша міра розсіювання (максимум мінус мінімум), але враховує лише два значення. Дисперсія -- середнє квадратів відхилень від середнього -- враховує кожне значення і є набагато інформативнішою. Для вибірки ділимо на N-1, для генеральної сукупності -- на N. Міри розсіювання доповнюють міри центру і дають повнішу картину даних.