Магія великих чисел
Центральна гранична теорема (ЦГТ) -- це, мабуть, найважливіша теорема у всій статистиці. Вона пояснює, чому так багато методів працюють, і дає математичне обґрунтування тому, що ми можемо робити висновки про мільйони людей, дослідивши лише тисячу.
Суть ЦГТ проста: якщо ви берете багато випадкових вибірок з будь-якого розподілу та обчислюєте середнє кожної вибірки, ці середні будуть мати нормальний (дзвоноподібний) розподіл, незалежно від форми оригінального розподілу.
Уявний експеримент
Уявіть усі зарплати в Україні. Їх розподіл різко асиметричний: більшість заробляють 10 000-25 000 грн, але є невелика група з доходами у сотні тисяч. Це зовсім не дзвін.
Тепер уявіть, що ви випадково обираєте 50 людей і рахуєте їх середню зарплату. Потім ще 50, і ще, і ще -- 1 000 разів. Кожного разу ви отримуєте трохи інше середнє.
ЦГТ каже: ці 1 000 середніх значень утворять дзвоноподібну криву! Навіть попри те, що оригінальні зарплати розподілені абсолютно не як дзвін.
Три ключових наслідки
1. Центр
Середнє усіх вибіркових середніх дорівнює середньому генеральної сукупності. Якщо справжня середня зарплата -- 19 000 грн, то середнє з тисячі вибірок буде дуже близьким до 19 000.
2. Розсіювання
Стандартне відхилення вибіркових середніх (стандартна похибка) менше, ніж стандартне відхилення оригінальних даних. Формула: стандартна похибка = σ / √n, де n -- розмір вибірки. Більша вибірка = менша похибка = точніша оцінка.
3. Форма
Незалежно від форми оригінального розподілу, розподіл вибіркових середніх наближається до нормального. Чим більша вибірка, тим ближче до ідеального дзвона. Зазвичай вибірки від 30 вже достатньо.
Час очікування у черзі Нової Пошти має сильно асиметричний розподіл: більшість чекають 5-10 хвилин, але дехто -- 40-50 хвилин. Якщо ви берете вибірки по 30 клієнтів і рахуєте середній час очікування кожної вибірки, ці середні утворять гарний дзвін навколо справжнього середнього часу. Ось чому опитування працює, навіть коли оригінальні дані "некрасиві".
Чому це практично важливо?
ЦГТ -- фундамент для:
- Довірчих інтервалів: "Середня зарплата -- 19 000 ± 500 грн" -- цей інтервал працює саме завдяки ЦГТ.
- Перевірки гіпотез: Тести, які порівнюють групи, спираються на нормальний розподіл вибіркових середніх.
- Опитувань та рейтингів: Ось чому опитування 2 000 людей може представляти 40 мільйонів -- ЦГТ гарантує, що вибіркове середнє буде близьким до справжнього.
Розмір вибірки має значення
Правило σ/√n має потужний наслідок: щоб удвічі зменшити похибку, потрібно вчетверо більше спостережень. Вибірка з 100 осіб дає певну точність. Щоб подвоїти точність, потрібно 400, не 200.
Соціологи проводять опитування перед виборами. Стандартне відхилення відповідей σ = 15. При вибірці 100: похибка = 15/√100 = 1,5. При вибірці 400: похибка = 15/√400 = 0,75. При вибірці 2 500: похибка = 15/√2500 = 0,3. Кожне зменшення похибки вдвічі вимагає вчетверо більшої вибірки -- і бюджету.
Обмеження ЦГТ
- Вибірка повинна бути випадковою. Упереджена вибірка не рятується ЦГТ.
- При дуже малих вибірках (менше 30) наближення може бути неточним, особливо якщо оригінальний розподіл сильно асиметричний.
- ЦГТ працює для середнього. Для інших статистик (медіана, дисперсія) правила інші.
Центральна гранична теорема стверджує: середні значення достатньо великих випадкових вибірок мають приблизно нормальний розподіл, незалежно від розподілу оригінальних даних. Це фундамент усієї статистики висновків. Стандартна похибка = σ/√n означає, що більші вибірки дають точніші оцінки, але з дедалі меншим приростом точності.