What is the central limit theorem in simple terms?

The CLT states that the average of many samples from any distribution will be approximately normally distributed, regardless of the original shape.

Why is the central limit theorem important?

It lets us use normal distribution methods for hypothesis testing and confidence intervals, even when the population is not normal.

How many samples do you need for the central limit theorem?

A sample size of 30 or more is the common rule of thumb, though highly skewed distributions may require larger samples.

Does the central limit theorem apply to any distribution?

Yes, as long as the population has a finite mean and variance, sample means will approach a normal distribution as sample size increases.

Центральна гранична теорема

Магія великих чисел

Центральна гранична теорема (ЦГТ) -- це, мабуть, найважливіша теорема у всій статистиці. Вона пояснює, чому так багато методів працюють, і дає математичне обґрунтування тому, що ми можемо робити висновки про мільйони людей, дослідивши лише тисячу.

Суть ЦГТ проста: якщо ви берете багато випадкових вибірок з будь-якого розподілу та обчислюєте середнє кожної вибірки, ці середні будуть мати нормальний (дзвоноподібний) розподіл, незалежно від форми оригінального розподілу.

Уявний експеримент

Приклад

Уявіть усі зарплати в Україні. Їх розподіл різко асиметричний: більшість заробляють 10 000-25 000 грн, але є невелика група з доходами у сотні тисяч. Це зовсім не дзвін.

Тепер уявіть, що ви випадково обираєте 50 людей і рахуєте їх середню зарплату. Потім ще 50, і ще, і ще -- 1 000 разів. Кожного разу ви отримуєте трохи інше середнє.

ЦГТ каже: ці 1 000 середніх значень утворять дзвоноподібну криву! Навіть попри те, що оригінальні зарплати розподілені абсолютно не як дзвін.

Три ключових наслідки

1. Центр

Середнє усіх вибіркових середніх дорівнює середньому генеральної сукупності. Якщо справжня середня зарплата -- 19 000 грн, то середнє з тисячі вибірок буде дуже близьким до 19 000.

2. Розсіювання

Стандартне відхилення вибіркових середніх (стандартна похибка) менше, ніж стандартне відхилення оригінальних даних. Формула: стандартна похибка = σ / √n, де n -- розмір вибірки. Більша вибірка = менша похибка = точніша оцінка.

3. Форма

Незалежно від форми оригінального розподілу, розподіл вибіркових середніх наближається до нормального. Чим більша вибірка, тим ближче до ідеального дзвона. Зазвичай вибірки від 30 вже достатньо.

Приклад

Час очікування у черзі Нової Пошти має сильно асиметричний розподіл: більшість чекають 5-10 хвилин, але дехто -- 40-50 хвилин. Якщо ви берете вибірки по 30 клієнтів і рахуєте середній час очікування кожної вибірки, ці середні утворять гарний дзвін навколо справжнього середнього часу. Ось чому опитування працює, навіть коли оригінальні дані "некрасиві".

Чому це практично важливо?

ЦГТ -- фундамент для:

Довірчих інтервалів: "Середня зарплата -- 19 000 ± 500 грн" -- цей інтервал працює саме завдяки ЦГТ.
Перевірки гіпотез: Тести, які порівнюють групи, спираються на нормальний розподіл вибіркових середніх.
Опитувань та рейтингів: Ось чому опитування 2 000 людей може представляти 40 мільйонів -- ЦГТ гарантує, що вибіркове середнє буде близьким до справжнього.

Розмір вибірки має значення

Правило σ/√n має потужний наслідок: щоб удвічі зменшити похибку, потрібно вчетверо більше спостережень. Вибірка з 100 осіб дає певну точність. Щоб подвоїти точність, потрібно 400, не 200.

Приклад

Соціологи проводять опитування перед виборами. Стандартне відхилення відповідей σ = 15. При вибірці 100: похибка = 15/√100 = 1,5. При вибірці 400: похибка = 15/√400 = 0,75. При вибірці 2 500: похибка = 15/√2500 = 0,3. Кожне зменшення похибки вдвічі вимагає вчетверо більшої вибірки -- і бюджету.

Обмеження ЦГТ

Вибірка повинна бути випадковою. Упереджена вибірка не рятується ЦГТ.
При дуже малих вибірках (менше 30) наближення може бути неточним, особливо якщо оригінальний розподіл сильно асиметричний.
ЦГТ працює для середнього. Для інших статистик (медіана, дисперсія) правила інші.

Ключовий висновок

Центральна гранична теорема стверджує: середні значення достатньо великих випадкових вибірок мають приблизно нормальний розподіл, незалежно від розподілу оригінальних даних. Це фундамент усієї статистики висновків. Стандартна похибка = σ/√n означає, що більші вибірки дають точніші оцінки, але з дедалі меншим приростом точності.

Центральна гранична теорема

Магія великих чисел

Уявний експеримент

Три ключових наслідки

1. Центр

2. Розсіювання

3. Форма

Чому це практично важливо?

Розмір вибірки має значення

Обмеження ЦГТ

Схожі уроки