Удивительная закономерность в средних
Представьте, что вы управляете небольшой пекарней. Каждый день вы продаёте разное количество буханок — то 40, то 120, то 75. Дневные продажи не следуют никакой красивой закономерности — они скачут как попало.
Но вот что удивительно. Если вы записываете свои средние недельные продажи, неделя за неделей, эти средние начинают выстраиваться в знакомую колоколообразную кривую. Несмотря на то что дневные числа были хаотичными и непредсказуемыми, средние становятся упорядоченными.
Это центральная предельная теорема в действии — одна из важнейших идей во всей статистике.
Что говорит центральная предельная теорема
Центральная предельная теорема (ЦПТ) утверждает: если взять множество случайных выборок из любой совокупности и вычислить среднее каждой выборки, эти средние образуют колоколообразную кривую (нормальное распределение) — независимо от формы исходных данных.
Не важно, скошены исходные данные, плоские, бугристые или совершенно однобокие. Если выборки достаточно большие, средние улягутся в гладкую, симметричную форму колокола.
Это работает благодаря своеобразному математическому балансу. В любой выборке необычно высокие и необычно низкие значения стремятся компенсировать друг друга. Чем больше точек данных в каждой выборке, тем сильнее эта компенсация и тем ближе среднее оказывается к истинному центру.
Эксперимент с кубиками
Сделаем это наглядным с помощью того, что можно попробовать дома.
Бросьте один кубик 100 раз и запишите каждый результат. Вы получите примерно одинаковое количество единиц, двоек, троек, четвёрок, пятёрок и шестёрок. Распределение плоское — совсем не колоколообразное.
Теперь бросьте два кубика 100 раз и запишите среднее каждой пары. Вы начнёте замечать больше результатов около 3,5 и меньше — около 1 или 6. Появляется лёгкий горбик.
Бросьте пять кубиков 100 раз и усредните каждую группу из пяти. Теперь результаты группируются ещё плотнее вокруг 3,5, образуя отчётливую колоколообразную кривую. Крайние значения (все единицы или все шестёрки) становятся крайне редкими.
Вы начали с плоского распределения (один кубик), а средние образовали колоколообразную кривую. Это и есть центральная предельная теорема.
Почему это важно?
ЦПТ — причина, по которой так многое в статистике вообще работает. Вот почему она важна для повседневной жизни:
- Опросы и социология. Когда ВЦИОМ опрашивает 1500 человек о предстоящих выборах, это одна выборка из миллионов избирателей. ЦПТ говорит: среднее мнение в выборке будет близко к истинному среднему по стране, и можно вычислить, насколько близко.
- Контроль качества. Завод не проверяет каждую лампочку. Проверяют партии. ЦПТ гарантирует, что средний срок службы партии — надёжная оценка среднего для всех ламп.
- Медицинские исследования. Когда врачи тестируют новое лекарство на 200 пациентах, они полагаются на ЦПТ, зная, что средний результат в их исследовании отражает то, что произошло бы со всеми.
Насколько большой должна быть выборка?
Частый вопрос: сколько точек данных нужно в каждой выборке, чтобы ЦПТ начала работать?
Стандартное правило — 30 и более. При выборках из 30 и более точек средние обычно образуют колоколообразную кривую, независимо от исходного распределения.
Однако если исходные данные уже близки к колоколообразной форме, хватит даже 10–15. Если данные сильно скошены (как распределение доходов, где несколько миллиардеров тянут среднее вверх), может потребоваться 50 и более.
Пример из жизни: рост
Допустим, вы хотите узнать средний рост взрослых мужчин в Москве. Измерить всех невозможно, поэтому берёте случайные выборки.
Вы идёте в 50 разных мест — парк, супермаркет, остановку метро — и в каждом измеряете рост 40 случайных людей. Затем вычисляете средний рост для каждой группы из 40.
Даже если рост отдельных людей варьируется очень сильно (от 155 до 200 см), 50 средних по выборкам будут плотно группироваться вокруг истинного среднего роста по городу, образуя колоколообразную кривую. Большинство ваших средних будет очень близко к реальному ответу. Несколько могут оказаться чуть выше или ниже, но ни одно не будет сильно ошибаться.
Три ключевых свойства
ЦПТ говорит нам три конкретные вещи о распределении средних по выборкам:
- Центр: Среднее всех средних по выборкам равно истинному среднему по совокупности. Колоколообразная кривая центрирована в правильном месте.
- Разброс: Колоколообразная кривая средних уже, чем исходные данные. Большие выборки дают ещё более узкие кривые — а значит, более точные оценки.
- Форма: Независимо от формы исходных данных, распределение средних приближается к колоколообразной кривой по мере роста размера выборки.
Распространённое заблуждение
Многие думают, что ЦПТ говорит: «если собрать достаточно данных, они будут выглядеть как колоколообразная кривая». Это не так.
Исходные данные могут выглядеть как угодно. ЦПТ — о средних повторяющихся выборок, а не о самих данных. Если распределение доходов домохозяйств сильно скошено вправо (несколько очень богатых людей тянут хвост), сбор большего количества данных о доходах не изменит этот перекос. Но если взять множество выборок и вычислить средний доход каждой, эти средние образуют колоколообразную кривую.
Пример: результаты ЕГЭ по школам
Представьте, что баллы отдельных учеников по ЕГЭ распределены неравномерно — есть пики около 40 и около 80, то есть два «горба». Это бимодальное распределение, совсем не колоколообразное.
Но если вы возьмёте средний балл для каждой школы (где в каждой школе, скажем, по 60 выпускников), эти средние по школам будут образовывать колоколообразную кривую с центром в районе общего среднего по стране. ЦПТ делает это возможным, даже когда исходные данные двугорбые.
Почему это называется «теоремой»
В математике теорема — это утверждение, которое строго доказано — не просто наблюдение, а логически обоснованный факт. Центральная предельная теорема — не просто закономерность, которая «вроде работает». Математики доказали, что она должна работать, при очень широких условиях. Именно это даёт статистикам уверенность строить столько инструментов на её основе.
Центральная предельная теорема утверждает: когда вы берёте множество случайных выборок и вычисляете их средние, эти средние образуют колоколообразную кривую — какой бы формы ни были исходные данные. Именно поэтому статистики могут делать надёжные выводы по выборкам. Это фундамент, который делает социологические опросы, научные эксперименты и контроль качества достоверными.