Почему одного числа недостаточно
Представьте, что в новостях говорят: «Средний россиянин тратит на еду вне дома 15 000 рублей в месяц». Звучит точно, но эта цифра получена из опроса всего 500 человек. Насколько она близка к истине для всех 146 миллионов жителей страны?
Одно число (так называемая «точечная оценка») даёт лучшее предположение, но ничего не говорит о его надёжности. Именно здесь на помощь приходят доверительные интервалы. Они дают диапазон, в который, скорее всего, попадает истинное значение.
Что такое доверительный интервал?
Доверительный интервал — это диапазон значений, в который, по нашему мнению, попадает истинное значение для всей генеральной совокупности. Вместо «средний расход — 15 000 рублей» вы говорите: «мы на 95% уверены, что истинный средний расход составляет от 13 500 до 16 500 рублей».
Диапазон от 13 500 до 16 500 рублей — это доверительный интервал. «Плюс-минус 1 500 рублей» — это погрешность (маржа ошибки).
Пример с предвыборным опросом
Перед выборами социологическая служба опрашивает 1 200 потенциальных избирателей. Выясняется, что 52% поддерживают кандидата А.
Но социологи не просто сообщают «52%». Они пишут: «52% ± 3%, при уровне доверия 95%».
Это означает: на основании выборки мы на 95% уверены, что истинный уровень поддержки кандидата А среди ВСЕХ избирателей составляет от 49% до 55%.
Обратите внимание, что 49% — это ниже 50%. Хотя опрос показывает, что кандидат А «впереди», доверительный интервал говорит нам, что гонка может пойти в любую сторону. Это чрезвычайно полезная информация, которую одно число «52%» само по себе не раскрывает.
Что на самом деле означает «95% уверенности»
Это одна из самых часто неправильно понимаемых фраз в статистике. Вот что она означает и чего не означает:
НЕ означает: «Вероятность того, что истинное значение попадает в этот конкретный интервал, составляет 95%». Как только интервал рассчитан, истинное значение либо в нём, либо нет — тут нет никакой вероятности.
Означает: «Если бы мы повторили это исследование много раз — каждый раз брали новую выборку и считали новый интервал — примерно 95% таких интервалов содержали бы истинное значение».
Представьте рыболовную сеть. Если вы забрасываете одинаковую сеть 100 раз, вы ожидаете поймать рыбу примерно 95 раз. Любой отдельный заброс может оказаться неудачным, но в целом метод надёжен.
Погрешность (маржа ошибки)
Погрешность — это та самая часть «плюс-минус» в доверительном интервале. Она показывает, насколько ваша оценка может отклоняться от истины. Меньшая погрешность означает более точную оценку.
На погрешность влияют три фактора:
- Размер выборки: Большие выборки дают меньшую погрешность. Опрос 2 000 человек даёт более узкий диапазон, чем опрос 200.
- Разброс данных: Если все в генеральной совокупности похожи, для оценки среднего нужно меньше данных. Если люди сильно различаются, нужно больше.
- Уровень доверия: 99%-ный доверительный интервал шире, чем 95%-ный. Требование большей уверенности означает принятие более широкого диапазона.
Школа хочет узнать, сколько в среднем времени ученики тратят на домашние задания.
Опрос 50 учеников показывает среднее значение 1,8 часа, с 95%-ным доверительным интервалом от 1,5 до 2,1 часа.
Если бы опросили 200 учеников, интервал мог бы сузиться до 1,65–1,95 часа — более точная оценка благодаря большему количеству данных.
Если бы опросили только 15 учеников, интервал мог бы расшириться до 1,2–2,4 часа — куда менее полезная информация из-за слишком широкого диапазона.
Как размер выборки влияет на точность
Это один из самых практичных выводов в статистике. Связь между размером выборки и точностью не линейна — она следует «правилу квадратного корня».
Чтобы уменьшить погрешность вдвое, нужно увеличить выборку в четыре раза. Переход от 100 к 400 человек уменьшает погрешность вдвое. Переход от 400 к 1 600 уменьшает её ещё вдвое.
Это объясняет, почему большинство общенациональных опросов охватывают 1 000–1 500 человек. Дальнейшее увеличение выборки не оправдывает затрат. Опрос 10 000 человек вместо 1 000 делает интервал лишь примерно в три раза уже — и часто не стоит десятикратного увеличения усилий.
Различные уровни доверия
Можно выбирать разные уровни доверия в зависимости от задач:
- 90% доверия: Более узкий интервал, но больше шансов «промахнуться» мимо истинного значения.
- 95% доверия: Самый распространённый выбор. Хороший баланс между точностью и надёжностью.
- 99% доверия: Более широкий интервал, но почти полная уверенность, что истинное значение в него попадает.
Более высокий уровень доверия означает более широкую «сеть». Вы с большей вероятностью поймаете истину, но ваша оценка менее точна. Это компромисс, который вы выбираете исходя из допустимого уровня риска.
Как читать доверительные интервалы в новостях
Когда вы видите доверительные интервалы в публикациях, вот несколько практических советов:
- Если два доверительных интервала не пересекаются, группы, скорее всего, действительно различаются.
- Если доверительный интервал для разницы включает ноль, разница может оказаться нереальной.
- Очень широкий интервал означает ненадёжную оценку — вероятно, из-за маленькой выборки или большого разброса данных.
- Всегда проверяйте уровень доверия. 90%-ный интервал выглядит уже, чем 99%-ный для тех же данных, но он менее надёжен.
Доверительный интервал даёт вам диапазон правдоподобных значений для параметра генеральной совокупности, а не одну-единственную догадку. Погрешность показывает ширину этого диапазона. Большие выборки дают более узкие и точные интервалы. Когда вы видите «95% доверия», это означает, что метод работает в 95% случаев при многократном повторении, а не что вероятность попадания конкретного интервала составляет 95%. Доверительные интервалы необходимы для понимания того, насколько можно полагаться на любую оценку.