Доверительные интервалы

Сложность: Средний Время чтения: 12 минут

Почему одного числа недостаточно

Представьте, что в новостях говорят: «Средний россиянин тратит на еду вне дома 15 000 рублей в месяц». Звучит точно, но эта цифра получена из опроса всего 500 человек. Насколько она близка к истине для всех 146 миллионов жителей страны?

95% ДИ 48 52 56 50

Одно число (так называемая «точечная оценка») даёт лучшее предположение, но ничего не говорит о его надёжности. Именно здесь на помощь приходят доверительные интервалы. Они дают диапазон, в который, скорее всего, попадает истинное значение.

Что такое доверительный интервал?

Доверительный интервал — это диапазон значений, в который, по нашему мнению, попадает истинное значение для всей генеральной совокупности. Вместо «средний расход — 15 000 рублей» вы говорите: «мы на 95% уверены, что истинный средний расход составляет от 13 500 до 16 500 рублей».

Диапазон от 13 500 до 16 500 рублей — это доверительный интервал. «Плюс-минус 1 500 рублей» — это погрешность (маржа ошибки).

Пример с предвыборным опросом

Пример

Перед выборами социологическая служба опрашивает 1 200 потенциальных избирателей. Выясняется, что 52% поддерживают кандидата А.

Но социологи не просто сообщают «52%». Они пишут: «52% ± 3%, при уровне доверия 95%».

Это означает: на основании выборки мы на 95% уверены, что истинный уровень поддержки кандидата А среди ВСЕХ избирателей составляет от 49% до 55%.

Обратите внимание, что 49% — это ниже 50%. Хотя опрос показывает, что кандидат А «впереди», доверительный интервал говорит нам, что гонка может пойти в любую сторону. Это чрезвычайно полезная информация, которую одно число «52%» само по себе не раскрывает.

Что на самом деле означает «95% уверенности»

Это одна из самых часто неправильно понимаемых фраз в статистике. Вот что она означает и чего не означает:

НЕ означает: «Вероятность того, что истинное значение попадает в этот конкретный интервал, составляет 95%». Как только интервал рассчитан, истинное значение либо в нём, либо нет — тут нет никакой вероятности.

Означает: «Если бы мы повторили это исследование много раз — каждый раз брали новую выборку и считали новый интервал — примерно 95% таких интервалов содержали бы истинное значение».

Представьте рыболовную сеть. Если вы забрасываете одинаковую сеть 100 раз, вы ожидаете поймать рыбу примерно 95 раз. Любой отдельный заброс может оказаться неудачным, но в целом метод надёжен.

Погрешность (маржа ошибки)

Погрешность — это та самая часть «плюс-минус» в доверительном интервале. Она показывает, насколько ваша оценка может отклоняться от истины. Меньшая погрешность означает более точную оценку.

99% ДИ 44 52 60 50

На погрешность влияют три фактора:

  • Размер выборки: Большие выборки дают меньшую погрешность. Опрос 2 000 человек даёт более узкий диапазон, чем опрос 200.
  • Разброс данных: Если все в генеральной совокупности похожи, для оценки среднего нужно меньше данных. Если люди сильно различаются, нужно больше.
  • Уровень доверия: 99%-ный доверительный интервал шире, чем 95%-ный. Требование большей уверенности означает принятие более широкого диапазона.
Пример

Школа хочет узнать, сколько в среднем времени ученики тратят на домашние задания.

Опрос 50 учеников показывает среднее значение 1,8 часа, с 95%-ным доверительным интервалом от 1,5 до 2,1 часа.

Если бы опросили 200 учеников, интервал мог бы сузиться до 1,65–1,95 часа — более точная оценка благодаря большему количеству данных.

Если бы опросили только 15 учеников, интервал мог бы расшириться до 1,2–2,4 часа — куда менее полезная информация из-за слишком широкого диапазона.

Как размер выборки влияет на точность

Это один из самых практичных выводов в статистике. Связь между размером выборки и точностью не линейна — она следует «правилу квадратного корня».

Чтобы уменьшить погрешность вдвое, нужно увеличить выборку в четыре раза. Переход от 100 к 400 человек уменьшает погрешность вдвое. Переход от 400 к 1 600 уменьшает её ещё вдвое.

Это объясняет, почему большинство общенациональных опросов охватывают 1 000–1 500 человек. Дальнейшее увеличение выборки не оправдывает затрат. Опрос 10 000 человек вместо 1 000 делает интервал лишь примерно в три раза уже — и часто не стоит десятикратного увеличения усилий.

Различные уровни доверия

Можно выбирать разные уровни доверия в зависимости от задач:

  • 90% доверия: Более узкий интервал, но больше шансов «промахнуться» мимо истинного значения.
  • 95% доверия: Самый распространённый выбор. Хороший баланс между точностью и надёжностью.
  • 99% доверия: Более широкий интервал, но почти полная уверенность, что истинное значение в него попадает.

Более высокий уровень доверия означает более широкую «сеть». Вы с большей вероятностью поймаете истину, но ваша оценка менее точна. Это компромисс, который вы выбираете исходя из допустимого уровня риска.

Как читать доверительные интервалы в новостях

Когда вы видите доверительные интервалы в публикациях, вот несколько практических советов:

  • Если два доверительных интервала не пересекаются, группы, скорее всего, действительно различаются.
  • Если доверительный интервал для разницы включает ноль, разница может оказаться нереальной.
  • Очень широкий интервал означает ненадёжную оценку — вероятно, из-за маленькой выборки или большого разброса данных.
  • Всегда проверяйте уровень доверия. 90%-ный интервал выглядит уже, чем 99%-ный для тех же данных, но он менее надёжен.
Ключевой вывод

Доверительный интервал даёт вам диапазон правдоподобных значений для параметра генеральной совокупности, а не одну-единственную догадку. Погрешность показывает ширину этого диапазона. Большие выборки дают более узкие и точные интервалы. Когда вы видите «95% доверия», это означает, что метод работает в 95% случаев при многократном повторении, а не что вероятность попадания конкретного интервала составляет 95%. Доверительные интервалы необходимы для понимания того, насколько можно полагаться на любую оценку.