Смещение в статистике

Сложность: Начальный Время чтения: 10 минут

Что такое смещение?

В обыденной речи «предвзятость» означает склонность в одну сторону. В статистике смещение (или систематическая ошибка) — это нечто более конкретное: это систематическое искажение, которое уводит результаты от истины. Оно не случайно. Оно последовательно толкает выводы в одном направлении, делая их ненадёжными.

Генеральная совокупность Смещённая выборка

Смещение может закрасться на любом этапе исследования: при выборе участников, при сборе данных, при интерпретации результатов. Коварство в том, что исследования со смещениями могут выглядеть вполне профессионально. Знание основных типов смещений помогает замечать проблемы, которые иначе могли бы вас одурачить.

Ошибка отбора: кто попал в выборку?

Ошибка отбора (selection bias) возникает, когда участники исследования не представляют ту большую группу, о которой вы хотите сделать выводы. Выборка с самого начала смещена.

Пример

Ресторан отправляет опрос удовлетворённости всем клиентам, зарегистрированным в программе лояльности. Результаты блестящие: 92% говорят, что им нравится еда. Но задумайтесь, кто вступил в программу лояльности. Это самые преданные поклонники ресторана. Клиенты, которым не понравилось и которые больше не возвращались, не состоят в программе и не видели опрос. Ресторан слышит только тех, кому он и так нравится.

Ошибка отбора постоянно проявляется в онлайн-отзывах. Люди, которые чувствуют что-то сильно (либо очень довольны, либо очень недовольны), гораздо чаще оставляют отзывы, чем те, у кого был средний опыт. Поэтому оценки товаров часто скапливаются на пяти и одной звезде, с меньшим количеством оценок посередине.

Предвзятость подтверждения: видим то, что хотим

Предвзятость подтверждения (confirmation bias) — наша естественная склонность обращать внимание на информацию, которая подкрепляет наши убеждения, и игнорировать ту, что им противоречит. Это влияет на исследователей, журналистов и всех нас в повседневной жизни.

Исследователь, верящий в эффективность новой методики обучения, может неосознанно больше внимания уделять ученикам, у которых улучшились результаты, и не замечать тех, у кого нет. Руководитель, считающий удалённую работу непродуктивной, может замечать каждый раз, когда удалённый сотрудник срывает срок, но не замечать случаи, когда он превосходит офисных коллег.

Предвзятость подтверждения — одна из причин, почему ослепление в исследованиях (о нём говорилось в уроке о дизайне исследований) так важно. Когда исследователи не знают, какая группа получила лечение, они не могут неосознанно искать нужный результат.

Ошибка выжившего: невидимые неудачи

Ошибка выжившего (survivorship bias) возникает, когда мы рассматриваем только тех, кто прошёл через какой-то отбор, и забываем обо всех, кто этого не сделал.

Пример

Деловые журналы обожают рассказывать об отчисленных из вуза миллиардерах: Билл Гейтс, Марк Цукерберг, Стив Джобс. Прочитав эти истории, можно подумать, что бросить учёбу — путь к успеху. Но на каждого отчисленного, ставшего миллиардером, приходятся миллионы тех, кто бросил учёбу и столкнулся с финансовыми трудностями. Их истории вы никогда не прочитаете, потому что они не стали знаменитыми. Журналы показывают только выживших.

Ошибка выжившего встречается повсюду. Мы изучаем успешные компании, чтобы перенять бизнес-стратегии, но игнорируем тысячи компаний, которые использовали те же стратегии и потерпели крах. Мы восхищаемся старинными зданиями и говорим «раньше строили на века», забывая, что плохо построенные старые здания давно развалились. Уцелели только хорошие.

Ошибка измерения: неточный инструмент — неточные данные

Ошибка измерения (measurement bias) возникает, когда сам метод сбора данных систематически искажает результаты. Инструмент — будь то анкета, медицинский тест или цифровой трекер — вносит ошибку в одном направлении.

45 18-25 30 26-35 15 36-50 8 51-65 2 65+

Формулировка вопросов в анкете — классический источник ошибки измерения. Спросите людей «Поддерживаете ли вы защиту исчезающих видов животных?» — и получите высокое согласие. Спросите «Поддерживаете ли вы расходование бюджетных средств на программы охраны дикой природы?» — и согласие снизится, хотя речь об одной и той же политике. Формулировка вопроса подталкивает людей к определённому ответу.

Ещё один пример: самоотчёты. Когда исследователи спрашивают людей, сколько они тренируются, едят или пьют, люди обычно завышают полезные привычки и занижают вредные. Не потому что врут — просто все мы склонны вспоминать себя в чуть более выгодном свете.

Смещение ответов и смещение от неответов

Смещение ответов (response bias) возникает, когда люди отвечают неискренне. На рабочем опросе об удовлетворённости начальством сотрудники могут ставить высокие оценки из страха, что ответы не анонимны. По чувствительным темам — доходы, вредные привычки, спорные мнения — люди часто «приукрашивают» ответы в социально приемлемую сторону.

Смещение от неответов (non-response bias) — его близкий родственник. Когда значительная часть выбранных для исследования людей не отвечает, те, кто всё же ответил, могут систематически отличаться от тех, кто промолчал. Опрос о здоровье с откликом всего 20% может переоценивать долю людей, следящих за своим здоровьем, — именно они больше заинтересованы в теме.

Как смещения влияют на реальные решения

Это не просто академические проблемы. Смещения в статистике влияют на решения, затрагивающие жизнь каждого.

  • Медицина: Если в клинических испытаниях участвуют преимущественно молодые здоровые мужчины, результаты могут не подходить для пожилых женщин. Исторически это приводило к тому, что лекарства действовали иначе (или давали неожиданные побочные эффекты) в группах, которые не были достаточно изучены.
  • Образование и найм: Если вы оцениваете обучающую программу только по людям, которые её завершили, вы упускаете всех, кто бросил, потому что программа им не подходила.
  • Технологии: Системы распознавания лиц, обученные преимущественно на светлокожих лицах, хуже работают с людьми с тёмной кожей. Ошибка отбора была заложена в обучающие данные.

Как защитить себя

Не нужно быть профессиональным исследователем, чтобы замечать смещения. Вот практические вопросы, которые стоит задавать:

  • Кого изучали? Представляет ли выборка ту группу, которая вас интересует, или это лишь узкий срез?
  • Кого не учли? Подумайте, кто мог не попасть в исследование или отказался участвовать.
  • Как собирались данные? Были ли вопросы сформулированы объективно? Могли ли люди отвечать честно?
  • Кто рассказывает историю? Вы слышите только об успехах или также о провалах?
  • Что исследователи ожидали найти? Были ли приняты меры против их собственных предпочтений?
Ключевой вывод

Смещение — это не злой умысел. Даже добросовестные исследователи, журналисты и организации могут получить искажённые результаты, сами того не осознавая. Четыре самых важных типа: ошибка отбора (изучены не те люди), предвзятость подтверждения (исследователь видит то, что хочет), ошибка выжившего (неудачи невидимы) и ошибка измерения (инструмент сбора данных был несовершенен). Само знание о существовании этих смещений делает вас значительно более внимательным потребителем информации.