Распространённые ошибки

Сложность: Начальный Время чтения: 10 минут

Эти ошибки совершают все

Статистические ошибки свойственны не только студентам или новичкам. Журналисты, политики, руководители компаний и даже некоторые учёные допускают их регулярно. Чаще всего это происходит непреднамеренно — из-за мыслительных привычек, которые кажутся логичными, но уводят в сторону.

-3 -2 -1 0 1 2 3

Умение распознавать эти ошибки защищает вас двояко: вы заметите их, когда их делают другие, и не допустите их сами, оценивая информацию.

Ошибка 1: Путаница корреляции с причинностью

Это самая распространённая статистическая ошибка, и она встречается повсюду. Когда две вещи происходят одновременно, возникает соблазн предположить, что одна вызывает другую. Но корреляция (две вещи изменяются вместе) — это не то же самое, что причинность (одна вещь порождает другую).

Пример

Между продажами мороженого и числом нападений акул существует сильная статистическая корреляция. Когда продажи мороженого растут, растёт и число атак акул. Значит ли это, что мороженое привлекает акул? Конечно, нет. Обе величины растут летом, потому что в жару больше людей идут на пляж. Тёплая погода — скрытый фактор, влияющий на обе переменные.

Последствия этой ошибки в реальной жизни серьёзны. Годами исследования показывали, что люди, принимающие витаминные добавки, в целом здоровее. Многие сделали вывод, что добавки улучшают здоровье. Но более тщательные эксперименты позже обнаружили, что сами добавки давали мало пользы. Просто люди, которые их принимали, были в целом внимательнее к здоровью: больше занимались спортом, лучше питались и чаще ходили к врачу.

Ошибка 2: Избирательный отбор данных

Избирательный отбор (cherry-picking) — это выбор только тех данных, которые подтверждают вашу точку зрения, и игнорирование тех, что ей противоречат. Это как если бы школьник показывал родителям только те контрольные, по которым получил пятёрки.

Это постоянно случается в бизнесе и политике. Компания может отчитаться: «выручка росла каждый квартал этого года», умолчав, что прибыль падала. Политик может сказать: «преступность снизилась на 15% с моего прихода к власти», выбрав за точку отсчёта необычный пик.

Противоядие от избирательного отбора — просить полную картину. Как выглядит весь набор данных? Какой период отражает всю историю? Нет ли данных, которые удобно опущены?

Ошибка 3: Маленькие выборки

Маленькие группы дают ненадёжные результаты. Если подбросить монету десять раз и получить семь орлов, может показаться, что монета «нечестная». Но если подбросить 10 000 раз, результат почти наверняка будет близок к 50%. Маленькие выборки «шумят» — колеблются и могут давать экстремальные результаты просто по случайности.

Пример

Заголовок новости: «Исследование показало, что грецкие орехи улучшают память». Вы проверяете исследование и обнаруживаете, что в нём участвовали 18 человек на протяжении двух недель. При такой маленькой группе пара человек с природной хорошей памятью, случайно оказавшихся в «ореховой» группе, могут объяснить весь результат. Сравните с исследованием 2 000 человек на протяжении двух лет — такие выводы гораздо весомее.

Будьте особенно осторожны со статистикой по маленьким группам. «Лучшая школа в регионе» может оказаться крошечной школой, где несколько одарённых учеников подтянули средний балл. Из года в год маленькие школы скачут между верхними и нижними строчками рейтингов просто из-за естественных колебаний.

Ошибка 4: Игнорирование базовой частоты

Базовая частота — это то, насколько часто что-то встречается в общей популяции. Её игнорирование приводит к совершенно неверным выводам, особенно при работе с редкими событиями.

Представьте медицинский тест с точностью 99% для выявления редкой болезни, поражающей 1 из 10 000 человек. Если ваш тест положительный, каковы шансы, что вы действительно больны? Большинство скажет 99%. Реальный ответ — около 1%. Вот почему: из 10 000 обследованных тест правильно обнаружит 1 человека с болезнью. Но он также даст ложноположительные результаты примерно у 100 здоровых людей (1% от 9 999). Из 101 положительного результата только у 1 человека реально есть заболевание.

Это не просто математическая головоломка. Это имеет реальные последствия для медицинского скрининга, уголовного правосудия и систем безопасности. Когда тест или утверждение связаны с чем-то редким, всегда учитывайте базовую частоту.

Ошибка 5: Процентные пункты и проценты

Это тонкое, но важное различие, которое сбивает с толку даже опытных специалистов. Изменение в «процентных пунктах» и изменение в «процентах» — совершенно разные вещи.

Пример

Допустим, ставка по кредиту выросла с 8% до 12%. Это можно описать двумя способами. «Ставка выросла на 4 процентных пункта» (с 8% до 12%). Или: «Ставка выросла на 50%» (потому что 4 — это 50% от 8). Оба утверждения верны, но производят совершенно разное впечатление. Тот, кто хочет преуменьшить рост, скажет «всего 4 процентных пункта». Оппонент, желающий драматизировать, скажет «рост на 50%». Одни и те же данные, разная подача.

Когда вы слышите утверждение с процентами, остановитесь и спросите: процент от чего? Это процентные пункты (абсолютная разница) или процентное изменение (относительная разница)?

Ошибка 6: Среднее, которое скрывает суть

Среднее может создавать обманчивое впечатление, когда данные распределены неравномерно. Если девять человек в комнате зарабатывают по 50 000 рублей в месяц, а один — 5 000 000, то средний доход составит 545 000 рублей. Это число не описывает точно ни одного человека в комнате.

Когда кто-то сообщает «средний показатель», спросите, какое именно среднее имеется в виду (среднее арифметическое, медиана или мода) и не могут ли экстремальные значения его искажать. Для доходов, цен на жильё и многих других реальных показателей медиана (серединное значение) обычно информативнее, чем среднее арифметическое.

Как ловить эти ошибки

Теперь у вас есть набор инструментов для выявления самых распространённых статистических промахов. Краткая шпаргалка:

  • То, что две вещи происходят одновременно, не означает, что одна вызывает другую.
  • Ищите данные, которые не показаны, а не только те, что показаны.
  • Скептически относитесь к выводам из очень маленьких исследований.
  • Если что-то редкое, положительные результаты часто оказываются ложными.
  • Проверяйте, означает ли «процент» процентные пункты или относительное изменение.
  • Спрашивайте, какое именно среднее используется и могут ли крайние значения его искажать.
Ключевой вывод

Статистические ошибки легко совершить и легко не заметить. Самые важные из них: путаница корреляции с причинностью, избирательный отбор данных в поддержку выводов, далеко идущие заключения на основе маленьких выборок, игнорирование того, насколько редко что-то встречается, и смешение процентных пунктов с процентами. Не нужно быть математиком, чтобы их поймать. Достаточно замедлиться и задать несколько критических вопросов, прежде чем принять утверждение на веру.