Эти ошибки совершают все
Статистические ошибки свойственны не только студентам или новичкам. Журналисты, политики, руководители компаний и даже некоторые учёные допускают их регулярно. Чаще всего это происходит непреднамеренно — из-за мыслительных привычек, которые кажутся логичными, но уводят в сторону.
Умение распознавать эти ошибки защищает вас двояко: вы заметите их, когда их делают другие, и не допустите их сами, оценивая информацию.
Ошибка 1: Путаница корреляции с причинностью
Это самая распространённая статистическая ошибка, и она встречается повсюду. Когда две вещи происходят одновременно, возникает соблазн предположить, что одна вызывает другую. Но корреляция (две вещи изменяются вместе) — это не то же самое, что причинность (одна вещь порождает другую).
Между продажами мороженого и числом нападений акул существует сильная статистическая корреляция. Когда продажи мороженого растут, растёт и число атак акул. Значит ли это, что мороженое привлекает акул? Конечно, нет. Обе величины растут летом, потому что в жару больше людей идут на пляж. Тёплая погода — скрытый фактор, влияющий на обе переменные.
Последствия этой ошибки в реальной жизни серьёзны. Годами исследования показывали, что люди, принимающие витаминные добавки, в целом здоровее. Многие сделали вывод, что добавки улучшают здоровье. Но более тщательные эксперименты позже обнаружили, что сами добавки давали мало пользы. Просто люди, которые их принимали, были в целом внимательнее к здоровью: больше занимались спортом, лучше питались и чаще ходили к врачу.
Ошибка 2: Избирательный отбор данных
Избирательный отбор (cherry-picking) — это выбор только тех данных, которые подтверждают вашу точку зрения, и игнорирование тех, что ей противоречат. Это как если бы школьник показывал родителям только те контрольные, по которым получил пятёрки.
Это постоянно случается в бизнесе и политике. Компания может отчитаться: «выручка росла каждый квартал этого года», умолчав, что прибыль падала. Политик может сказать: «преступность снизилась на 15% с моего прихода к власти», выбрав за точку отсчёта необычный пик.
Противоядие от избирательного отбора — просить полную картину. Как выглядит весь набор данных? Какой период отражает всю историю? Нет ли данных, которые удобно опущены?
Ошибка 3: Маленькие выборки
Маленькие группы дают ненадёжные результаты. Если подбросить монету десять раз и получить семь орлов, может показаться, что монета «нечестная». Но если подбросить 10 000 раз, результат почти наверняка будет близок к 50%. Маленькие выборки «шумят» — колеблются и могут давать экстремальные результаты просто по случайности.
Заголовок новости: «Исследование показало, что грецкие орехи улучшают память». Вы проверяете исследование и обнаруживаете, что в нём участвовали 18 человек на протяжении двух недель. При такой маленькой группе пара человек с природной хорошей памятью, случайно оказавшихся в «ореховой» группе, могут объяснить весь результат. Сравните с исследованием 2 000 человек на протяжении двух лет — такие выводы гораздо весомее.
Будьте особенно осторожны со статистикой по маленьким группам. «Лучшая школа в регионе» может оказаться крошечной школой, где несколько одарённых учеников подтянули средний балл. Из года в год маленькие школы скачут между верхними и нижними строчками рейтингов просто из-за естественных колебаний.
Ошибка 4: Игнорирование базовой частоты
Базовая частота — это то, насколько часто что-то встречается в общей популяции. Её игнорирование приводит к совершенно неверным выводам, особенно при работе с редкими событиями.
Представьте медицинский тест с точностью 99% для выявления редкой болезни, поражающей 1 из 10 000 человек. Если ваш тест положительный, каковы шансы, что вы действительно больны? Большинство скажет 99%. Реальный ответ — около 1%. Вот почему: из 10 000 обследованных тест правильно обнаружит 1 человека с болезнью. Но он также даст ложноположительные результаты примерно у 100 здоровых людей (1% от 9 999). Из 101 положительного результата только у 1 человека реально есть заболевание.
Это не просто математическая головоломка. Это имеет реальные последствия для медицинского скрининга, уголовного правосудия и систем безопасности. Когда тест или утверждение связаны с чем-то редким, всегда учитывайте базовую частоту.
Ошибка 5: Процентные пункты и проценты
Это тонкое, но важное различие, которое сбивает с толку даже опытных специалистов. Изменение в «процентных пунктах» и изменение в «процентах» — совершенно разные вещи.
Допустим, ставка по кредиту выросла с 8% до 12%. Это можно описать двумя способами. «Ставка выросла на 4 процентных пункта» (с 8% до 12%). Или: «Ставка выросла на 50%» (потому что 4 — это 50% от 8). Оба утверждения верны, но производят совершенно разное впечатление. Тот, кто хочет преуменьшить рост, скажет «всего 4 процентных пункта». Оппонент, желающий драматизировать, скажет «рост на 50%». Одни и те же данные, разная подача.
Когда вы слышите утверждение с процентами, остановитесь и спросите: процент от чего? Это процентные пункты (абсолютная разница) или процентное изменение (относительная разница)?
Ошибка 6: Среднее, которое скрывает суть
Среднее может создавать обманчивое впечатление, когда данные распределены неравномерно. Если девять человек в комнате зарабатывают по 50 000 рублей в месяц, а один — 5 000 000, то средний доход составит 545 000 рублей. Это число не описывает точно ни одного человека в комнате.
Когда кто-то сообщает «средний показатель», спросите, какое именно среднее имеется в виду (среднее арифметическое, медиана или мода) и не могут ли экстремальные значения его искажать. Для доходов, цен на жильё и многих других реальных показателей медиана (серединное значение) обычно информативнее, чем среднее арифметическое.
Как ловить эти ошибки
Теперь у вас есть набор инструментов для выявления самых распространённых статистических промахов. Краткая шпаргалка:
- То, что две вещи происходят одновременно, не означает, что одна вызывает другую.
- Ищите данные, которые не показаны, а не только те, что показаны.
- Скептически относитесь к выводам из очень маленьких исследований.
- Если что-то редкое, положительные результаты часто оказываются ложными.
- Проверяйте, означает ли «процент» процентные пункты или относительное изменение.
- Спрашивайте, какое именно среднее используется и могут ли крайние значения его искажать.
Статистические ошибки легко совершить и легко не заметить. Самые важные из них: путаница корреляции с причинностью, избирательный отбор данных в поддержку выводов, далеко идущие заключения на основе маленьких выборок, игнорирование того, насколько редко что-то встречается, и смешение процентных пунктов с процентами. Не нужно быть математиком, чтобы их поймать. Достаточно замедлиться и задать несколько критических вопросов, прежде чем принять утверждение на веру.