Тренд, который переворачивается
Представьте, что вы сравниваете две больницы. Больница A имеет более высокую выживаемость, чем Больница B, для пациентов с операцией на сердце. Больница A также имеет более высокую выживаемость для пациентов с общей хирургией. Значит, Больница A лучше в целом, верно? Не обязательно. При объединении данных Больница B может оказаться с более высокой общей выживаемостью. Это парадокс Симпсона: тренд, наблюдаемый в отдельных группах, переворачивается или исчезает при объединении групп.
Звучит невозможно, но это происходит постоянно в реальных данных. Парадокс возникает из-за дисбаланса в распределении случаев между группами. Его понимание критически важно для любого, кто работает с данными или читает исследования, потому что агрегированные цифры могут рассказать совершенно обманчивую историю.
Случай приёма в Беркли
Самый известный пример парадокса Симпсона -- из Калифорнийского университета в Беркли. В 1973 году общие данные о приёме в аспирантуру показали, что 44% мужчин-абитуриентов были приняты против только 35% женщин. Это выглядело как явное свидетельство гендерной дискриминации в отношении женщин.
Но когда исследователи изучили каждый факультет по отдельности, они обнаружили нечто поразительное. На большинстве факультетов женщин принимали с такой же или даже более высокой частотой, чем мужчин. Дискриминации на уровне факультетов не было. Как же тогда общие цифры могли показать такой разрыв?
Ответ заключался в том, что женщины непропорционально подавали документы на наиболее конкурентные факультеты -- те, где процент зачисления был низким для всех. Мужчины чаще подавали на менее конкурентные факультеты с более высоким процентом зачисления. При объединении всех факультетов различия в том, куда подавали мужчины и женщины, создавали иллюзию предвзятости, которой не существовало на уровне факультетов.
Как видно из данных по факультетам выше, женщины имели сопоставимые или лучшие показатели приёма внутри отдельных факультетов. Общий разрыв был полностью обусловлен составом поступающих.
Почему это происходит: скрытые переменные
Парадокс Симпсона возникает из-за скрытой переменной, также называемой смешивающей переменной, которая меняет состав данных между группами. В примере с Беркли скрытой переменной был выбор факультета. Он был связан и с полом (женщины выбирали другие факультеты), и с результатом (на некоторые факультеты было сложнее поступить).
Представьте это так: если смешать данные из очень разных ситуаций, пропорции каждой ситуации в каждой группе могут доминировать в результатах. Маленькая группа с высоким показателем и большая группа с низким показателем дадут комбинированный показатель, смещённый к большей группе. Если две группы имеют разные пропорции «лёгких» и «сложных» случаев, их комбинированные показатели могут перевернуться.
У компании два подразделения. В Подразделении X новая программа обучения улучшила показатели 80% участников (40 из 50). В Подразделении Y -- 90% (9 из 10). Общий показатель улучшения -- 49 из 60, или около 82%. Тем временем, программа другой компании улучшила показатели 85% в Подразделении X (17 из 20) и 95% в Подразделении Y (38 из 40). Их общий показатель -- 55 из 60, или около 92%. Вторая компания выглядит лучше в целом, но программа первой компании имела более высокий показатель в обоих подразделениях. Парадокс возникает потому, что первая компания направила большинство людей через более сложное подразделение.
Парадокс Симпсона в медицине и бизнесе
В медицине парадокс Симпсона может повлиять на сравнение лечений. Исследование может показать, что Лечение A имеет лучшие результаты, чем Лечение B, в целом, но при разделении пациентов по тяжести Лечение B оказывается лучше и для лёгких, и для тяжёлых случаев. Это может произойти, если Лечение B непропорционально назначается самым тяжёлым пациентам, снижая его общий средний показатель.
В бизнесе это можно увидеть в конверсиях. Маркетинговый канал может иметь более низкую общую конверсию, но превосходить в каждом сегменте клиентов. Разница возникает потому, что этот канал привлекает больше клиентов из труднее конвертируемых сегментов. Принятие решений на основе агрегированного показателя может привести к отключению наиболее эффективного канала.
Средние показатели отбивания в бейсболе тоже знаменито демонстрировали парадокс. Игрок может иметь более высокий средний показатель, чем другой игрок, в каждом отдельном году, но более низкий средний при объединении лет, потому что количество выходов на биту в каждом году кардинально различалось.
Как не дать себя обмануть
Ключевая защита от парадокса Симпсона -- всегда учитывать, могут ли существовать подгруппы, рассказывающие другую историю. Когда вы видите агрегированные данные, спросите себя: есть ли значимые категории внутри этих данных? Может ли состав этих категорий различаться между сравниваемыми группами?
Это не означает, что всегда нужно предпочитать результаты подгрупп. Иногда агрегированный вид -- правильный. Верный подход зависит от вашего конкретного вопроса и того, что вызывает различие. Если скрытая переменная -- смешивающий фактор, который нужно контролировать, анализ подгрупп надёжнее. Если скрытая переменная отражает реальный аспект сравнения, агрегат может быть уместен.
По возможности смотрите на данные обоими способами. Если агрегированный и подгрупповой анализы совпадают, можно быть увереннее. Если расходятся -- копайте глубже, прежде чем делать выводы. Парадокс -- мощное напоминание о том, что сводки данных могут скрывать столько же, сколько раскрывают.
Парадокс Симпсона возникает, когда тренд, сохраняющийся внутри каждой подгруппы, переворачивается при объединении групп. Это происходит из-за того, что скрытая переменная меняет состав данных между группами. Противоядие -- смотреть на данные на нескольких уровнях и всегда спрашивать, могут ли скрытые подгруппы определять общий паттерн. Агрегированные данные могут рассказывать совершенно другую историю, чем детальный анализ.