Перцентили и ящичковые диаграммы

Сложность: Начальный Время чтения: 10 минут

Что такое перцентили?

Перцентиль показывает, какой процент значений в наборе данных находится ниже заданной точки. Если ваш результат теста на 85-м перцентиле, это значит, что вы набрали больше, чем 85% тестируемых. Это не значит, что вы правильно ответили на 85% вопросов -- перцентили описывают ваше положение относительно остальных, а не абсолютный результат.

Перцентили используются повсюду. Педиатры отслеживают рост и вес детей с помощью графиков перцентилей. Стандартизированные тесты, такие как SAT и GRE, представляют результаты в перцентилях. Обзоры зарплат описывают компенсации в перцентилях, чтобы компании могли видеть своё положение относительно рынка.

Наиболее часто используемые перцентили -- это квартили, которые делят данные на четыре равные части. 25-й перцентиль называется Q1 (первый квартиль), 50-й перцентиль -- Q2 (медиана), а 75-й перцентиль -- Q3 (третий квартиль). Вместе с минимумом и максимумом эти пять значений образуют сводку из пяти чисел -- компактный снимок всего набора данных.

12 20 28 36 44 52 55

На точечной диаграмме выше видно, как большинство значений группируется в диапазоне 20-30, с несколькими низкими значениями и одним высоким выбросом на 55. Перцентили помогают кратко описать это распределение без перечисления каждой точки данных.

Сводка из пяти чисел

Сводка из пяти чисел состоит из: минимум, Q1, медиана, Q3 и максимум. Эти пять чисел показывают, где начинаются данные, где расположена центральная половина, и где данные заканчиваются.

Пример

Рассмотрим ежедневные чаевые официанта за 20 смен: $12, $15, $17, $19, $21, $22, $23, $24, $25, $26, $27, $28, $29, $30, $31, $33, $35, $38, $42, $55. Сводка из пяти чисел: Минимум = $12, Q1 = $20, Медиана = $26.50, Q3 = $32, Максимум = $55. С первого взгляда видно, что центральные 50% чаевых находятся между $20 и $32, типичные чаевые -- около $26-$27, и есть один необычно крупный день с чаевыми $55.

Межквартильный размах (МКР)

Межквартильный размах -- это просто Q3 минус Q1. Он измеряет разброс центральных 50% данных, игнорируя крайние значения. В примере с официантом МКР = $32 - $20 = $12.

МКР -- более устойчивая мера разброса, чем размах (максимум минус минимум), потому что на неё не влияют выбросы. Размах официанта составляет $55 - $12 = $43, что сильно зависит от того одного удачного дня. МКР в $12 даёт более точную картину типичной ежедневной вариации.

МКР также используется для выявления выбросов. Распространённое правило гласит, что любое значение ниже Q1 - 1.5 * МКР или выше Q3 + 1.5 * МКР является потенциальным выбросом. В примере с официантом верхняя граница составит $32 + 1.5 * $12 = $50. Чаевые в $55 превышают этот порог, подтверждая статус статистического выброса.

Чтение ящичковой диаграммы

Ящичковая диаграмма (также называемая диаграммой «ящик с усами») -- это визуальное представление сводки из пяти чисел. Ящик простирается от Q1 до Q3, с линией внутри, отмечающей медиану. «Усы» тянутся от ящика до наименьшего и наибольшего значений, не являющихся выбросами. Выбросы отображаются как отдельные точки за пределами усов.

Ящичковые диаграммы особенно полезны для сравнения нескольких групп рядом. Если вы хотите сравнить чаевые в трёх разных ресторанах, три ящичковые диаграммы, размещённые рядом, мгновенно покажут, в каком ресторане типичные чаевые выше, где больше вариация и где больше выбросов.

12 Мин 20 Q1 26 Медиана 32 Q3 55 Макс

Столбчатая диаграмма выше представляет значения сводки из пяти чисел в виде столбцов, чтобы вы могли увидеть их относительные позиции. Обратите внимание на разрыв между Q3 и максимумом -- эта асимметрия указывает на правую скошенность данных с длинным хвостом в сторону высоких значений.

Что ящичковые диаграммы говорят о форме распределения

Ящичковые диаграммы могут рассказать о скошенности распределения. Если линия медианы расположена по центру ящика, а усы примерно равной длины, данные симметричны. Если медиана ближе к Q1, а верхний ус длиннее -- данные скошены вправо (длинный хвост высоких значений). Если медиана ближе к Q3, а нижний ус длиннее -- данные скошены влево.

Например, данные о доходах почти всегда дают ящичковую диаграмму со скошенностью вправо: медиана расположена низко в ящике, верхний ус длинный, и на верхнем конце много выбросов. Оценки на экзамене в хорошо построенном курсе часто дают диаграмму со скошенностью влево: большинство студентов справляются хорошо, но несколько отстающих тянут нижний ус вниз.

Ящичковые диаграммы жертвуют некоторой детальностью по сравнению с гистограммами -- нельзя увидеть точную форму распределения или выявить несколько пиков. Но они превосходны в компактном сравнении и обнаружении выбросов, поэтому являются основой разведочного анализа данных.

5 10 15 20 25 30
Ключевой вывод

Перцентили ранжируют значения относительно остальных данных, при этом квартили (Q1, медиана, Q3) -- наиболее важные ориентиры. Сводка из пяти чисел и МКР дают лаконичный, устойчивый к выбросам снимок любого набора данных. Ящичковые диаграммы превращают этот снимок в визуализацию, показывающую центр, разброс, скошенность и выбросы с одного взгляда -- что делает их идеальными для быстрого сравнения нескольких групп.