Что такое выброс?
Выброс — это значение, которое заметно отличается от остальных данных. Оно «сидит» далеко от того места, где сгруппировалось большинство значений. Выбросы — не обязательно ошибки; иногда они — самая интересная часть данных.
Девять учеников написали контрольную. Их баллы: 62, 65, 67, 68, 70, 71, 72, 74, 98
Большинство баллов сгруппированы между 62 и 74. Балл 98 выделяется — он значительно выше остальных. Это выброс.
Выбросы могут быть с любой стороны. Значение может быть необычно высоким или необычно низким. Иногда в наборе данных бывает несколько выбросов.
Как выбросы влияют на среднее
Как мы узнали в уроке о среднем, медиане и моде, среднее арифметическое чувствительно к экстремальным значениям. Это самое важное практическое последствие выбросов.
В небольшой компании 6 сотрудников с такими годовыми зарплатами:
480 000 · 520 000 · 540 000 · 560 000 · 580 000 · 3 600 000 рублей
С выбросом (3 600 000):
- Среднее = 1 046 667 руб.
- Медиана = 550 000 руб.
Без выброса:
- Среднее = 536 000 руб.
- Медиана = 540 000 руб.
Удаление одной высокой зарплаты снизило среднее более чем на 500 000 рублей, а медиана почти не изменилась. Вот почему медиану часто предпочитают при наличии выбросов.
Как выбросы влияют на другие показатели
Среднее — не единственная жертва. Выбросы также раздувают размах, дисперсию и стандартное отклонение, заставляя данные выглядеть более разбросанными, чем они есть для большинства значений.
Ежедневные покупатели небольшой пекарни за 7 дней: 45, 48, 50, 52, 47, 51, 310
Шесть из семи дней посещаемость стабильная — 45–52 человека. Но в один день городское мероприятие привело 310 человек.
Размах с выбросом: 310 − 45 = 265
Размах без него: 52 − 45 = 7
Выброс создаёт впечатление, что пекарня работает крайне нестабильно, хотя на самом деле посещаемость очень ровная.
Откуда берутся выбросы?
Понимание причины выброса помогает решить, что с ним делать. Вот несколько распространённых причин:
1. Ошибки ввода данных
Кто-то набирает 1000 вместо 100. Датчик даёт сбой и записывает температуру 500°C в комнате. Это ошибки — их нужно исправить или удалить.
2. Ошибки измерения
Весы не были откалиброваны, или вопрос анкеты был сформулирован непонятно и кто-то ответил неправильно. Такие выбросы не отражают реальную информацию и обычно их можно исключить.
3. Настоящие экстремальные значения
Иногда реальность даёт экстремальные числа. Профессиональный спортсмен в любительской лиге, элитная квартира в районе панельных домов, вирусный пост в ленте обычных публикаций. Эти выбросы реальны и значимы.
4. Смешение разных групп
Если случайно объединить данные двух очень разных групп — скажем, зарплаты стажёров и топ-менеджеров в одном списке — зарплаты руководителей будут выглядеть как выбросы. Часто это означает, что данные нужно анализировать по отдельным группам.
Когда оставлять выбросы
Выбросы стоит оставлять, когда они представляют реальные, точные данные, являющиеся частью истории, которую вы пытаетесь понять.
Больница отслеживает время ожидания в приёмном покое. Большинство пациентов ждут 20–45 минут, но один пациент прождал 6 часов из-за системного сбоя.
Это 6-часовое ожидание — выброс, но он реальный. Удалить его — значит скрыть серьёзную проблему. В данном случае выброс, пожалуй, самая важная точка данных.
Общие рекомендации — оставляйте выбросы, когда:
- Они — точные измерения (не ошибки)
- Они отражают важные события или закономерности
- Их удаление скроет информацию, нужную вашей аудитории
- Вы пытаетесь понять полный спектр возможного
Когда удалять (или выделять) выбросы
Иногда выбросы настолько искажают анализ, что мешают увидеть основную закономерность в данных.
Вы анализируете типичные расходы на продукты в районе. Большинство семей тратят 15 000–30 000 рублей в месяц. Одна семья тратит 200 000, потому что ведёт кейтеринговый бизнес из дома.
Включение этой семьи исказит средние и даст обманчивую картину обычных расходов. Можно представить результаты обоими способами: «Средняя семья тратит на продукты 22 000 рублей в месяц, не считая одного коммерческого покупателя, расходующего 200 000».
Рассмотрите удаление или отдельное упоминание выбросов, когда:
- Они вызваны ошибками (опечатки, сбои оборудования)
- Они относятся к другой группе, чем та, которую вы изучаете
- Они настолько искажают анализ основной группы, что закономерности становятся невидимыми
- Вы чётко указываете на их удаление, чтобы анализ оставался честным
Золотое правило: всегда сообщайте, что вы сделали
Оставляете вы выбросы или удаляете — прозрачность обязательна. Если удалили точки данных — скажите об этом. Объясните почему. Покажите результаты и с выбросами, и без них, когда это возможно. Тихое удаление неудобных данных — один из самых распространённых способов манипуляции статистикой, даже непреднамеренной.
Простые методы выявления выбросов
Как определить, является ли значение выбросом? Вот два простых подхода:
Метод стандартного отклонения: Любое значение, отклоняющееся от среднего более чем на 2 или 3 стандартных отклонения, часто считают выбросом. По правилу 68-95-99,7 значение за пределами 3 стандартных отклонений встречается менее чем в 0,3% случаев при колоколообразных данных.
Метод межквартильного размаха (IQR): Найдите средние 50% данных (межквартильный размах, или IQR). Любое значение, отклоняющееся более чем на 1,5 × IQR ниже первого квартиля или выше третьего, помечается как выброс. Этот метод лежит в основе «усов» в диаграммах «ящик с усами».
Не нужно сейчас заучивать эти формулы. Важно знать, что существуют систематические способы выявления выбросов — это не просто интуиция.
Выбросы — это точки данных, находящиеся далеко от остальных значений. Они могут быть вызваны ошибками, реальными экстремальными событиями или смешением разных групп. Выбросы тянут среднее, раздувают размах и увеличивают стандартное отклонение. Правильная реакция зависит от контекста: оставляйте их, когда они реальны и важны; удаляйте или выделяйте отдельно, когда они искажают понимание основной закономерности. Что бы вы ни решили — всегда будьте прозрачны в этом.