Определение
Выброс - это точка данных, которая значительно отличается от других наблюдений в наборе данных. Она находится на аномальном расстоянии от остальных значений, будучи значительно выше или ниже основной массы данных.
Как выявить выбросы
Наиболее распространенный метод использует межквартильный размах (МКР). Любое значение ниже Q1 - 1.5 x МКР или выше Q3 + 1.5 x МКР помечается как выброс.
Ежемесячные расходы 8 сотрудников: $200, $250, $230, $210, $240, $220, $260, $1,500
Значение $1,500 - это выброс. Оно значительно превышает другие значения, которые группируются между $200 и $260.
Среднее с выбросом составляет $389. Без него среднее - $230. Одно экстремальное значение завысило среднее почти на 70%.
Почему это важно
Выбросы могут кардинально повлиять на статистические расчеты. Они смещают среднее от центра, раздувают стандартное отклонение и могут исказить линии регрессии. Неучет выбросов может привести к ошибочным выводам.
Однако выбросы не всегда плохи. Они могут выявить мошенничество (необычно крупная транзакция), ошибки (неправильно поставленная запятая) или подлинно важные явления (прорывное научное измерение). Ключ в том, чтобы исследовать каждый выброс, а не автоматически удалять его.
Всегда исследуйте выбросы, прежде чем решать, сохранить их или удалить. Они могут быть ошибками, искажающими анализ, или реальными данными, содержащими ценную информацию.