Що таке викид?
Викид -- це значення, що значно відрізняється від решти даних. Воно "випадає" з загальної картини. Викиди можуть бути як дуже великими, так і дуже малими порівняно з іншими спостереженнями.
Місячні зарплати працівників невеликого кафе у Вінниці: 12 000, 13 000, 14 000, 12 500, 13 500, 85 000 грн. Число 85 000 -- очевидний викид. Це, ймовірно, зарплата власника, яку випадково включили в дані про офіціантів та кухарів.
Як викиди впливають на статистику?
Вплив викидів на різні статистичні міри дуже різний:
- Середнє: дуже чутливе. Та одна зарплата 85 000 підніме середнє з ~13 000 до ~25 000 -- цілком оманливий результат.
- Медіана: майже нечутлива. Медіана залишиться близько 13 000, незалежно від того, чи є викид.
- Стандартне відхилення: дуже чутливе. Один викид може подвоїти або потроїти його.
- Розмах: надзвичайно чутливий -- він визначається крайніми значеннями.
Кількість замовлень на Rozetka за день протягом тижня: 1 200, 1 150, 1 300, 1 250, 1 180, 1 220, 8 500. Останній день -- "Чорна п'ятниця". Без нього середнє ≈ 1 217. З ним -- ≈ 2 257. Це не помилка: "Чорна п'ятниця" реальна, але включення цього дня у "типовий тиждень" спотворює картину.
Звідки беруться викиди?
Основні причини:
- Помилка вимірювання: Хтось записав зарплату 130 000 замість 13 000, пропустивши кому.
- Помилка введення даних: В анкеті студент написав вік 220 замість 22.
- Реальна аномалія: Футболіст забив 5 голів у одному матчі -- це справді сталося, але рідкісно.
- Інша група: Зарплата CEO серед рядових працівників -- це не помилка, але це дані з іншої категорії.
Як виявити викиди?
Правило 1,5 IQR
IQR (міжквартильний розмах) -- різниця між третім і першим квартилями. Значення вважається викидом, якщо воно менше за Q1 - 1,5×IQR або більше за Q3 + 1,5×IQR.
Час доставки Нової Пошти (дні): 1, 1, 2, 2, 2, 2, 3, 3, 3, 12. Q1 = 2, Q3 = 3, IQR = 1. Верхня межа: 3 + 1,5×1 = 4,5. Значення 12 > 4,5 -- це викид. Щось пішло не так із цією конкретною доставкою.
Z-оцінка
Якщо Z-оцінка (кількість стандартних відхилень від середнього) більше за 3 або менше за -3, значення часто вважають викидом.
Візуальний метод
Коробкова діаграма (боксплот) автоматично показує викиди як окремі точки за "вусами". Це найшвидший спосіб побачити їх.
Що робити з викидами?
Це одне з найважливіших рішень в аналізі. Немає універсальної відповіді -- все залежить від причини:
- Помилка: Видаліть або виправте. Зарплата "1 300 000" замість "13 000" -- очевидна помилка введення.
- Реальна, але нерелевантна: Зарплата CEO у дослідженні зарплат офіціантів -- видаліть, бо це інша категорія.
- Реальна і важлива: "Чорна п'ятниця" на Rozetka -- не видаляйте, але аналізуйте окремо.
- Невідома причина: Проведіть аналіз двічі -- з викидом і без. Якщо висновки різні, повідомте обидва варіанти.
Золоте правило
Ніколи не видаляйте дані лише тому, що вони "незручні" для ваших висновків. Це маніпуляція. Видалення повинне мати обґрунтовану причину, яку ви можете пояснити.
Викиди -- це значення, що значно відрізняються від решти. Вони суттєво впливають на середнє, стандартне відхилення та розмах, але мало впливають на медіану. Виявляйте їх через правило 1,5 IQR, Z-оцінку або візуально. Рішення про те, залишити чи видалити викид, залежить від його причини: помилку потрібно виправити, реальну аномалію -- дослідити, але ніколи не видаляйте дані лише для "покращення" результатів.