Що таке викид у статистицi?

Визначення

Викид - це точка даних, яка значно вiдрiзняється вiд iнших спостережень у наборi даних. Вона знаходиться на аномальнiй вiдстанi вiд iнших значень, або значно вища, або значно нижча за основну масу даних.

Як виявити викиди

Найпоширенiший метод використовує мiжквартильний розмах (IQR). Будь-яке значення нижче Q1 - 1,5 x IQR або вище Q3 + 1,5 x IQR позначається як викид.

Приклад

Щомiсячнi витрати 8 працiвникiв: $200, $250, $230, $210, $240, $220, $260, $1 500

Значення $1 500 є викидом. Воно значно перевищує iншi значення, якi групуються мiж $200 та $260.

Середнє з викидом становить $389. Без нього середнє становить $230. Одне крайнє значення збiльшило середнє майже на 70%.

Чому це важливо

Викиди можуть драматично впливати на статистичнi обчислення. Вони вiдхиляють середнє вiд центру, збiльшують стандартне вiдхилення та можуть спотворити лiнiї регресiї. Неврахування викидiв може призвести до хибних висновкiв.

Однак викиди не завжди поганi. Вони можуть виявити шахрайство (незвично велика транзакцiя), помилки (неправильно поставлена десяткова крапка) або справдi важливi явища (проривне наукове вимiрювання). Головне - дослiдити кожен викид, а не автоматично видаляти його.

Головний висновок

Завжди дослiджуйте викиди перед рiшенням залишити чи видалити їх. Вони можуть бути помилками, що спотворюють аналiз, або реальними даними, що мiстять цiнну iнформацiю.

← Back to Glossary