Що таке перцентилі?
Перцентиль показує, який відсоток значень у наборі даних знаходиться нижче певної точки. Якщо ваш результат тесту знаходиться на 85-му перцентилі, це означає, що ви набрали більше, ніж 85% учасників. Це не означає, що ви відповіли правильно на 85% питань - перцентилі описують ваш ранг відносно всіх інших, а не абсолютну результативність.
Перцентилі використовуються скрізь. Педіатри відстежують зріст і вагу дітей за допомогою перцентильних графіків. Стандартизовані тести, такі як SAT і GRE, повідомляють результати у перцентилях. Огляди заробітних плат описують компенсацію у перцентилях, щоб компанії могли бачити своє становище відносно ринку.
Найчастіше використовувані перцентилі - це квартилі, які ділять дані на чотири рівні частини. 25-й перцентиль називається Q1 (перший квартиль), 50-й перцентиль - Q2 (медіана), а 75-й перцентиль - Q3 (третій квартиль). Разом із мінімумом та максимумом ці п'ять значень утворюють п'ятичислове зведення - компактний знімок усього набору даних.
На точковій діаграмі вище видно, як більшість значень групується в діапазоні 20-30, з кількома нижчими значеннями та одним високим викидом на 55. Перцентилі допомагають описати цей розподіл стисло, без потреби перелічувати кожну точку даних.
П'ятичислове зведення
П'ятичислове зведення складається з п'яти значень: мінімум, Q1, медіана, Q3 та максимум. Ці п'ять чисел показують, де починаються дані, де знаходяться середні 50%, і де дані закінчуються.
Розглянемо щоденні чайові офіціанта за 20 змін: $12, $15, $17, $19, $21, $22, $23, $24, $25, $26, $27, $28, $29, $30, $31, $33, $35, $38, $42, $55. П'ятичислове зведення буде таким: Мінімум = $12, Q1 = $20, Медіана = $26,50, Q3 = $32, Максимум = $55. З першого погляду видно, що середні 50% чайових знаходяться між $20 та $32, типові чайові - близько $26-$27, і є один незвично великий день з чайовими $55.
Міжквартильний розмах (IQR)
Міжквартильний розмах - це просто Q3 мінус Q1. Він вимірює розкид середніх 50% ваших даних, ігноруючи крайні значення. У прикладі з офіціантом IQR = $32 - $20 = $12.
IQR є більш стійкою мірою розкиду, ніж розмах (максимум мінус мінімум), оскільки на нього не впливають викиди. Розмах офіціанта становить $55 - $12 = $43, що значною мірою визначається одним вдалим днем. IQR у $12 дає точнішу картину типової щоденної варіації.
IQR також використовується для виявлення викидів. Загальне правило говорить, що будь-яке значення нижче Q1 - 1,5 * IQR або вище Q3 + 1,5 * IQR є потенційним викидом. У прикладі з офіціантом верхня межа становить $32 + 1,5 * $12 = $50. День з чайовими $55 перевищує цей поріг, підтверджуючи його як статистичний викид.
Читання діаграми розмаху
Діаграма розмаху (також відома як діаграма «ящик з вусами») - це візуальне представлення п'ятичислового зведення. Прямокутник простягається від Q1 до Q3, з лінією всередині, що позначає медіану. «Вуса» виходять від прямокутника до найменшого та найбільшого значень, які не є викидами. Будь-які викиди відображаються як окремі точки за межами вусів.
Діаграми розмаху особливо корисні для порівняння кількох груп поряд. Якщо ви хочете порівняти чайові у трьох різних ресторанах, три діаграми розмаху поруч одразу покажуть, який ресторан має вищі типові чайові, в якому більша варіація і в якому більше викидів.
Стовпчикова діаграма вище представляє значення п'ятичислового зведення у вигляді стовпчиків, щоб ви могли бачити їх відносне розташування. Зверніть увагу на розрив між Q3 та максимумом - ця асиметрія свідчить про те, що дані зміщені вправо, з довгим хвостом у бік вищих значень.
Що діаграми розмаху розповідають про форму
Діаграми розмаху можуть розповісти про асиметрію розподілу. Якщо лінія медіани знаходиться в центрі прямокутника і вуса приблизно однакової довжини, дані симетричні. Якщо медіана ближче до Q1 і верхній вус довший, дані зміщені вправо (довгий хвіст вищих значень). Якщо медіана ближче до Q3 і нижній вус довший, дані зміщені вліво.
Наприклад, дані про доходи майже завжди дають діаграму розмаху зі зміщенням вправо: медіана знаходиться низько в прямокутнику, верхній вус довгий, і є багато викидів з високого боку. Результати іспитів у добре побудованому курсі часто дають діаграму зі зміщенням вліво: більшість студентів справляються добре, але кілька відстаючих тягнуть нижній вус вниз.
Діаграми розмаху жертвують деякою деталізацією порівняно з гістограмами - ви не можете побачити точну форму розподілу чи виявити декілька піків. Але вони чудово підходять для компактного порівняння та виявлення викидів, тому є основним інструментом розвідувального аналізу даних.
Перцентилі ранжують значення відносно решти даних, причому квартилі (Q1, медіана, Q3) є найважливішими орієнтирами. П'ятичислове зведення та IQR забезпечують стислий, стійкий до викидів знімок будь-якого набору даних. Діаграми розмаху перетворюють це зведення у візуалізацію, що показує центр, розкид, асиметрію та викиди одним поглядом - що робить їх ідеальними для швидкого порівняння кількох груп.