Що таке p-значення?

Складність: Середній Час читання: 12 хвилин

Найпопулярніше і найбільш незрозуміле число у статистиці

p-значення -- це число, яке з'являється майже в кожному науковому дослідженні. Журналісти пишуть "результати статистично значущі (p < 0,05)". Лікарі кажуть "різниця значуща". Але що це число насправді означає -- розуміє дивовижно мало людей, навіть серед професіоналів.

-3 -2 -1 0 1 2 3

Визначення простою мовою

p-значення -- це ймовірність отримати такі або більш екстремальні результати, якщо нульова гіпотеза правдива.

Простіше: "Якби насправді різниці не було, наскільки ймовірно ми побачили б те, що побачили?"

Приклад

Ви тестуєте, чи нова добавка до корму збільшує надої молока у корів. H₀: добавка не впливає. Середній надій з добавкою -- на 2 літри більше. p = 0,03. Це означає: якби добавка справді не працювала, ймовірність випадково отримати різницю 2 літри або більше -- лише 3%. Це малоймовірно, тому ми відхиляємо H₀ і робимо висновок, що добавка, ймовірно, працює.

Поріг 0,05

За конвенцією, якщо p < 0,05, результат вважається "статистично значущим". Це означає: ми готові прийняти 5% ризик хибної тривоги. Поріг 0,05 запропонував Рональд Фішер у 1920-х роках, і він прижився. Це не магічне число -- це конвенція.

45 p<0.01 30 p<0.05 15 p<0.10 10 p>0.10
  • p < 0,05: "Статистично значуще" -- достатньо доказів, щоб відхилити H₀.
  • p > 0,05: "Не значуще" -- недостатньо доказів, щоб відхилити H₀.
  • p < 0,01: "Високо значуще" -- дуже переконливі докази.
  • p < 0,001: "Надзвичайно значуще" -- практично неможливо отримати випадково.

Що p-значення НЕ означає

Ось найпоширеніші помилки -- вивчіть їх напам'ять:

  • "p = 0,03 означає, що H₀ хибна з ймовірністю 97%." Неправда! p-значення -- це ймовірність даних за умови H₀, а не ймовірність H₀ за умови даних. Різниця критична.
  • "p = 0,03 означає, що ефект великий." Неправда. Маленький ефект може дати маленьке p, якщо вибірка величезна.
  • "p = 0,06 означає, що ефекту немає." Ні. Це означає лише, що ми не досягли обраного порогу. Ефект може бути реальним, але вибірка замала.
  • "p = 0,01 важливіше за p = 0,04." Не обов'язково. Обидва "значущі" за порогом 0,05. Менше p не означає "більший ефект".
Приклад

Дослідження 100 000 клієнтів Monobank показало, що користувачі преміум-картки витрачають у середньому на 12 грн на місяць більше. p = 0,001 (високо значуще!). Але 12 гривень -- це практично нічого. Статистична значущість є, практичної -- немає. Великі вибірки роблять значущим навіть крихітний ефект.

Розмір ефекту: те, чого бракує p-значенню

p-значення каже: "Чи є ефект?" Розмір ефекту каже: "Наскільки великий ефект?" Завжди повідомляйте обидва. Різниця в 15 балів НМТ (великий ефект, p = 0,01) набагато цінніша за різницю в 0,5 бали (крихітний ефект, p = 0,01 при величезній вибірці).

-3 -2 -1 0 1 2 3

Проблема множинних порівнянь

Якщо ви тестуєте 20 гіпотез з порогом 0,05, одна з них покаже "значущий" результат чисто випадково (20 × 0,05 = 1). Це як кинути 20 кубиків і здивуватися, що випала шістка.

Приклад

Дослідник перевіряє 50 продуктів харчування на зв'язок із здоров'ям. При порозі 0,05 він "знайде" 2-3 "значущих" зв'язки чисто випадково. Завтра заголовок: "Вчені довели: вживання буряка продовжує життя!" А це просто шум у даних.

Практичні поради

  • Завжди повідомляйте точне p-значення (p = 0,034), а не тільки "p < 0,05".
  • Супроводжуйте p-значення розміром ефекту та довірчим інтервалом.
  • Не сприймайте 0,05 як магічну межу між "істиною" і "брехнею".
  • При множинних порівняннях використовуйте корекцію (наприклад, Бонфероні).
Ключовий висновок

p-значення -- це ймовірність отримати спостережувані або більш екстремальні дані, якщо нульова гіпотеза правдива. Воно НЕ означає ймовірність гіпотези і НЕ вимірює розмір ефекту. Поріг 0,05 -- конвенція, а не закон. Завжди доповнюйте p-значення розміром ефекту та довірчим інтервалом для повної картини.