Найпопулярніше і найбільш незрозуміле число у статистиці
p-значення -- це число, яке з'являється майже в кожному науковому дослідженні. Журналісти пишуть "результати статистично значущі (p < 0,05)". Лікарі кажуть "різниця значуща". Але що це число насправді означає -- розуміє дивовижно мало людей, навіть серед професіоналів.
Визначення простою мовою
p-значення -- це ймовірність отримати такі або більш екстремальні результати, якщо нульова гіпотеза правдива.
Простіше: "Якби насправді різниці не було, наскільки ймовірно ми побачили б те, що побачили?"
Ви тестуєте, чи нова добавка до корму збільшує надої молока у корів. H₀: добавка не впливає. Середній надій з добавкою -- на 2 літри більше. p = 0,03. Це означає: якби добавка справді не працювала, ймовірність випадково отримати різницю 2 літри або більше -- лише 3%. Це малоймовірно, тому ми відхиляємо H₀ і робимо висновок, що добавка, ймовірно, працює.
Поріг 0,05
За конвенцією, якщо p < 0,05, результат вважається "статистично значущим". Це означає: ми готові прийняти 5% ризик хибної тривоги. Поріг 0,05 запропонував Рональд Фішер у 1920-х роках, і він прижився. Це не магічне число -- це конвенція.
- p < 0,05: "Статистично значуще" -- достатньо доказів, щоб відхилити H₀.
- p > 0,05: "Не значуще" -- недостатньо доказів, щоб відхилити H₀.
- p < 0,01: "Високо значуще" -- дуже переконливі докази.
- p < 0,001: "Надзвичайно значуще" -- практично неможливо отримати випадково.
Що p-значення НЕ означає
Ось найпоширеніші помилки -- вивчіть їх напам'ять:
- "p = 0,03 означає, що H₀ хибна з ймовірністю 97%." Неправда! p-значення -- це ймовірність даних за умови H₀, а не ймовірність H₀ за умови даних. Різниця критична.
- "p = 0,03 означає, що ефект великий." Неправда. Маленький ефект може дати маленьке p, якщо вибірка величезна.
- "p = 0,06 означає, що ефекту немає." Ні. Це означає лише, що ми не досягли обраного порогу. Ефект може бути реальним, але вибірка замала.
- "p = 0,01 важливіше за p = 0,04." Не обов'язково. Обидва "значущі" за порогом 0,05. Менше p не означає "більший ефект".
Дослідження 100 000 клієнтів Monobank показало, що користувачі преміум-картки витрачають у середньому на 12 грн на місяць більше. p = 0,001 (високо значуще!). Але 12 гривень -- це практично нічого. Статистична значущість є, практичної -- немає. Великі вибірки роблять значущим навіть крихітний ефект.
Розмір ефекту: те, чого бракує p-значенню
p-значення каже: "Чи є ефект?" Розмір ефекту каже: "Наскільки великий ефект?" Завжди повідомляйте обидва. Різниця в 15 балів НМТ (великий ефект, p = 0,01) набагато цінніша за різницю в 0,5 бали (крихітний ефект, p = 0,01 при величезній вибірці).
Проблема множинних порівнянь
Якщо ви тестуєте 20 гіпотез з порогом 0,05, одна з них покаже "значущий" результат чисто випадково (20 × 0,05 = 1). Це як кинути 20 кубиків і здивуватися, що випала шістка.
Дослідник перевіряє 50 продуктів харчування на зв'язок із здоров'ям. При порозі 0,05 він "знайде" 2-3 "значущих" зв'язки чисто випадково. Завтра заголовок: "Вчені довели: вживання буряка продовжує життя!" А це просто шум у даних.
Практичні поради
- Завжди повідомляйте точне p-значення (p = 0,034), а не тільки "p < 0,05".
- Супроводжуйте p-значення розміром ефекту та довірчим інтервалом.
- Не сприймайте 0,05 як магічну межу між "істиною" і "брехнею".
- При множинних порівняннях використовуйте корекцію (наприклад, Бонфероні).
p-значення -- це ймовірність отримати спостережувані або більш екстремальні дані, якщо нульова гіпотеза правдива. Воно НЕ означає ймовірність гіпотези і НЕ вимірює розмір ефекту. Поріг 0,05 -- конвенція, а не закон. Завжди доповнюйте p-значення розміром ефекту та довірчим інтервалом для повної картини.