Що таке генеральна сукупність?
У статистиці генеральна сукупність (або просто "популяція") -- це повний набір усіх об'єктів, які вас цікавлять. Це не обов'язково люди. Генеральна сукупність може бути: всі мешканці України, всі квартири в Києві, всі матчі УПЛ за сезон, всі транзакції Monobank за місяць.
Ключове слово -- "всі". Якщо ви хочете знати середню зарплату в Україні, генеральна сукупність -- це кожен працюючий громадянин. Проблема в тому, що опитати кожного зазвичай неможливо.
Що таке вибірка?
Вибірка -- це частина генеральної сукупності, яку ви фактично досліджуєте. Замість опитувати 20 мільйонів працюючих українців, ви опитуєте, скажімо, 3 000 і використовуєте їхні відповіді, щоб зробити висновки про всіх.
Держстат хоче дізнатися рівень безробіття в Україні. Опитати кожного дорослого неможливо. Тому вони обирають вибірку: близько 30 000 домогосподарств з різних областей, міст і сіл. На основі цієї вибірки роблять висновок про всю країну. Це і є статистичне вибіркове дослідження.
Навіщо робити вибірку?
Три основні причини:
- Економія часу: Опитати 3 000 людей набагато швидше, ніж 20 мільйонів.
- Економія грошей: Кожне інтерв'ю коштує. Повний перепис населення -- колосальні витрати.
- Практична неможливість: Деякі тести руйнують зразок. Якщо завод перевіряє якість лампочок, він не може протестувати кожну -- доведеться перевірити вибірку.
Репрезентативність -- ключ до всього
Вибірка має бути представницькою -- тобто вона повинна якомога точніше відображати генеральну сукупність. Якщо ви хочете знати середній дохід українців, а опитуєте лише жителів центру Києва, ваша вибірка упереджена: доходи в столиці значно вищі, ніж у середньому по країні.
Rozetka хоче дізнатися, наскільки клієнти задоволені доставкою. Якщо вони надішлють опитування тільки тим, хто залишив відгук на сайті, вибірка буде упередженою: зазвичай відгуки залишають або дуже задоволені, або дуже незадоволені клієнти. Щоб отримати об'єктивну картину, потрібно випадково обрати клієнтів із загальної бази.
Випадкова вибірка
Найнадійніший спосіб отримати репрезентативну вибірку -- це випадковий відбір. Кожен елемент генеральної сукупності повинен мати однакову ймовірність потрапити у вибірку. Це як лотерея: кожен квиток має однаковий шанс.
Існує кілька методів вибіркового дослідження:
- Проста випадкова вибірка: кожен має однаковий шанс бути обраним. Як витягнути номери зі шапки.
- Стратифікована вибірка: спочатку ділимо сукупність на групи (страти), потім із кожної обираємо випадково. Наприклад, ділимо Україну на області і з кожної обираємо пропорційну кількість респондентів.
- Систематична вибірка: обираємо кожного k-го елемента зі списку. Наприклад, кожного 10-го студента зі списку.
- Кластерна вибірка: ділимо на групи (кластери) і обираємо цілі кластери випадково. Наприклад, випадково обираємо 50 шкіл з 1 000, а потім опитуємо всіх учнів у цих школах.
Розмір вибірки
Логічне запитання: скільки потрібно? Більша вибірка дає точніші результати, але з кожним наступним респондентом додаткова точність зменшується. Опитування 1 000 осіб зазвичай дає похибку близько 3%, а 10 000 -- близько 1%. Але перехід від 1 000 до 10 000 коштує в 10 разів дорожче, а похибка зменшується лише на 2%.
Перед виборами соціологічна служба опитує 2 000 виборців. Чому саме 2 000? Бо при такому розмірі вибірки похибка складає приблизно 2,2 відсоткових пункти. Це достатня точність, щоб зрозуміти настрої суспільства, і водночас реалістичний бюджет.
Параметри та статистики
У статистиці є важлива різниця між двома поняттями: параметр -- це характеристика генеральної сукупності (наприклад, середня зарплата ВСІХ українців), а статистика -- це характеристика вибірки (середня зарплата в нашому опитуванні 3 000 осіб). Мета вибіркового дослідження -- використати статистику для оцінки параметра.
Генеральна сукупність -- це всі елементи, що нас цікавлять; вибірка -- це частина, яку ми реально досліджуємо. Репрезентативна вибірка, отримана випадковим методом, дає змогу робити надійні висновки про цілу сукупність без дослідження кожного елемента. Упереджена вибірка призведе до хибних висновків, незалежно від її розміру.