Від необроблених даних до впорядкованих підрахунків
Коли ви збираєте дані, вони часто починаються як безладний список. Уявіть опитування 200 клієнтів щодо бажаного способу оплати - ви отримаєте довгий стовпець відповідей: кредитна картка, готівка, мобільний платіж, кредитна картка, кредитна картка, готівка тощо. Таблиця частот перетворює цей хаос на чистий підсумок, підраховуючи, скільки разів з'являється кожне значення.
Базова таблиця частот має два стовпці: категорію та кількість (також звану частотою). Для прикладу з оплатою ви можете отримати: кредитна картка: 95, готівка: 52, мобільний платіж: 38, дебетова картка: 15. Тепер ви миттєво бачите, який спосіб оплати домінує, а який рідкісний. Цей простий акт підрахунку - основа описової статистики.
Відносна та кумулятивна частота
Необроблені підрахунки корисні, але їх важко порівнювати між наборами даних різного розміру. Якщо один магазин опитав 200 людей, а інший - 1000, порівняння необроблених підрахунків буде хибним. Відносна частота вирішує це, виражаючи кожен підрахунок як частку або відсоток від загальної кількості. Кредитна картка - 95 з 200 - це відносна частота 47,5%.
Кумулятивна частота йде далі. Вона показує накопичувальний підсумок при переході від категорії до категорії. Для впорядкованих даних, таких як діапазони балів іспиту, кумулятивна частота відповідає на питання: «який відсоток студентів набрав 70 або менше?» Ви просто додаєте частоти всіх категорій до цієї точки. Це особливо корисно, коли потрібно знайти медіани або перцентилі з групованих даних.
Разом ці три погляди на одні й ті самі дані (необроблена частота, відносна частота та кумулятивна частота) дають повну картину. Необроблені підрахунки показують фактичні числа, відносні частоти дозволяють порівняння між наборами даних, а кумулятивні частоти допомагають зрозуміти розподіл значень.
Таблиці частот для числових даних
Коли ваші дані числові та неперервні, як вік, дохід або результати тестів, ви не можете перелічити кожне унікальне значення, бо їх можуть бути сотні. Натомість ви групуєте значення в інтервали, звані класами. Наприклад, вік можна згрупувати як 18-25, 26-35, 36-45 тощо.
Вибір правильної кількості інтервалів має значення. Занадто мало - і ви втрачаєте деталізацію. Занадто багато - і таблиця стає такою ж хаотичною, як необроблені дані. Загальне правило - використовувати від 5 до 15 інтервалів для більшості наборів даних. Гістограма вище показує, як дані про вік виглядають при групуванні у шість інтервалів, роблячи форму розподілу зрозумілою з першого погляду.
Вчитель записує бали іспиту для 30 студентів: від 45 до 98. Вона створює таблицю частот з інтервалами по 10 балів (40-49, 50-59, 60-69, 70-79, 80-89, 90-99). Це показує, що більшість студентів набрали від 70 до 89, і лише двоє - нижче 50. Таблиця частот одразу виявляє, де групується клас і де знаходяться викиди, що було б важко побачити у необробленому списку з 30 чисел.
Перехресне табулювання: Дві змінні одночасно
Таблиця частот працює з однією змінною. Але що, якщо ви хочете дослідити зв'язок між двома категоріальними змінними? Тут на допомогу приходить перехресне табулювання (також зване таблицею сполученості або двовимірною таблицею). Воно створює сітку, де одна змінна визначає рядки, а інша - стовпці, з підрахунками в кожній клітинці.
Наприклад, припустимо, ви опитуєте працівників щодо задоволеності роботою (задоволений, нейтральний, незадоволений) і також записуєте їхній відділ (продажі, інженерія, підтримка). Перехресна таблиця показує, скільки працівників у кожному відділі потрапляє в кожну категорію задоволеності. Тепер ви бачите з першого погляду, чи в інженерії більше незадоволених працівників, ніж у продажах, або чи підтримка особливо задоволена.
Перехресні таблиці - початкова точка для багатьох статистичних тестів, включаючи тест хі-квадрат. Вони дозволяють візуально оцінити, чи пов'язані дві змінні, перш ніж проводити формальний аналіз. При читанні досліджень ви часто побачите перехресні таблиці з рядковими або стовпцевими відсотками для полегшення порівнянь.
Читання таблиць як професіонал
Таблиці частот та перехресні таблиці зустрічаються скрізь: у новинних статтях, медичних звітах, бізнес-панелях та наукових роботах. Ось практичні поради для їх ефективного читання. По-перше, завжди перевіряйте підсумки. Якщо таблиця показує відсотки, але не кількість, розмір вибірки може бути занадто малим для того, щоб відсотки були значущими (вислів «50% обрали варіант А» звучить вражаюче, поки не дізнаєтеся, що опитали лише 4 особи).
По-друге, зверніть увагу на те, як визначені категорії. Інтервали нерівної ширини в таблиці частот можуть спотворити ваше враження про дані. Інтервал «0-10» і інтервал «11-50» природно матимуть більше підрахунків у ширшому інтервалі, навіть якщо базова частота однакова.
По-третє, у перехресних таблицях визначте, які відсотки більш доречні для вашого питання: рядкові чи стовпцеві. Якщо хочете знати, яка частка кожного відділу задоволена, використовуйте рядкові відсотки. Якщо хочете знати, яка частка задоволених працівників припадає на кожен відділ, використовуйте стовпцеві відсотки. Неправильний вибір напрямку може призвести до хибних висновків.
Таблиці частот перетворюють необроблені дані у впорядковані підсумки, підраховуючи, як часто з'являється кожне значення або категорія. Відносна частота виражає підрахунки як частки для легкого порівняння, а кумулятивна частота відстежує накопичувальні підсумки. Перехресне табулювання розширює це на дві змінні одночасно, виявляючи закономірності у зв'язках між категоріями. Ці прості інструменти - перший крок майже в кожному аналізі даних та одна з найпрактичніших навичок для читання статистики у повсякденному житті.