От сырых данных к организованным подсчётам
Когда вы собираете данные, они часто начинаются как беспорядочный список. Представьте, что вы опросили 200 клиентов о предпочитаемом способе оплаты и получили длинный столбец ответов: кредитная карта, наличные, мобильный платёж, кредитная карта, кредитная карта, наличные и так далее. Таблица частот превращает этот хаос в чёткую сводку, подсчитывая, сколько раз встречается каждое значение.
Базовая таблица частот имеет два столбца: категория и подсчёт (также называемый частотой). Для примера с оплатой вы можете получить: кредитная карта: 95, наличные: 52, мобильный платёж: 38, дебетовая карта: 15. Теперь вы мгновенно видите, какой способ оплаты доминирует, а какой встречается редко. Этот простой акт подсчёта -- основа описательной статистики.
Относительная и кумулятивная частота
Сырые подсчёты полезны, но их трудно сравнивать между наборами данных разного размера. Если один магазин опросил 200 человек, а другой -- 1000, сравнение сырых подсчётов обманчиво. Относительная частота решает это, выражая каждый подсчёт как долю или процент от общего. Кредитная карта с 95 из 200 -- это относительная частота 47.5%.
Кумулятивная частота идёт ещё дальше. Она показывает накопительный итог по мере продвижения по категориям. Для упорядоченных данных, таких как диапазоны оценок за экзамен, кумулятивная частота отвечает на вопросы вроде «какой процент студентов набрал 70 или ниже?» Просто складываете частоты всех категорий до этой точки. Это особенно полезно для нахождения медиан или перцентилей из сгруппированных данных.
Вместе эти три представления одних и тех же данных (сырая частота, относительная частота и кумулятивная частота) дают полную картину. Сырые подсчёты показывают фактические числа, относительные частоты позволяют сравнивать наборы данных, а кумулятивные частоты помогают понять распределение значений.
Таблицы частот для числовых данных
Когда ваши данные числовые и непрерывные, как возраст, доходы или результаты тестов, нельзя перечислить каждое уникальное значение, потому что их может быть сотни. Вместо этого значения группируются в интервалы, называемые классами или корзинами. Например, возраст может быть сгруппирован как 18-25, 26-35, 36-45 и так далее.
Выбор правильного количества классов важен. Слишком мало -- теряете детали. Слишком много -- таблица становится такой же хаотичной, как сырые данные. Общее правило -- использовать от 5 до 15 классов для большинства наборов данных. Гистограмма выше показывает, как выглядят возрастные данные при группировке в шесть классов, делая форму распределения видимой с первого взгляда.
Учительница записывает оценки за экзамен 30 студентов: от 45 до 98. Она создаёт таблицу частот с классами по 10 баллов (40-49, 50-59, 60-69, 70-79, 80-89, 90-99). Это показывает, что большинство студентов набрали от 70 до 89, и только два студента -- ниже 50. Таблица частот мгновенно выявляет, где концентрируется класс и где находятся выбросы, что было бы трудно увидеть в сыром списке из 30 чисел.
Перекрёстная таблица: две переменные одновременно
Таблица частот работает с одной переменной. Но что, если вы хотите изучить связь между двумя категориальными переменными? Для этого существует перекрёстная таблица (также называемая таблицей сопряжённости или двумерной таблицей). Она создаёт сетку, где одна переменная определяет строки, а другая -- столбцы, с подсчётами в каждой ячейке.
Например, вы опрашиваете сотрудников об удовлетворённости работой (доволен, нейтрально, недоволен) и также записываете их отдел (продажи, инженерный, поддержка). Перекрёстная таблица показывает, сколько сотрудников каждого отдела попадают в каждую категорию удовлетворённости. Теперь вы видите с первого взгляда, есть ли в инженерном отделе больше недовольных сотрудников, чем в продажах, или особенно ли счастлив отдел поддержки.
Перекрёстные таблицы -- отправная точка для многих статистических тестов, включая тест хи-квадрат. Они позволяют визуально оценить, связаны ли две переменные, до проведения формального анализа. В исследованиях вы часто увидите перекрёстные таблицы, представленные с процентами по строкам или столбцам для облегчения сравнений.
Как профессионально читать таблицы
Таблицы частот и перекрёстные таблицы встречаются повсюду: в новостных статьях, медицинских отчётах, бизнес-панелях и научных статьях. Вот практические советы по их чтению. Во-первых, всегда проверяйте итоги. Если таблица показывает проценты, но не исходные подсчёты, размер выборки может быть слишком мал для осмысленности процентов (фраза «50% предпочли вариант A» звучит впечатляюще, пока не узнаешь, что опрошено всего 4 человека).
Во-вторых, обратите внимание на то, как определены категории. Классы неравной ширины в таблице частот могут исказить впечатление о данных. Класс «0-10» и класс «11-50» естественно будет содержать больше подсчётов в более широком классе, даже если базовая частота одинакова.
В-третьих, в перекрёстных таблицах решите, какие проценты -- по строкам или столбцам -- более уместны для вашего вопроса. Если хотите знать, какая доля каждого отдела довольна, используйте проценты по строкам. Если хотите знать, какая доля довольных сотрудников из каждого отдела -- проценты по столбцам. Выбор неправильного направления может привести к неверным выводам.
Таблицы частот превращают сырые данные в организованные сводки, подсчитывая, как часто встречается каждое значение или категория. Относительная частота выражает подсчёты как доли для лёгкого сравнения, а кумулятивная частота отслеживает накопительные итоги. Перекрёстная таблица расширяет это на две переменные одновременно, выявляя паттерны в связях между категориями. Эти простые инструменты -- первый шаг почти в каждом анализе данных и один из самых практичных навыков для чтения статистики в повседневной жизни.