Не все данные одинаковы
Прежде чем что-либо анализировать, нужно понять, с какими данными вы работаете. Как молотком не закрутишь шуруп, так и разные типы данных требуют разных подходов. Ошибётесь — получите неверные результаты. Разберётесь — и дальше всё пойдёт гораздо легче.
В этом уроке мы разберём основные типы данных, с которыми вы столкнётесь. Не пытайтесь запомнить всё сразу — главное научиться узнавать эти типы в реальной жизни.
Качественные данные (категориальные)
Качественные данные описывают свойства и характеристики. Они отвечают на вопросы «какой?» или «к какой категории относится?». С качественными данными нельзя проводить осмысленные арифметические операции.
Представьте качественные данные как ярлыки. Они что-то сообщают о человеке, месте или предмете, но сложить их или найти среднее невозможно.
Примеры качественных данных:
- Любимый цвет: Красный, синий, зелёный. Можно посчитать, сколько человек выбрали каждый цвет, но «красный + синий» не имеет смысла.
- Вид транспорта до работы: Метро, автобус, машина, велосипед. Это категории, а не числа.
- Отзывы клиентов: «Отличный сервис», «долго ждали», «приветливый персонал». Это описания, а не измерения.
- Город проживания: Москва, Петербург, Казань, Новосибирск. Просто названия мест.
С качественными данными чаще всего считают, как часто встречается каждая категория. Например, из 30 сотрудников 12 добираются на метро, 8 на автобусе, 7 на машине и 3 на велосипеде. Подсчёт полезен, но сами категории — не числа, и средний вид транспорта вычислить нельзя.
Количественные данные (числовые)
Количественные данные — это числа, которые обозначают объёмы или измерения. Они отвечают на вопросы «сколько?» или «какой объём?». Количественные данные можно складывать, вычитать и находить среднее.
Примеры количественных данных:
- Рост: 170 см, 182 см. Это измерения, которые можно сравнивать и усреднять.
- Температура: +22 градуса, −5 градусов. Измерения на шкале.
- Количество братьев и сестёр: 0, 1, 2, 3. Можно вычислить, что в среднем у учеников класса 1,3 брата или сестры.
- Расходы на продукты в неделю: 3500, 5200, 7800 рублей. Суммы, которые можно складывать и усреднять.
Количественные данные делятся на два важных подтипа: дискретные и непрерывные.
Дискретные данные
Дискретные данные принимают только отдельные, конкретные значения. Обычно это целые числа, полученные путём подсчёта. Нельзя иметь полчеловека или 2,7 ребёнка.
Простой тест: если можно считать поштучно — скорее всего, это дискретные данные.
Примеры дискретных данных:
- Количество учеников в классе: 25, 26, 27, но никогда 25,5.
- Голы в футбольном матче: 0, 1, 2, 3. Команда не может забить 1,3 гола.
- Количество приложений на телефоне: 42, 43, 44. Только целые числа.
- Число пассажиров в вагоне метро: Вы считаете их по одному.
Непрерывные данные
Непрерывные данные могут принимать любое значение в пределах диапазона, включая дроби и десятичные. Непрерывные данные получают путём измерения, а не подсчёта.
Простой тест: если между любыми двумя значениями всегда можно представить третье — данные непрерывные. Между 5,1 и 5,2 есть 5,15. Между 5,15 и 5,16 есть 5,155. И так далее бесконечно.
Примеры непрерывных данных:
- Вес: 68,3 кг или 68,37 кг. Точность зависит от весов.
- Время забега на 100 метров: 10,23 секунды, 10,234 секунды. Время можно измерить с невероятной точностью.
- Температура воздуха: 22,4 градуса, 22,41 градуса. Ограничение только в точности термометра.
- Объём воды в стакане: 200,5 мл, 200,53 мл. Вода не приходит фиксированными порциями.
Почему различие дискретных и непрерывных данных важно?
Потому что тип данных определяет, какие графики и расчёты уместны. Столбчатые диаграммы хорошо подходят для дискретных данных (отдельный столбик для каждого значения). Гистограммы и линейные графики лучше для непрерывных данных (значения плавно перетекают). Неправильный выбор графика или метода может привести к ошибочным выводам.
Поход в магазин и типы данных. Вы отслеживаете свои покупки. Количество товаров — дискретные данные: 8 штук, 12 штук, 15 штук. Общая сумма чека — непрерывные данные: 1247,50 руб., 3891,20 руб. Название магазина — качественные данные: «Пятёрочка», «Магнит», «Перекрёсток». Три характеристики одного похода в магазин, но каждая — свой тип данных.
Структурированные и неструктурированные данные
Есть ещё одно важное различие, особенно в современном мире, где данные поступают из множества источников.
Структурированные данные
Структурированные данные аккуратно организованы, обычно в строках и столбцах, как в таблице Excel. У каждого элемента есть своё место. Большая часть классической статистики работает именно с такими данными.
- Таблица с фамилиями сотрудников, их возрастом и зарплатой
- Журнал измерений артериального давления пациентов
- База данных с ценами товаров и количеством на складе
Неструктурированные данные
Неструктурированные данные не укладываются в строки и столбцы. Они разнородны, неупорядочены и часто требуют специальных инструментов для анализа.
- Отзывы покупателей в свободной форме («Еда отличная, но обслуживание долгое»)
- Фотографии в социальных сетях
- Записи звонков в колл-центр
- Электронные письма, посты в Telegram-каналах и комментарии на форумах
Огромная доля мировых данных — неструктурированные. Для анализа их часто приходится сначала переводить в структурированную форму. Например, вы можете прочитать 500 отзывов и пометить каждый как «положительный», «отрицательный» или «нейтральный». Теперь неструктурированный текст стал категориями, которые можно считать и сравнивать.
Отзывы о ресторане. Ресторан получил 200 отзывов на Яндекс Картах. Текст каждого отзыва — неструктурированные данные. Но если кто-то прочитает каждый отзыв и запишет оценку (от 1 до 5), упоминается ли качество еды (да/нет) и дату отзыва — эти записи уже будут структурированными данными. Один и тот же источник даёт оба типа в зависимости от того, как вы фиксируете информацию.
Собираем всё вместе
Рассмотрим реальную ситуацию. Представьте, что вы управляете небольшим фитнес-клубом и хотите лучше понять своих клиентов. Вы собираете следующие данные:
- Тип абонемента (базовый, стандарт, премиум) — качественные данные
- Возраст (34, 56, 22) — количественные, дискретные (полные годы)
- Вес (75,2 кг, 64,8 кг) — количественные, непрерывные
- Количество посещений в месяц (8, 12, 4) — количественные, дискретные
- Комментарии об удовлетворённости («Люблю утренние занятия!») — неструктурированные данные
- Оценка удовлетворённости (от 1 до 10) — количественные, дискретные
Прежде чем начинать анализ, определение типа каждого показателя помогает выбрать правильный инструмент. Для типа абонемента подойдёт круговая или столбчатая диаграмма. Для посещений — среднее значение. Комментарии придётся сначала прочитать и классифицировать, прежде чем их можно будет учесть количественно.
Краткий справочник
Вот простой способ классифицировать любые данные:
- Это число или ярлык? Ярлыки — качественные данные. Числа — количественные.
- Если число — оно может быть любым или только определённым? Конкретные целые значения — дискретные. Любое значение в диапазоне — непрерывные.
- Данные организованы в таблицу или в свободной форме? Таблицы — структурированные. Тексты, фото, аудио — неструктурированные.
Данные бывают разных типов, и умение их различать — первый шаг в любом анализе. Качественные данные описывают категории и ярлыки. Количественные — числа и измерения, и они могут быть дискретными (считаемые, отдельные значения) или непрерывными (измеряемые, любое значение в диапазоне). Структурированные данные аккуратно укладываются в таблицы; неструктурированные — существуют в свободной форме. Понимание типа данных подсказывает, какие инструменты и методы применять дальше.