Типы данных

Сложность: Начальный Время чтения: 10 минут

Не все данные одинаковы

Прежде чем что-либо анализировать, нужно понять, с какими данными вы работаете. Как молотком не закрутишь шуруп, так и разные типы данных требуют разных подходов. Ошибётесь — получите неверные результаты. Разберётесь — и дальше всё пойдёт гораздо легче.

25 A 40 B 15 C 30 D 10 F

В этом уроке мы разберём основные типы данных, с которыми вы столкнётесь. Не пытайтесь запомнить всё сразу — главное научиться узнавать эти типы в реальной жизни.

Качественные данные (категориальные)

Качественные данные описывают свойства и характеристики. Они отвечают на вопросы «какой?» или «к какой категории относится?». С качественными данными нельзя проводить осмысленные арифметические операции.

Представьте качественные данные как ярлыки. Они что-то сообщают о человеке, месте или предмете, но сложить их или найти среднее невозможно.

Пример

Примеры качественных данных:

  • Любимый цвет: Красный, синий, зелёный. Можно посчитать, сколько человек выбрали каждый цвет, но «красный + синий» не имеет смысла.
  • Вид транспорта до работы: Метро, автобус, машина, велосипед. Это категории, а не числа.
  • Отзывы клиентов: «Отличный сервис», «долго ждали», «приветливый персонал». Это описания, а не измерения.
  • Город проживания: Москва, Петербург, Казань, Новосибирск. Просто названия мест.

С качественными данными чаще всего считают, как часто встречается каждая категория. Например, из 30 сотрудников 12 добираются на метро, 8 на автобусе, 7 на машине и 3 на велосипеде. Подсчёт полезен, но сами категории — не числа, и средний вид транспорта вычислить нельзя.

Количественные данные (числовые)

Количественные данные — это числа, которые обозначают объёмы или измерения. Они отвечают на вопросы «сколько?» или «какой объём?». Количественные данные можно складывать, вычитать и находить среднее.

Пример

Примеры количественных данных:

  • Рост: 170 см, 182 см. Это измерения, которые можно сравнивать и усреднять.
  • Температура: +22 градуса, −5 градусов. Измерения на шкале.
  • Количество братьев и сестёр: 0, 1, 2, 3. Можно вычислить, что в среднем у учеников класса 1,3 брата или сестры.
  • Расходы на продукты в неделю: 3500, 5200, 7800 рублей. Суммы, которые можно складывать и усреднять.

Количественные данные делятся на два важных подтипа: дискретные и непрерывные.

Дискретные данные

Дискретные данные принимают только отдельные, конкретные значения. Обычно это целые числа, полученные путём подсчёта. Нельзя иметь полчеловека или 2,7 ребёнка.

Простой тест: если можно считать поштучно — скорее всего, это дискретные данные.

Пример

Примеры дискретных данных:

  • Количество учеников в классе: 25, 26, 27, но никогда 25,5.
  • Голы в футбольном матче: 0, 1, 2, 3. Команда не может забить 1,3 гола.
  • Количество приложений на телефоне: 42, 43, 44. Только целые числа.
  • Число пассажиров в вагоне метро: Вы считаете их по одному.

Непрерывные данные

Непрерывные данные могут принимать любое значение в пределах диапазона, включая дроби и десятичные. Непрерывные данные получают путём измерения, а не подсчёта.

Простой тест: если между любыми двумя значениями всегда можно представить третье — данные непрерывные. Между 5,1 и 5,2 есть 5,15. Между 5,15 и 5,16 есть 5,155. И так далее бесконечно.

Пример

Примеры непрерывных данных:

  • Вес: 68,3 кг или 68,37 кг. Точность зависит от весов.
  • Время забега на 100 метров: 10,23 секунды, 10,234 секунды. Время можно измерить с невероятной точностью.
  • Температура воздуха: 22,4 градуса, 22,41 градуса. Ограничение только в точности термометра.
  • Объём воды в стакане: 200,5 мл, 200,53 мл. Вода не приходит фиксированными порциями.

Почему различие дискретных и непрерывных данных важно?

Потому что тип данных определяет, какие графики и расчёты уместны. Столбчатые диаграммы хорошо подходят для дискретных данных (отдельный столбик для каждого значения). Гистограммы и линейные графики лучше для непрерывных данных (значения плавно перетекают). Неправильный выбор графика или метода может привести к ошибочным выводам.

Пример

Поход в магазин и типы данных. Вы отслеживаете свои покупки. Количество товаров — дискретные данные: 8 штук, 12 штук, 15 штук. Общая сумма чека — непрерывные данные: 1247,50 руб., 3891,20 руб. Название магазина — качественные данные: «Пятёрочка», «Магнит», «Перекрёсток». Три характеристики одного похода в магазин, но каждая — свой тип данных.

Структурированные и неструктурированные данные

Есть ещё одно важное различие, особенно в современном мире, где данные поступают из множества источников.

Структурированные данные

Структурированные данные аккуратно организованы, обычно в строках и столбцах, как в таблице Excel. У каждого элемента есть своё место. Большая часть классической статистики работает именно с такими данными.

  • Таблица с фамилиями сотрудников, их возрастом и зарплатой
  • Журнал измерений артериального давления пациентов
  • База данных с ценами товаров и количеством на складе

Неструктурированные данные

Неструктурированные данные не укладываются в строки и столбцы. Они разнородны, неупорядочены и часто требуют специальных инструментов для анализа.

  • Отзывы покупателей в свободной форме («Еда отличная, но обслуживание долгое»)
  • Фотографии в социальных сетях
  • Записи звонков в колл-центр
  • Электронные письма, посты в Telegram-каналах и комментарии на форумах

Огромная доля мировых данных — неструктурированные. Для анализа их часто приходится сначала переводить в структурированную форму. Например, вы можете прочитать 500 отзывов и пометить каждый как «положительный», «отрицательный» или «нейтральный». Теперь неструктурированный текст стал категориями, которые можно считать и сравнивать.

Пример

Отзывы о ресторане. Ресторан получил 200 отзывов на Яндекс Картах. Текст каждого отзыва — неструктурированные данные. Но если кто-то прочитает каждый отзыв и запишет оценку (от 1 до 5), упоминается ли качество еды (да/нет) и дату отзыва — эти записи уже будут структурированными данными. Один и тот же источник даёт оба типа в зависимости от того, как вы фиксируете информацию.

Собираем всё вместе

Рассмотрим реальную ситуацию. Представьте, что вы управляете небольшим фитнес-клубом и хотите лучше понять своих клиентов. Вы собираете следующие данные:

  • Тип абонемента (базовый, стандарт, премиум) — качественные данные
  • Возраст (34, 56, 22) — количественные, дискретные (полные годы)
  • Вес (75,2 кг, 64,8 кг) — количественные, непрерывные
  • Количество посещений в месяц (8, 12, 4) — количественные, дискретные
  • Комментарии об удовлетворённости («Люблю утренние занятия!») — неструктурированные данные
  • Оценка удовлетворённости (от 1 до 10) — количественные, дискретные

Прежде чем начинать анализ, определение типа каждого показателя помогает выбрать правильный инструмент. Для типа абонемента подойдёт круговая или столбчатая диаграмма. Для посещений — среднее значение. Комментарии придётся сначала прочитать и классифицировать, прежде чем их можно будет учесть количественно.

Краткий справочник

Вот простой способ классифицировать любые данные:

  1. Это число или ярлык? Ярлыки — качественные данные. Числа — количественные.
  2. Если число — оно может быть любым или только определённым? Конкретные целые значения — дискретные. Любое значение в диапазоне — непрерывные.
  3. Данные организованы в таблицу или в свободной форме? Таблицы — структурированные. Тексты, фото, аудио — неструктурированные.
Ключевой вывод

Данные бывают разных типов, и умение их различать — первый шаг в любом анализе. Качественные данные описывают категории и ярлыки. Количественные — числа и измерения, и они могут быть дискретными (считаемые, отдельные значения) или непрерывными (измеряемые, любое значение в диапазоне). Структурированные данные аккуратно укладываются в таблицы; неструктурированные — существуют в свободной форме. Понимание типа данных подсказывает, какие инструменты и методы применять дальше.