Типи даних

Складність: Початковий Час читання: 10 хвилин

Чому типи даних мають значення?

Уявіть, що ви працюєте в Держстаті і збираєте інформацію про населення України. Ви записуєте ім'я, вік, стать, місто проживання, дохід та кількість дітей. Кожен з цих елементів -- це різний тип даних, і від типу залежить, які статистичні методи можна використовувати.

25 A 40 B 15 C 30 D 10 F

Це як інструменти в кухні: ви не ріжете хліб виделкою і не їсте суп ножем. Так само й у статистиці: правильний інструмент для правильного типу даних дає правильний результат.

Якісні (категоріальні) дані

Якісні дані описують властивості або категорії. Їх не можна змістовно додати чи відняти. Вони відповідають на запитання "який?" або "яка категорія?"

Приклад

Опитування на Rozetka: "Який бренд смартфона ви використовуєте?" Відповіді: Samsung, Apple, Xiaomi, інший. Це якісні дані -- ви не можете обчислити "середній бренд". Зате можете порахувати, який бренд обирають найчастіше (мода).

Інші приклади якісних даних: колір автомобіля, область проживання (Київська, Львівська, Одеська), група крові, факультет у виші, футбольна команда УПЛ.

Два підтипи якісних даних

Номінальні -- категорії без порядку. Прикладом є улюблена страва (борщ, вареники, шашлик) або стать. Немає "вищої" чи "нижчої" категорії.

Порядкові (ординальні) -- категорії з логічним порядком, але відстань між ними невідома. Наприклад, рейтинг на Monobank: 1 зірка, 2 зірки, 3 зірки. Ви знаєте, що 3 зірки краще за 1, але не можете сказати, що різниця між 1 і 2 зірками така сама, як між 2 і 3.

Кількісні (числові) дані

Кількісні дані -- це числа, з якими можна виконувати математичні операції. Вони відповідають на запитання "скільки?" або "яка величина?"

Приклад

Держстат збирає дані про середню зарплату по областях України. Київ -- 25 000 грн, Тернопіль -- 14 000 грн, Дніпро -- 18 000 грн. Це кількісні дані: ви можете обчислити середнє, порівняти різницю, побудувати графік.

Дискретні дані

Дискретні дані можна порахувати поштучно. Між сусідніми значеннями немає проміжних. Кількість голів у матчі УПЛ -- 0, 1, 2, 3... Не буває 2,5 голи. Кількість дітей у сім'ї, кількість замовлень на Rozetka за день, кількість студентів у групі -- все це дискретні дані.

Неперервні дані

Неперервні дані можуть набувати будь-якого значення в діапазоні, включно з дробовими. Температура повітря у Києві (22,3 градуси), зріст людини (175,4 см), точний час доставки замовлення Нової Пошти (2 години 17 хвилин 43 секунди) -- все це неперервні дані.

Приклад

Фермер у Вінницькій області зважує врожай пшениці. Одне поле дало 4,73 тонни з гектара, інше -- 5,12 тонни. Ці числа неперервні: вага може бути будь-якою. А кількість полів (3 поля) -- це дискретна величина: не буває 3,5 поля.

Структуровані та неструктуровані дані

Є ще один важливий поділ, який стає дедалі актуальнішим у сучасному світі.

Структуровані дані акуратно вкладаються в таблицю. Кожен рядок -- це спостереження, кожен стовпець -- змінна. База даних Monobank із транзакціями клієнтів (дата, сума, категорія, магазин) -- типовий приклад.

Неструктуровані дані не мають чіткого табличного формату. Відгуки покупців на Rozetka, фотографії в Instagram, аудіозаписи -- все це неструктуровані дані. Для їх аналізу потрібні спеціальні інструменти, часто із застосуванням штучного інтелекту.

Чому це важливо на практиці?

Тип даних визначає, що з ними можна робити:

  • Якісні дані: можна рахувати частоту, знаходити моду, будувати стовпчикові діаграми. Не можна обчислювати середнє.
  • Кількісні дані: можна обчислювати середнє, медіану, стандартне відхилення, будувати гістограми.
  • Дискретні: часто зображують стовпчиковими діаграмами.
  • Неперервні: зазвичай зображують гістограмами або лінійними графіками.
Приклад

Уявіть анкету абітурієнта перед НМТ. "Область проживання" -- якісна номінальна. "Оцінка з математики (початковий, середній, достатній, високий)" -- якісна порядкова. "Кількість пробних тестів" -- кількісна дискретна. "Час виконання пробного тесту в хвилинах" -- кількісна неперервна. Кожне поле потребує різних статистичних методів.

Поширена помилка

Номери телефонів, поштові індекси та номери маршруток виглядають як числа, але насправді це якісні (категоріальні) дані. Обчислити "середній номер телефону" безглуздо. Правило просте: якщо додавання або віднімання не має сенсу -- дані якісні, навіть якщо записані цифрами.

Ключовий висновок

Дані бувають якісні (категорії, які не можна змістовно додавати) та кількісні (числа, з якими можна працювати математично). Кількісні діляться на дискретні (цілі, рахункові) та неперервні (будь-яке значення в діапазоні). Визначення типу даних -- перший крок будь-якого статистичного аналізу, бо від нього залежить вибір правильного методу.