Графіки та діаграми

Складність: Початковий Час читання: 10 хвилин

Навіщо візуалізувати дані?

Таблиця з тисячею чисел -- це хаос. Той самий набір даних у вигляді графіка -- ясна історія. Людський мозок обробляє візуальну інформацію у 60 000 разів швидше, ніж текст. Правильна діаграма може за секунду показати тренд, який ви шукали б у таблиці годинами.

12 Пн 19 Вт 8 Ср 25 Чт 15 Пт

Але кожен тип графіка має своє призначення. Використання невідповідного типу може не просто бути неефективним -- воно може ввести в оману.

Стовпчикова діаграма

Стовпчикова діаграма порівнює величини між категоріями. Кожна категорія -- окремий стовпчик, висота показує значення.

Приклад

Кількість голів команд УПЛ за перше коло сезону: Шахтар -- 32, Динамо -- 28, Дніпро-1 -- 21, Зоря -- 18, Ворскла -- 15. Стовпчикова діаграма миттєво показує лідера і відстань між командами. Кожна команда -- окремий стовпчик, висота -- голи.

Використовуйте стовпчикову діаграму, коли порівнюєте категорії: міста, бренди, команди, роки. Стовпчики можуть бути вертикальними або горизонтальними (горизонтальні зручніші, коли назви довгі).

Кругова діаграма

Кругова діаграма показує частки цілого. Весь "пиріг" -- 100%, кожен шматок -- частка категорії.

20 30 40 50 60 70 80
Приклад

Структура витрат середньої української родини: їжа -- 40%, комунальні -- 20%, транспорт -- 15%, одяг -- 10%, розваги -- 8%, інше -- 7%. Кругова діаграма миттєво показує, що їжа -- найбільша стаття витрат.

Обмеження: кругова діаграма погано працює з більш ніж 5-6 категоріями (шматки стають занадто малими) та коли частки схожі за розміром (важко порівнювати). У таких випадках краще стовпчикова.

Гістограма

Гістограма схожа на стовпчикову діаграму, але показує розподіл неперервних даних. Дані розбиваються на інтервали (біни), і висота кожного стовпця показує кількість значень у цьому інтервалі.

Приклад

Бали НМТ 500 абітурієнтів. Інтервали: 100-120, 120-140, 140-160, 160-180, 180-200. Гістограма покаже дзвоноподібну форму: найбільше студентів у середніх інтервалах, менше -- на краях. Це відразу показує розподіл без перегляду 500 окремих балів.

Ключова відмінність від стовпчикової діаграми: у гістограмі стовпці торкаються один одного, бо дані неперервні. У стовпчиковій -- між стовпцями є проміжки, бо категорії дискретні.

Лінійний графік

Лінійний графік показує зміни в часі. Вісь X -- час, вісь Y -- значення. Точки з'єднані лінією, що показує тренд.

0 7 14 21 28 35 0-10 10-20 20-30 30-40 40-50 50-60 60-70
Приклад

Курс долара до гривні за 12 місяців. Лінійний графік миттєво показує, коли курс зростав, коли падав, чи був тренд стабільним. Monobank саме так показує історію курсу в застосунку -- це інтуїтивно зрозуміло кожному.

Лінійні графіки ідеальні для: температури за тиждень, продажів за місяці, рівня безробіття за роки, рейтингу команди протягом сезону.

Діаграма розсіювання (скатерплот)

Діаграма розсіювання показує зв'язок між двома числовими змінними. Кожна точка -- одне спостереження з двома координатами.

Приклад

Площа квартири (м²) та ціна (тис. грн) для 50 квартир у Києві. Кожна квартира -- точка на графіку. Якщо точки утворюють лінію знизу вгору -- площа і ціна пов'язані позитивно (більша квартира = дорожча). Це те, що ми очікуємо побачити.

Коробкова діаграма (боксплот)

Коробкова діаграма компактно показує п'ять характеристик даних: мінімум, перший квартиль, медіану, третій квартиль та максимум. Вона особливо корисна для порівняння розподілів.

Приклад

Порівняння зарплат у трьох містах: Київ, Львів, Харків. Три коробкових діаграми поруч миттєво показують: де медіана вища, де більший розкид, де є екстремальні значення. Це ефективніше, ніж три окремі гістограми.

Поширені помилки у графіках

  • Зрізана вісь Y: Якщо вісь Y починається не з 0, невеликі різниці виглядають величезними. Стовпчики 98 і 100 виглядатимуть як подвоєння, якщо вісь починається з 97.
  • 3D-ефекти: 3D кругові діаграми спотворюють сприйняття розмірів. Уникайте їх.
  • Забагато інформації: Графік з 15 лініями нечитабельний. Краще кілька простих графіків.
Ключовий висновок

Кожен тип графіка має своє призначення: стовпчикові -- для порівняння категорій, кругові -- для часток цілого, гістограми -- для розподілу, лінійні -- для трендів у часі, розсіювання -- для зв'язків між змінними. Правильний вибір графіка робить дані зрозумілими; неправильний -- може ввести в оману.