Графики и диаграммы

Сложность: Начальный Время чтения: 10 минут

Зачем визуализировать данные

Таблица из 500 чисел — это тяжело для восприятия. Но превратите эти числа в график — и закономерности станут видны мгновенно. Вы сможете заметить тенденции, сравнить группы и обнаружить вещи, невидимые в электронной таблице. Выбор правильного графика для ваших данных — навык, который делает вас лучшим аналитиком и коммуникатором.

12 Пн 19 Вт 8 Ср 25 Чт 15 Пт

В этом уроке мы разберём пять самых распространённых типов графиков, когда использовать каждый и каких ошибок избегать.

Столбчатая диаграмма: сравнение категорий

Столбчатая диаграмма использует прямоугольные столбцы для сравнения значений по разным категориям. Каждый столбец представляет группу, а его длина или высота показывает значение.

Пример

Опрос ВЦИОМ спрашивает 100 человек об их любимом виде спорта:

  Футбол   |████████████████████  38
  Хоккей   |██████████████  26
  Теннис   |████████  16
  Биатлон  |██████  12
  Другое   |████  8
           +--------------------
            0   10   20   30   40
    

С первого взгляда видно, что футбол — безусловный фаворит, а биатлон и другие виды спорта отстают.

Используйте столбчатые диаграммы, когда: хотите сравнить значения по категориям — продажи по регионам, голоса за кандидатов, количество учеников по предметам, оценки покупателей для разных товаров.

Не используйте, когда: категорий слишком много (больше 10–12 столбцов трудно читать) или когда нужно показать изменение во времени (линейный график обычно подходит лучше).

Горизонтальные и вертикальные столбцы

Вертикальные столбцы (колонки) — самый распространённый вариант. Горизонтальные лучше работают, когда названия категорий длинные — например, при сравнении вариантов ответа: «Полностью согласен», «Скорее согласен» и так далее.

Круговая диаграмма: части целого

Круговая диаграмма — это круг, разделённый на секторы, где каждый сектор представляет долю от общего. Чем больше сектор, тем больше доля этой категории.

20 30 40 50 60 70 80
Пример

Как семья распределяет месячный бюджет:

     Жильё (ипотека) .... 35%  ████████
     Еда ................ 25%  ██████
     Транспорт .......... 15%  ████
     Коммуналка ......... 10%  ███
     Накопления ......... 10%  ███
     Прочее ............. 5%   ██
                         ----
                         100%
    

Сразу видно, что жильё забирает больше трети бюджета.

Используйте круговые диаграммы, когда: хотите показать, как целое делится на части, и категорий немного (идеально 5–7). Бюджетные распределения, доли рынка, результаты голосований с несколькими вариантами — всё это подходит.

Не используйте, когда: категорий много, когда секторы почти одинакового размера (разницу трудно увидеть) или когда нужно точное сравнение значений. Столбчатые диаграммы часто нагляднее для сравнений.

Гистограмма: форма данных

Гистограмма похожа на столбчатую диаграмму, но служит другой цели. Вместо сравнения категорий она показывает, как часто значения попадают в разные диапазоны (так называемые «интервалы»). Столбцы касаются друг друга, потому что диапазоны непрерывны.

Пример

Баллы ЕГЭ по математике 50 выпускников, сгруппированные по диапазонам:

  Частота
      15 |         ████
      12 |      ████████
       9 |   ████████████
       6 |████████████████
       3 |████████████████████
       0 +---+---+---+---+---+
         30  45  60  75  90 100
            Диапазоны баллов
    

Эта гистограмма показывает, что большинство учеников набрали от 60 до 90 баллов, а крайние значения встречаются реже. Данные примерно колоколообразной формы.

Используйте гистограммы, когда: хотите увидеть распределение или форму числовых данных — возраст покупателей, время ответа на заявку, показатели давления, уровни дохода. Гистограммы показывают, симметричны ли данные, скошены ли они или имеют несколько пиков.

Не используйте, когда: данные категориальные (используйте столбчатую диаграмму) или точек данных очень мало (форма не будет информативной).

Гистограмма и столбчатая диаграмма: в чём разница?

Столбчатые диаграммы сравнивают отдельные категории (футбол vs хоккей). Гистограммы показывают непрерывные данные, сгруппированные по диапазонам (30–44 vs 45–59). В гистограмме порядок важен, и столбцы соприкасаются. В столбчатой диаграмме столбцы можно переставлять без потери смысла.

Линейный график: изменения во времени

Линейный график соединяет точки данных линией, что позволяет легко увидеть тенденции, рост и падения с течением времени.

0 7 14 21 28 35 0-10 10-20 20-30 30-40 40-50 50-60 60-70
Пример

Ежемесячные продажи небольшого интернет-магазина на Ozon (тысячи рублей) за 6 месяцев:

  Продажи (тыс.)
     250 |                  *
     200 |            *--*
     150 |      *--*
     100 |   *
      50 |
       0 +--+--+--+--+--+--+
         Янв Фев Мар Апр Май Июн
    

Тенденция к росту очевидна: продажи стабильно растут каждый месяц.

Используйте линейные графики, когда: хотите отследить, как что-то меняется во времени — курсы акций, посещаемость сайта, вес пациента за несколько месяцев, суточные температуры. Линейные графики — лучший выбор для временных рядов.

Не используйте, когда: точки данных не связаны в осмысленном порядке. Соединение случайных категорий линией создаёт иллюзию тенденции, которой не существует.

Несколько линий

Можно нанести несколько линий на один график для сравнения тенденций. Например, продажи трёх товаров на одном графике позволяют увидеть, какой из них растёт быстрее. Главное — чтобы линии визуально отличались (разные цвета или стили), чтобы читатель мог их различить.

Диаграмма рассеяния: связь между двумя переменными

Диаграмма рассеяния ставит точку для каждого наблюдения, используя два измерения — одно по горизонтальной оси, другое по вертикальной. Это позволяет увидеть, связаны ли две переменные.

Пример

Часы подготовки к ЕГЭ vs балл для 10 учеников:

  Балл
    95 |                     *
    85 |                *
    80 |           *  *
    75 |        *  *
    70 |     *
    65 |  *  *
    55 | *
       +--+--+--+--+--+--+--+
        10 20 30 40 50 60 70 80
            Часы подготовки
    

Точки идут вверх слева направо, что указывает: больше часов подготовки связано с более высоким баллом. Это положительная связь.

Используйте диаграммы рассеяния, когда: хотите исследовать, связаны ли две числовые переменные — физическая активность и пульс, рекламный бюджет и выручка, возраст и давление.

Не используйте, когда: одна из переменных категориальная (используйте столбчатую диаграмму или сгруппированное сравнение).

Закономерности в диаграммах рассеяния

  • Точки идут вверх: положительная связь (одно растёт — другое тоже)
  • Точки идут вниз: отрицательная связь (одно растёт — другое снижается)
  • Точки разбросаны хаотично: связи мало или нет
  • Точки образуют кривую: связь может быть нелинейной — нужны более продвинутые методы

Как выбрать правильный график: краткий путеводитель

  • Сравнить категории? → Столбчатая диаграмма
  • Показать части целого? → Круговая диаграмма
  • Показать форму/распределение данных? → Гистограмма
  • Отследить изменения во времени? → Линейный график
  • Исследовать связь между двумя числами? → Диаграмма рассеяния

Типичные ошибки

Обрезанные оси: Если столбчатая диаграмма начинается не с 0, а с 50, маленькая разница может выглядеть гигантской. Всегда проверяйте, откуда начинается ось.

3D-эффекты: Добавление трёхмерного эффекта к круговым или столбчатым диаграммам может выглядеть эффектно, но искажает визуальные пропорции и затрудняет точное чтение. Плоские графики почти всегда нагляднее.

Слишком много данных на одном графике: Если на вашем графике 15 пересекающихся линий или 20 крошечных секторов — он не информирует, а сбивает с толку. Упростите или разбейте на несколько графиков.

Ключевой вывод

Каждый тип графика лучше всего справляется с определённой задачей. Столбчатые диаграммы сравнивают категории. Круговые показывают части целого. Гистограммы раскрывают форму числовых данных. Линейные графики отслеживают тенденции во времени. Диаграммы рассеяния выявляют связи между переменными. Правильный выбор графика делает ваши данные ясными и убедительными; неправильный — может ввести аудиторию в заблуждение, даже непреднамеренно.