Размах и дисперсия

Сложность: Начальный Время чтения: 10 минут

Почему среднего недостаточно

Представьте два города, в которых средняя дневная температура — 20°C. Кажется, что погода у них похожая? Но что если в городе А температура колеблется от 18°C до 22°C весь год, а в городе Б — от −15°C зимой до +40°C летом? Среднее одинаковое, а ощущения от жизни — совершенно разные.

10 12 14 16 18 20 15.0

Вот почему нам нужно измерять разброс — насколько значения в наборе данных отличаются друг от друга. Два самых важных инструмента для измерения разброса — размах и дисперсия.

Размах: самая простая мера разброса

Размах — простейший показатель разброса. Берёте наибольшее значение, вычитаете наименьшее — и это ваш размах.

Размах = Наибольшее значение − Наименьшее значение

Пример

Хоккеист ЦСКА забивает за 5 матчей: 0, 1, 2, 3, 1 шайбу.

Максимум: 3. Минимум: 0.

Размах = 3 − 0 = 3 шайбы

Результативность игрока варьировалась на 3 шайбы от худшего к лучшему матчу.

Размах даёт быстрое представление, но у него серьёзное ограничение: он смотрит только на два крайних значения и игнорирует всё, что между ними.

Пример

Рассмотрим баллы двух учеников на 5 контрольных:

Ученик А: 60, 80, 82, 83, 100 → Размах = 40

Ученик Б: 60, 61, 62, 63, 100 → Размах = 40

У обоих размах одинаковый — 40, но у ученика А баллы сгруппированы ближе к середине, а у ученика Б — сосредоточены внизу с одним высоким выбросом. Размах не может показать эту разницу.

Когда размах полезен

Несмотря на ограничения, размах удобен для быстрой проверки. Врач, отслеживающий давление пациента за неделю, может сначала отметить размах: «Ваше систолическое давление колебалось от 118 до 142». Это сразу даёт полезную информацию.

Дисперсия: более умная мера разброса

Дисперсия рассматривает каждое значение в данных и спрашивает: как далеко каждое из них от среднего? Затем все эти расстояния объединяются в одно число. Низкая дисперсия означает, что значения группируются близко к среднему. Высокая — что они разбросаны далеко.

Вычисление дисперсии шаг за шагом

Разберём на простом примере, чтобы идея стала ясной.

Пример

Месячные зарплаты 4 сотрудников небольшого магазина: 30 000 · 35 000 · 40 000 · 35 000 рублей

Шаг 1 — Найдём среднее:
(30 000 + 35 000 + 40 000 + 35 000) ÷ 4 = 35 000 руб.

Шаг 2 — Найдём расстояние каждого значения от среднего:

  • 30 000 − 35 000 = −5 000
  • 35 000 − 35 000 = 0
  • 40 000 − 35 000 = +5 000
  • 35 000 − 35 000 = 0

Шаг 3 — Возведём каждое расстояние в квадрат (чтобы убрать отрицательные знаки и подчеркнуть большие отклонения):

  • (−5 000)² = 25 000 000
  • (0)² = 0
  • (5 000)² = 25 000 000
  • (0)² = 0

Шаг 4 — Найдём среднее этих квадратов:
(25 000 000 + 0 + 25 000 000 + 0) ÷ 4 = 12 500 000

Дисперсия равна 12 500 000 (в «квадратных рублях», что звучит немного странно — мы разберёмся с этим в следующем уроке о стандартном отклонении).

Зачем возводить расстояния в квадрат?

Этот вопрос задают многие начинающие, и он отличный. Если просто сложить расстояния без возведения в квадрат, положительные и отрицательные значения взаимно уничтожатся и вы каждый раз получите ноль. Возведение в квадрат делает все значения положительными и придаёт больший вес числам, далёким от среднего.

Дисперсия генеральной совокупности и выборочная дисперсия

Вы можете встретить две немного разные формулы дисперсии. Разница невелика, но стоит о ней знать.

Если ваши данные включают всех без исключения членов группы, которая вас интересует (например, всех учеников в классе), делите на общее количество. Это дисперсия генеральной совокупности.

Если ваши данные — выборка, меньшая группа, выбранная для представления большей (например, 100 опрошенных покупателей из тысяч), делите на количество минус один. Это выборочная дисперсия, и маленькая поправка помогает сделать оценку более точной.

Пример

Вы опросили 5 человек, сколько чашек чая они пьют в день: 1, 2, 3, 2, 2. Среднее — 2.

Квадраты отклонений от среднего: 1, 0, 1, 0, 0

Дисперсия совокупности (если эти 5 человек — все, кто вас интересует): (1+0+1+0+0) ÷ 5 = 0,4

Выборочная дисперсия (если эти 5 представляют большую группу): (1+0+1+0+0) ÷ 4 = 0,5

Разница здесь небольшая, и она становится ещё меньше по мере роста выборки.

Почему разброс важен в реальной жизни

Погода и планирование поездок

Если вы собираете чемодан и средняя температура в месте назначения — 22°C, вы можете упаковать только лёгкую одежду. Но если дисперсия высокая, температура может колебаться от 10°C ночью до 34°C днём. Вам понадобятся слои. Одного среднего недостаточно для подготовки.

Переговоры о зарплате

В вакансии на hh.ru указано, что средняя зарплата на эту позицию — 80 000 рублей. Но каков разброс? Если диапазон от 75 000 до 85 000, зарплаты плотно сгруппированы и вы знаете, чего ожидать. Если от 40 000 до 150 000 — реальная зарплата сильно зависит от опыта, города и переговоров. Разброс меняет подход к разговору.

Стабильность в спорте

Два футболиста «Зенита» забивают в среднем по 1 голу за матч за сезон. Игрок А забивает 0 или 1 в большинстве матчей — очень стабильно. Игрок Б не забивает во многих играх, но иногда забивает 4 или 5 — высокая дисперсия. Тренер, выбирая между ними, может предпочесть игрока А за надёжность или игрока Б для решающего матча, где нужен яркий результат.

Размах и дисперсия: сравнение

Размах — быстрый и простой, но учитывает только две точки данных. Дисперсия использует каждую точку данных и даёт более полную картину разброса. Представьте: размах — это взглянуть на термометр утром и вечером, а дисперсия — проверять его каждый час и рассчитать, насколько температура колебалась в течение дня.

Ключевой вывод

Размах показывает разницу между наибольшим и наименьшим значениями — быстро и просто, но без деталей. Дисперсия показывает, насколько все значения разбросаны вокруг среднего — она использует каждую точку данных и даёт гораздо более богатую картину. Вместе со средним эти показатели помогают понять не только что типично, но и как сильно всё варьируется. А в реальной жизни вариация часто важнее самого среднего.