Почему среднего недостаточно
Представьте два города, в которых средняя дневная температура — 20°C. Кажется, что погода у них похожая? Но что если в городе А температура колеблется от 18°C до 22°C весь год, а в городе Б — от −15°C зимой до +40°C летом? Среднее одинаковое, а ощущения от жизни — совершенно разные.
Вот почему нам нужно измерять разброс — насколько значения в наборе данных отличаются друг от друга. Два самых важных инструмента для измерения разброса — размах и дисперсия.
Размах: самая простая мера разброса
Размах — простейший показатель разброса. Берёте наибольшее значение, вычитаете наименьшее — и это ваш размах.
Размах = Наибольшее значение − Наименьшее значение
Хоккеист ЦСКА забивает за 5 матчей: 0, 1, 2, 3, 1 шайбу.
Максимум: 3. Минимум: 0.
Размах = 3 − 0 = 3 шайбы
Результативность игрока варьировалась на 3 шайбы от худшего к лучшему матчу.
Размах даёт быстрое представление, но у него серьёзное ограничение: он смотрит только на два крайних значения и игнорирует всё, что между ними.
Рассмотрим баллы двух учеников на 5 контрольных:
Ученик А: 60, 80, 82, 83, 100 → Размах = 40
Ученик Б: 60, 61, 62, 63, 100 → Размах = 40
У обоих размах одинаковый — 40, но у ученика А баллы сгруппированы ближе к середине, а у ученика Б — сосредоточены внизу с одним высоким выбросом. Размах не может показать эту разницу.
Когда размах полезен
Несмотря на ограничения, размах удобен для быстрой проверки. Врач, отслеживающий давление пациента за неделю, может сначала отметить размах: «Ваше систолическое давление колебалось от 118 до 142». Это сразу даёт полезную информацию.
Дисперсия: более умная мера разброса
Дисперсия рассматривает каждое значение в данных и спрашивает: как далеко каждое из них от среднего? Затем все эти расстояния объединяются в одно число. Низкая дисперсия означает, что значения группируются близко к среднему. Высокая — что они разбросаны далеко.
Вычисление дисперсии шаг за шагом
Разберём на простом примере, чтобы идея стала ясной.
Месячные зарплаты 4 сотрудников небольшого магазина: 30 000 · 35 000 · 40 000 · 35 000 рублей
Шаг 1 — Найдём среднее:
(30 000 + 35 000 + 40 000 + 35 000) ÷ 4 = 35 000 руб.
Шаг 2 — Найдём расстояние каждого значения от среднего:
- 30 000 − 35 000 = −5 000
- 35 000 − 35 000 = 0
- 40 000 − 35 000 = +5 000
- 35 000 − 35 000 = 0
Шаг 3 — Возведём каждое расстояние в квадрат (чтобы убрать отрицательные знаки и подчеркнуть большие отклонения):
- (−5 000)² = 25 000 000
- (0)² = 0
- (5 000)² = 25 000 000
- (0)² = 0
Шаг 4 — Найдём среднее этих квадратов:
(25 000 000 + 0 + 25 000 000 + 0) ÷ 4 = 12 500 000
Дисперсия равна 12 500 000 (в «квадратных рублях», что звучит немного странно — мы разберёмся с этим в следующем уроке о стандартном отклонении).
Зачем возводить расстояния в квадрат?
Этот вопрос задают многие начинающие, и он отличный. Если просто сложить расстояния без возведения в квадрат, положительные и отрицательные значения взаимно уничтожатся и вы каждый раз получите ноль. Возведение в квадрат делает все значения положительными и придаёт больший вес числам, далёким от среднего.
Дисперсия генеральной совокупности и выборочная дисперсия
Вы можете встретить две немного разные формулы дисперсии. Разница невелика, но стоит о ней знать.
Если ваши данные включают всех без исключения членов группы, которая вас интересует (например, всех учеников в классе), делите на общее количество. Это дисперсия генеральной совокупности.
Если ваши данные — выборка, меньшая группа, выбранная для представления большей (например, 100 опрошенных покупателей из тысяч), делите на количество минус один. Это выборочная дисперсия, и маленькая поправка помогает сделать оценку более точной.
Вы опросили 5 человек, сколько чашек чая они пьют в день: 1, 2, 3, 2, 2. Среднее — 2.
Квадраты отклонений от среднего: 1, 0, 1, 0, 0
Дисперсия совокупности (если эти 5 человек — все, кто вас интересует): (1+0+1+0+0) ÷ 5 = 0,4
Выборочная дисперсия (если эти 5 представляют большую группу): (1+0+1+0+0) ÷ 4 = 0,5
Разница здесь небольшая, и она становится ещё меньше по мере роста выборки.
Почему разброс важен в реальной жизни
Погода и планирование поездок
Если вы собираете чемодан и средняя температура в месте назначения — 22°C, вы можете упаковать только лёгкую одежду. Но если дисперсия высокая, температура может колебаться от 10°C ночью до 34°C днём. Вам понадобятся слои. Одного среднего недостаточно для подготовки.
Переговоры о зарплате
В вакансии на hh.ru указано, что средняя зарплата на эту позицию — 80 000 рублей. Но каков разброс? Если диапазон от 75 000 до 85 000, зарплаты плотно сгруппированы и вы знаете, чего ожидать. Если от 40 000 до 150 000 — реальная зарплата сильно зависит от опыта, города и переговоров. Разброс меняет подход к разговору.
Стабильность в спорте
Два футболиста «Зенита» забивают в среднем по 1 голу за матч за сезон. Игрок А забивает 0 или 1 в большинстве матчей — очень стабильно. Игрок Б не забивает во многих играх, но иногда забивает 4 или 5 — высокая дисперсия. Тренер, выбирая между ними, может предпочесть игрока А за надёжность или игрока Б для решающего матча, где нужен яркий результат.
Размах и дисперсия: сравнение
Размах — быстрый и простой, но учитывает только две точки данных. Дисперсия использует каждую точку данных и даёт более полную картину разброса. Представьте: размах — это взглянуть на термометр утром и вечером, а дисперсия — проверять его каждый час и рассчитать, насколько температура колебалась в течение дня.
Размах показывает разницу между наибольшим и наименьшим значениями — быстро и просто, но без деталей. Дисперсия показывает, насколько все значения разбросаны вокруг среднего — она использует каждую точку данных и даёт гораздо более богатую картину. Вместе со средним эти показатели помогают понять не только что типично, но и как сильно всё варьируется. А в реальной жизни вариация часто важнее самого среднего.