Распределения вероятностей

Сложность: Средний Время чтения: 15 минут

Закономерности в хаосе

Подбросьте монету один раз — результат кажется совершенно случайным. Подбросьте её 1000 раз — и проявится закономерность: примерно половина будет орлами. Бросьте кубик один раз — может выпасть что угодно. Бросьте 10 000 раз — и каждое число появится примерно одинаково часто.

0 9 18 27 36 45 1 2 3 4 5 6 7 8 9

Распределение вероятностей описывает именно эти закономерности. Оно показывает все возможные исходы случайного события и вероятность каждого из них. Представьте это как полную карту случайности — вместо вопроса об одном конкретном исходе вы видите всю картину целиком.

Что такое распределение вероятностей?

Распределение вероятностей отвечает на вопрос: «Если повторять это случайное событие много раз, как будут выглядеть результаты?»

Его можно представить как таблицу, формулу или — чаще всего — график. На графике по горизонтали расположены возможные исходы, а по вертикали — их вероятности.

Пример

Бросьте два кубика и сложите выпавшие числа. Возможные суммы — от 2 до 12. Но они НЕ равновероятны:

  • Сумма 2 получается только одним способом: 1+1. Вероятность: 1/36.
  • Сумма 7 получается шестью способами: 1+6, 2+5, 3+4, 4+3, 5+2, 6+1. Вероятность: 6/36.
  • Сумма 12 получается только одним способом: 6+6. Вероятность: 1/36.

Если построить график, вы увидите треугольную форму — низкую по краям (2 и 12), самую высокую в середине (7). Этот график и ЕСТЬ распределение вероятностей для суммы двух кубиков.

Два типа распределений

Распределения бывают двух видов, в зависимости от типа данных:

140 150 160 170 180 190 200

Дискретные распределения

Они работают со счётными исходами. Сколько орлов в 10 подбрасываниях монеты? Сколько покупателей зайдёт в магазин сегодня? Сколько бракованных деталей в партии? Исходы — конкретные числа (0, 1, 2, 3...) с промежутками между ними.

Непрерывные распределения

Они работают с измеримыми величинами, которые могут принимать любое значение в диапазоне. Рост человека может быть 170,0 см, 170,1 см, 170,15 см — возможно любое значение. Температура, время, масса — всё это непрерывные величины. Вместо вопроса «какова вероятность роста ровно 170,0 см?» (которая для непрерывных данных стремится к нулю), мы спрашиваем о диапазонах: «Какова вероятность роста от 165 до 175 см?»

Нормальное распределение: знаменитая колоколообразная кривая

Из всех распределений вероятностей нормальное распределение — его ещё называют колоколообразной кривой или кривой Гаусса — самое важное. Его график имеет гладкую, симметричную форму колокола: высокий в середине и плавно убывающий по обе стороны.

Колоколообразная кривая определяется всего двумя числами:

  • Среднее значение (математическое ожидание): это центр колокола — его вершина. Оно показывает, вокруг какого значения группируется большинство данных.
  • Стандартное отклонение: показывает, насколько разбросаны значения. Маленькое стандартное отклонение — колокол высокий и узкий (значения плотно сгруппированы). Большое — колокол низкий и широкий (значения более разбросаны).
Пример

Средний рост взрослых мужчин в России — около 176 см со стандартным отклонением около 7 см. Это означает:

  • Большинство мужчин (около 68%) имеют рост в пределах одного стандартного отклонения от среднего: от 169 до 183 см.
  • Почти все мужчины (около 95%) — в пределах двух стандартных отклонений: от 162 до 190 см.
  • Рост менее 155 см или более 197 см — очень редкое явление, менее 0,3% населения.

Вот почему магазины одежды закупают больше средних размеров и меньше крайних. Колоколообразная кривая подсказывает, где находится большинство покупателей.

Правило 68-95-99,7

Один из самых полезных фактов о нормальном распределении — правило 68-95-99,7 (его ещё называют «эмпирическим правилом»). Для любой колоколообразной кривой:

17 1 16 2 17 3 16 4 17 5 17 6
  • 68% значений попадают в пределы 1 стандартного отклонения от среднего.
  • 95% значений попадают в пределы 2 стандартных отклонений от среднего.
  • 99,7% значений попадают в пределы 3 стандартных отклонений от среднего.

Это правило даёт быстрый способ оценить, является ли значение типичным или необычным. Если что-то отклоняется от среднего более чем на 2 стандартных отклонения — это в крайних 5%, довольно редко. Более чем на 3? Чрезвычайно редко.

Пример

Средний балл ЕГЭ по математике — 56 со стандартным отклонением 15. По правилу 68-95-99,7:

  • Около 68% сдающих набрали от 41 до 71 балла.
  • Около 95% — от 26 до 86 баллов.
  • Около 99,7% — от 11 до 101 балла (но шкала ограничена 100).

Если выпускник набрал 90 баллов, он более чем на 2 стандартных отклонения выше среднего — это вхождение в топ 2-3% сдающих. Одно число рассказывает очень много благодаря кривой Гаусса.

Почему колоколообразная кривая повсюду?

Вот что удивительно: колоколообразная кривая появляется в поразительном количестве реальных ситуаций. Рост, артериальное давление, результаты экзаменов, погрешности измерений, дневные температуры, масса яблок в саду — всё это стремится к колоколообразной форме. Почему?

Ответ даёт глубокий математический результат, называемый центральной предельной теоремой. Простыми словами:

Когда вы складываете множество мелких, независимых, случайных воздействий, их сумма стремится к колоколообразной кривой — независимо от того, как выглядят отдельные воздействия.

Рост человека, например, определяется сотнями генетических и средовых факторов, каждый из которых вносит небольшой вклад. Сложите их все — и получится колоколообразная кривая. Результаты ЕГЭ зависят от знаний, подготовки, концентрации, сложности вариантов и удачи — множество мелких факторов, которые в совокупности дают распределение в форме колокола.

Пример

Завод производит болты, которые должны быть ровно 10 см в длину. На деле каждый болт немного отличается из-за мельчайших вариаций в металле, станке, температуре и других факторах. Если измерить 10 000 болтов, длины образуют колоколообразную кривую с центром в 10 см — большинство болтов очень близки к цели, а несколько выбросов — по краям.

Службы контроля качества используют это: если болт отклоняется более чем на 3 стандартных отклонения от среднего, скорее всего, что-то пошло не так со станком.

Другие важные распределения

Колоколообразная кривая — самая известная, но не единственная. Вот несколько других, с которыми вы можете столкнуться:

Равномерное распределение

Каждый исход одинаково вероятен. У честного кубика равномерное распределение: каждая грань имеет вероятность 1/6. Если построить график — получится плоская линия, без пиков и впадин.

Асимметричное (скошенное) распределение

Не всё симметрично. Распределение доходов, например, скошено вправо: большинство людей зарабатывают умеренно, но небольшая доля — значительно больше. «Хвост» тянется далеко вправо. По данным Росстата, медианная зарплата в России обычно заметно ниже средней — именно потому, что крайне высокие зарплаты тянут среднее вверх.

Биномиальное распределение

Описывает количество успехов в фиксированном числе экспериментов типа «да/нет». Сколько орлов в 20 подбрасываниях? Сколько из 100 покупателей что-то купят? Биномиальное распределение даёт вероятность каждого возможного количества. Интересно, что при достаточно большом числе испытаний оно начинает напоминать колоколообразную кривую.

Что распределения говорят нам на практике

Понимание распределений — не просто академическое упражнение. Они имеют прямую практическую ценность:

  • Обнаружение необычных событий. Если измерение сильно выходит за пределы ожидаемого распределения, возможно, происходит что-то важное. Болт, который слишком длинный, оценка ЕГЭ, далёкая от среднего, курс акций, который двинулся сильнее обычного — распределения помогают заметить такое.
  • Прогнозирование. Если вы знаете распределение, можете оценить вероятность будущих исходов. Страховые компании используют распределения для расчёта тарифов. Метеослужбы — для прогноза температур.
  • Установление норм. «Нормальные» диапазоны артериального давления, холестерина и других показателей здоровья основаны на распределении значений в здоровой популяции. Если ваш результат выходит за «норму», это означает, что вы находитесь в хвостах распределения.
Пример

Педиатр сообщает родителям, что их ребёнок находится в «75-м перцентиле» по росту. Это значит, что ребёнок выше 75% детей того же возраста. Врач знает это, потому что у него есть распределение роста для детей — колоколообразная кривая — и он видит, где именно на ней находится конкретный ребёнок.

Распределения и повседневные решения

Вы взаимодействуете с распределениями вероятностей чаще, чем можете подумать:

  • Когда на посылке написано «доставка 3–5 рабочих дней», компания описывает середину распределения. Большинство посылок приходит в этом окне, но некоторые — раньше или позже.
  • Когда в рецепте написано «запекать 25–30 минут», реальное время зависит от вашей духовки, формы, высоты над уровнем моря — множества мелких факторов. Диапазон отражает распределение возможных времён запекания.
  • Когда дорога на работу «обычно занимает 20 минут» — это пик распределения. Иногда 15 минут, иногда 40, и распределение показывает, насколько вероятно каждое время в пути.
Ключевой вывод

Распределение вероятностей описывает все возможные исходы и их вероятности. Нормальное распределение (колоколообразная кривая) — самое распространённое, определяемое средним значением и стандартным отклонением. Благодаря правилу 68-95-99,7 вы можете быстро оценить, является ли значение типичным или необычным. Колоколообразная кривая появляется повсюду, потому что многие реальные величины формируются сочетанием множества мелких случайных факторов. Понимание распределений даёт мощный инструмент для интерпретации данных, обнаружения выбросов и принятия обоснованных решений в повседневной жизни.