Генеральная совокупность и выборка

Сложность: Начальный Время чтения: 8 минут

Всё измерить невозможно

Представьте, что вы хотите узнать средний рост всех взрослых жителей России. Чтобы получить идеально точный ответ, нужно измерить каждого — а это более 110 миллионов человек. Потребуется армия помощников, годы работы и гигантский бюджет. К моменту завершения данные уже устареют: кто-то подрос, кто-то постарел.

Генеральная совокупность Выборка

Именно поэтому мы используем выборки. Вместо того чтобы измерять всех, мы измеряем небольшую группу и на основе результатов делаем выводы о всей большой группе. Эта идея — одна из самых мощных в статистике.

Генеральная совокупность и выборка

Генеральная совокупность (или просто «популяция») — это вся группа, которую вы хотите изучить. Выборка — это меньшая часть этой группы, из которой вы реально собираете данные.

Пример

Проба борща. Вы готовите большую кастрюлю борща. Чтобы проверить, хватает ли соли, вы хорошенько перемешиваете и пробуете одну ложку. Вся кастрюля — это генеральная совокупность. Ложка — выборка. Не нужно выпивать всю кастрюлю, чтобы понять, нужно ли досолить. Одна ложка даёт ответ — но только если вы предварительно перемешали. Если вся соль осела на дне, ложка с поверхности даст ложную картину.

Генеральная совокупность — это не обязательно «всё население страны». Это любая полная группа, которую вы исследуете:

  • Если вы хотите узнать мнение учеников школы о столовой, генеральная совокупность — все ученики этой школы.
  • Если завод хочет проверить качество лампочек, генеральная совокупность — все выпущенные лампочки.
  • Если врач изучает действие препарата на взрослых с повышенным давлением, генеральная совокупность — все взрослые с повышенным давлением.

Зачем нужна выборка

Есть несколько практических причин, почему изучение всей совокупности обычно невозможно или нецелесообразно:

  • Стоимость: Опрос миллионов людей стоит огромных денег. Грамотно составленная выборка из 1000 человек может дать удивительно точные результаты за малую долю стоимости.
  • Время: Сбор данных у всех занимает слишком много времени. К моменту завершения информация может устареть.
  • Невозможность: Некоторые проверки разрушают объект. Завод лампочек не может проверить каждую до перегорания и при этом иметь что-то на продажу.
  • Доступность: До всех членов некоторых совокупностей просто невозможно добраться. Нельзя опросить каждую рыбу в океане, чтобы изучить её рацион.
Пример

Контроль качества. Завод выпускает 100 000 батареек в месяц. Для проверки качества случайным образом отбирают 500 штук и тестируют. Если 98% прошли проверку, завод может быть достаточно уверен, что около 98% всех 100 000 батареек тоже в порядке. Проверить каждую нельзя — тестирование полностью разряжает батарейку.

Что делает выборку хорошей?

Не все выборки одинаково полезны. Плохая выборка даёт искажённые результаты, какой бы большой она ни была. Главное качество хорошей выборки — репрезентативность, то есть она отражает характеристики генеральной совокупности.

Репрезентативная выборка

Репрезентативная выборка выглядит как миниатюрная копия генеральной совокупности. Если в населении 52% женщин, в выборке должно быть примерно столько же. Если в совокупности люди всех возрастов, в выборке тоже должны быть представлены разные возрастные группы.

Пример

Предвыборные опросы. Социологическая компания хочет предсказать результаты выборов. Если она опрашивает только жителей центра Москвы, результаты будут искажены: у этих людей могут быть совсем другие политические взгляды, чем у жителей небольших городов или сельской местности. Хороший предвыборный опрос включает людей из разных регионов, с разным доходом, разного возраста и с различным жизненным опытом — отражая реальный состав избирателей.

Смещение в выборке

Смещение (систематическая ошибка) возникает, когда выборка систематически отличается от генеральной совокупности. Вот как это обычно происходит:

  • Выборка удобства: Вы опрашиваете тех, до кого проще добраться. Спросить только друзей о продукте — это не репрезентативно для всех покупателей.
  • Добровольный отклик: Вы публикуете опрос и ждёте ответов. Люди с сильным мнением (очень довольные или очень недовольные) отвечают чаще, искажая результаты.
  • Неполный охват: Часть совокупности вообще не может попасть в выборку. Если проводить опрос только через интернет, вы пропустите пожилых людей без доступа к сети.

Случайная выборка

Лучший способ получить репрезентативную выборку — случайный отбор. В по-настоящему случайной выборке каждый член совокупности имеет равный шанс быть отобранным. Это не значит «бессистемный» или «небрежный». Это значит целенаправленное использование процедуры, которая исключает человеческие предпочтения из отбора.

Представьте лотерею: если у каждого билета одинаковый шанс быть вытянутым, на выигрышные номера не влияют ничьи предпочтения.

Виды случайной выборки

  • Простая случайная выборка: Каждый человек имеет одинаковый шанс быть отобранным. Как если бы вы тянули имена из шляпы, в которой все фамилии.
  • Стратифицированная выборка: Совокупность делится на группы (страты) по ключевому признаку (возраст, доход, регион), а затем из каждой группы случайным образом отбираются участники. Это гарантирует представленность каждой группы.
  • Систематическая выборка: Отбирается каждый n-й элемент из списка. Например, каждый 10-й покупатель, входящий в магазин.
  • Кластерная выборка: Совокупность делится на кластеры (районы, школы, предприятия), случайным образом выбираются несколько кластеров, и опрашиваются все в выбранных кластерах.
Пример

Опрос в школе. Школа хочет узнать, довольны ли ученики питанием в столовой. При простой случайной выборке каждому из 800 учеников присваивается номер, и генератор случайных чисел выбирает 80 человек. При стратифицированной выборке убедятся, что каждый класс представлен пропорционально. При кластерной выборке случайным образом выберут, скажем, 4 класса из 30 и опросят всех учеников в них.

Размер выборки: сколько нужно?

Типичный вопрос — «сколько человек надо опросить?». Ответ зависит от многих факторов, но вот основы:

  • Больше — обычно лучше. Крупные выборки дают более точные результаты, потому что случайные колебания уравновешиваются.
  • Но есть убывающая отдача. Переход от 100 к 1000 человек резко повышает точность. Переход от 10 000 к 11 000 почти ничего не меняет.
  • Размер совокупности значит меньше, чем кажется. Грамотно составленная выборка из 1000 человек может точно отразить и город с 500 000 жителей, и страну со 146 миллионами. Важно не соотношение, а метод отбора.

Это может показаться нелогичным. Как 1000 человек могут представлять миллионы? Вспомните пример с борщом. Маленькая кастрюля или огромный котёл — одна хорошо перемешанная ложка расскажет о вкусе. Важно не сколько вы попробовали, а насколько хорошо перемешано.

Пример

Всероссийские опросы. Крупные социологические компании (ВЦИОМ, Левада-центр) обычно опрашивают от 1000 до 1600 человек, чтобы оценить мнение более 100 миллионов избирателей. При правильном случайном отборе такие опросы дают точность в пределах 3–4 процентных пунктов. Секрет не в количестве опрошенных, а в методе их отбора.

Параметры и статистики

Небольшое терминологическое уточнение, которое пригодится в будущих уроках. Число, описывающее генеральную совокупность, называется параметром. Число, описывающее выборку, называется статистикой (или выборочной характеристикой).

Например, истинный средний доход всех жителей города — это параметр (для его расчёта нужны данные о каждом). Средний доход, рассчитанный по опросу 500 жителей, — это статистика (рассчитана по выборке). Мы используем статистику, чтобы оценить параметр.

Ключевой вывод

Генеральная совокупность — это полная группа, которую вы хотите изучить. Выборка — управляемая часть этой группы. Мы используем выборки, потому что изучение всей совокупности обычно слишком дорого, долго или попросту невозможно. Главное качество выборки — репрезентативность, и случайный отбор — лучший способ её обеспечить. Размер выборки важен, но метод отбора важнее. Маленькая, грамотно составленная выборка всегда лучше большой, но смещённой.