Всё измерить невозможно
Представьте, что вы хотите узнать средний рост всех взрослых жителей России. Чтобы получить идеально точный ответ, нужно измерить каждого — а это более 110 миллионов человек. Потребуется армия помощников, годы работы и гигантский бюджет. К моменту завершения данные уже устареют: кто-то подрос, кто-то постарел.
Именно поэтому мы используем выборки. Вместо того чтобы измерять всех, мы измеряем небольшую группу и на основе результатов делаем выводы о всей большой группе. Эта идея — одна из самых мощных в статистике.
Генеральная совокупность и выборка
Генеральная совокупность (или просто «популяция») — это вся группа, которую вы хотите изучить. Выборка — это меньшая часть этой группы, из которой вы реально собираете данные.
Проба борща. Вы готовите большую кастрюлю борща. Чтобы проверить, хватает ли соли, вы хорошенько перемешиваете и пробуете одну ложку. Вся кастрюля — это генеральная совокупность. Ложка — выборка. Не нужно выпивать всю кастрюлю, чтобы понять, нужно ли досолить. Одна ложка даёт ответ — но только если вы предварительно перемешали. Если вся соль осела на дне, ложка с поверхности даст ложную картину.
Генеральная совокупность — это не обязательно «всё население страны». Это любая полная группа, которую вы исследуете:
- Если вы хотите узнать мнение учеников школы о столовой, генеральная совокупность — все ученики этой школы.
- Если завод хочет проверить качество лампочек, генеральная совокупность — все выпущенные лампочки.
- Если врач изучает действие препарата на взрослых с повышенным давлением, генеральная совокупность — все взрослые с повышенным давлением.
Зачем нужна выборка
Есть несколько практических причин, почему изучение всей совокупности обычно невозможно или нецелесообразно:
- Стоимость: Опрос миллионов людей стоит огромных денег. Грамотно составленная выборка из 1000 человек может дать удивительно точные результаты за малую долю стоимости.
- Время: Сбор данных у всех занимает слишком много времени. К моменту завершения информация может устареть.
- Невозможность: Некоторые проверки разрушают объект. Завод лампочек не может проверить каждую до перегорания и при этом иметь что-то на продажу.
- Доступность: До всех членов некоторых совокупностей просто невозможно добраться. Нельзя опросить каждую рыбу в океане, чтобы изучить её рацион.
Контроль качества. Завод выпускает 100 000 батареек в месяц. Для проверки качества случайным образом отбирают 500 штук и тестируют. Если 98% прошли проверку, завод может быть достаточно уверен, что около 98% всех 100 000 батареек тоже в порядке. Проверить каждую нельзя — тестирование полностью разряжает батарейку.
Что делает выборку хорошей?
Не все выборки одинаково полезны. Плохая выборка даёт искажённые результаты, какой бы большой она ни была. Главное качество хорошей выборки — репрезентативность, то есть она отражает характеристики генеральной совокупности.
Репрезентативная выборка
Репрезентативная выборка выглядит как миниатюрная копия генеральной совокупности. Если в населении 52% женщин, в выборке должно быть примерно столько же. Если в совокупности люди всех возрастов, в выборке тоже должны быть представлены разные возрастные группы.
Предвыборные опросы. Социологическая компания хочет предсказать результаты выборов. Если она опрашивает только жителей центра Москвы, результаты будут искажены: у этих людей могут быть совсем другие политические взгляды, чем у жителей небольших городов или сельской местности. Хороший предвыборный опрос включает людей из разных регионов, с разным доходом, разного возраста и с различным жизненным опытом — отражая реальный состав избирателей.
Смещение в выборке
Смещение (систематическая ошибка) возникает, когда выборка систематически отличается от генеральной совокупности. Вот как это обычно происходит:
- Выборка удобства: Вы опрашиваете тех, до кого проще добраться. Спросить только друзей о продукте — это не репрезентативно для всех покупателей.
- Добровольный отклик: Вы публикуете опрос и ждёте ответов. Люди с сильным мнением (очень довольные или очень недовольные) отвечают чаще, искажая результаты.
- Неполный охват: Часть совокупности вообще не может попасть в выборку. Если проводить опрос только через интернет, вы пропустите пожилых людей без доступа к сети.
Случайная выборка
Лучший способ получить репрезентативную выборку — случайный отбор. В по-настоящему случайной выборке каждый член совокупности имеет равный шанс быть отобранным. Это не значит «бессистемный» или «небрежный». Это значит целенаправленное использование процедуры, которая исключает человеческие предпочтения из отбора.
Представьте лотерею: если у каждого билета одинаковый шанс быть вытянутым, на выигрышные номера не влияют ничьи предпочтения.
Виды случайной выборки
- Простая случайная выборка: Каждый человек имеет одинаковый шанс быть отобранным. Как если бы вы тянули имена из шляпы, в которой все фамилии.
- Стратифицированная выборка: Совокупность делится на группы (страты) по ключевому признаку (возраст, доход, регион), а затем из каждой группы случайным образом отбираются участники. Это гарантирует представленность каждой группы.
- Систематическая выборка: Отбирается каждый n-й элемент из списка. Например, каждый 10-й покупатель, входящий в магазин.
- Кластерная выборка: Совокупность делится на кластеры (районы, школы, предприятия), случайным образом выбираются несколько кластеров, и опрашиваются все в выбранных кластерах.
Опрос в школе. Школа хочет узнать, довольны ли ученики питанием в столовой. При простой случайной выборке каждому из 800 учеников присваивается номер, и генератор случайных чисел выбирает 80 человек. При стратифицированной выборке убедятся, что каждый класс представлен пропорционально. При кластерной выборке случайным образом выберут, скажем, 4 класса из 30 и опросят всех учеников в них.
Размер выборки: сколько нужно?
Типичный вопрос — «сколько человек надо опросить?». Ответ зависит от многих факторов, но вот основы:
- Больше — обычно лучше. Крупные выборки дают более точные результаты, потому что случайные колебания уравновешиваются.
- Но есть убывающая отдача. Переход от 100 к 1000 человек резко повышает точность. Переход от 10 000 к 11 000 почти ничего не меняет.
- Размер совокупности значит меньше, чем кажется. Грамотно составленная выборка из 1000 человек может точно отразить и город с 500 000 жителей, и страну со 146 миллионами. Важно не соотношение, а метод отбора.
Это может показаться нелогичным. Как 1000 человек могут представлять миллионы? Вспомните пример с борщом. Маленькая кастрюля или огромный котёл — одна хорошо перемешанная ложка расскажет о вкусе. Важно не сколько вы попробовали, а насколько хорошо перемешано.
Всероссийские опросы. Крупные социологические компании (ВЦИОМ, Левада-центр) обычно опрашивают от 1000 до 1600 человек, чтобы оценить мнение более 100 миллионов избирателей. При правильном случайном отборе такие опросы дают точность в пределах 3–4 процентных пунктов. Секрет не в количестве опрошенных, а в методе их отбора.
Параметры и статистики
Небольшое терминологическое уточнение, которое пригодится в будущих уроках. Число, описывающее генеральную совокупность, называется параметром. Число, описывающее выборку, называется статистикой (или выборочной характеристикой).
Например, истинный средний доход всех жителей города — это параметр (для его расчёта нужны данные о каждом). Средний доход, рассчитанный по опросу 500 жителей, — это статистика (рассчитана по выборке). Мы используем статистику, чтобы оценить параметр.
Генеральная совокупность — это полная группа, которую вы хотите изучить. Выборка — управляемая часть этой группы. Мы используем выборки, потому что изучение всей совокупности обычно слишком дорого, долго или попросту невозможно. Главное качество выборки — репрезентативность, и случайный отбор — лучший способ её обеспечить. Размер выборки важен, но метод отбора важнее. Маленькая, грамотно составленная выборка всегда лучше большой, но смещённой.