Почему выборка важна
Представьте, что вы хотите узнать среднее количество сна, которое получают студенты университета за ночь. Вы могли бы опросить каждого студента каждого университета в стране, но это заняло бы годы и стоило бы целое состояние. Вместо этого вы отбираете меньшую группу -- выборку -- и используете их ответы, чтобы сделать выводы о большей популяции.
Способ выбора этой выборки критически важен. Плохо выбранная выборка может дать вам крайне обманчивые результаты. Если вы опросите только студентов в библиотеке в 11 вечера в среду, вы можете заключить, что студенты очень старательные и недосыпают. Это упустит всех, кто спокойно спит дома или проводит время с друзьями. Методы выборки -- это техники, которые исследователи используют для отбора участников так, чтобы получить надёжные и обобщаемые результаты.
Простая случайная выборка
Золотой стандарт выборки -- простая случайная выборка. Каждый член популяции имеет равную вероятность быть отобранным. Представьте это как лотерею: вы складываете все имена в шляпу, перемешиваете и вытаскиваете. На практике исследователи обычно используют генератор случайных чисел или компьютерный алгоритм вместо физической шляпы.
Случайная выборка мощна, потому что она стремится создать выборку, похожую на всю популяцию. Если 60% студентов -- женщины, случайная выборка в среднем будет содержать около 60% женщин без специальных усилий исследователя. Проблема в том, что вам нужен полный список популяции (называемый выборочной рамкой), а такой список не всегда доступен.
На графике выше показано приблизительное сравнение того, насколько хорошо каждый метод выборки обычно представляет популяцию. Эти числа иллюстративны -- реальная эффективность зависит от контекста -- но они показывают общую тенденцию: случайные и стратифицированные методы обычно дают наиболее репрезентативные выборки, тогда как удобная выборка наименее надёжна.
Стратифицированная выборка
Иногда вы хотите убедиться, что важные подгруппы адекватно представлены. Стратифицированная выборка делит популяцию на отдельные группы (называемые стратами) на основе ключевой характеристики -- такой как возраст, уровень дохода или географический регион -- и затем извлекает случайную выборку из каждой страты.
Например, если вы проводите опрос в компании с 70% офисных работников и 30% фабричных работников, вы можете беспокоиться, что простая случайная выборка окажется с недостаточным количеством фабричных работников для значимых выводов о них. При стратифицированной выборке вы будете случайным образом отбирать из каждой группы отдельно, гарантируя, что обе представлены пропорционально (или даже перевыборка меньшей группы с последующей корректировкой).
Стратифицированная выборка часто даёт более точные оценки, чем простая случайная выборка, особенно когда группы значительно различаются по изучаемой переменной.
Кластерная выборка
При кластерной выборке вы делите популяцию на естественно возникающие группы (кластеры) -- такие как школы, районы или больницы -- и затем случайным образом отбираете целые кластеры для изучения. Все в выбранных кластерах включаются в выборку.
Этот метод особенно полезен, когда популяция географически разбросана. Дешевле и практичнее посетить 20 случайно выбранных школ и опросить всех студентов там, чем искать отдельных студентов по всей стране. Компромисс -- сниженная точность: люди внутри одного кластера обычно более похожи друг на друга, чем на всю популяцию, поэтому кластерные выборки требуют больше участников для достижения такой же точности, как простая случайная выборка.
Систематическая и удобная выборка
Систематическая выборка отбирает каждый k-й элемент из списка после случайной начальной точки. Например, если у вас список из 10,000 клиентов и вы хотите выборку из 500, вы отберёте каждого двадцатого клиента. Это просто в исполнении и хорошо работает, если в списке нет скрытых паттернов, совпадающих с вашим интервалом.
Удобная выборка -- это именно то, что подразумевает название: вы выбираете тех, до кого проще всего дотянуться. Опрос друзей, публикация опроса в соцсетях или интервьюирование людей в одном торговом центре -- всё это удобные выборки. Они быстры и дёшевы, но почти всегда привносят смещение. Люди, до которых легче всего добраться, редко репрезентативны для более широкой популяции.
На графике выше показан типичный профиль удобной выборки: высокая скорость и простота, но низкая эффективность по соотношению затрат и качества данных и низкая точность. Удобные выборки могут быть полезны на ранних стадиях исследования и при пилотном тестировании, но выводы из них следует воспринимать с осторожностью.
Выбор правильного метода
Не существует единого лучшего метода выборки для всех ситуаций. Правильный выбор зависит от вашего бюджета, сроков, природы популяции и того, насколько точными должны быть ваши результаты. Академические исследования и клинические испытания обычно используют случайную или стратифицированную выборку для максимальной строгости. Масштабные правительственные опросы часто прибегают к кластерной выборке из практических соображений. Маркетинговые исследователи иногда используют систематическую выборку из баз данных клиентов. А многие неформальные исследования используют удобную выборку -- но лучшие из них открыто признают её ограничения.
Какой бы метод вы ни выбрали, ключевой вопрос всегда один и тот же: справедливо ли эта выборка представляет интересующую вас популяцию? Если ответ -- нет, ваши результаты -- независимо от того, насколько сложен анализ -- будут ненадёжными.
Методы выборки определяют, насколько хорошо ваши данные представляют популяцию, которую вы хотите изучить. Простая случайная выборка даёт всем равный шанс. Стратифицированная выборка гарантирует представленность подгрупп. Кластерная выборка практична для рассредоточенных популяций. Систематическая выборка проста в исполнении. Удобная выборка быстра, но склонна к смещению. Выбранный вами метод определяет качество и достоверность каждого последующего вывода.