Выборка в исследованиях: как изучать часть, чтобы понять целое

Иван Корнев·13.05.2026·⏱6 мин

Выборка — это ограниченная часть объектов из большой группы (генеральной совокупности), которую изучают, чтобы сделать выводы обо всей группе целиком. Это позволяет экономить время и ресурсы, не опрашивая или не тестируя каждого участника по отдельности, но сохраняя высокую точность результатов при правильном отборе.

Например, чтобы узнать рейтинг президента, социологи не опрашивают всех 140 млн граждан, а выбирают репрезентативную группу из 1–2 тысяч человек. Если выборка построена верно, её мнение с высокой точностью отражает настроение всего общества.

Ключевые термины: язык статистики

Прежде чем разбирать методы, важно договориться о терминах. В статистике есть четкое разделение между «всеми» и «некоторыми»:

Генеральная совокупность (Population) — вся группа объектов, которую вы хотите изучить (например, все пользователи вашего приложения).
Единица наблюдения — один конкретный элемент совокупности (один пользователь).
Выборка (Sample) — подмножество единиц, отобранное для исследования.
Параметр — истинное значение показателя во всей совокупности (часто неизвестно нам точно).
Статистика — значение показателя, рассчитанное только по выборке (служит оценкой параметра).

Главное правило: Качество вывода зависит не столько от размера выборки, сколько от способа её формирования. Случайный отбор 500 человек надежнее, чем опрос 5000 добровольцев с форума, так как во втором случае есть систематическое смещение.

Основные виды выборок

Метод отбора определяет, можно ли распространять результаты на всю аудиторию. Все методы делятся на вероятностные (случайные) и невероятностные.

Вероятностные (случайные) выборки

Здесь у каждого элемента есть известная, ненулевая вероятность попасть в исследование. Это «золотой стандарт» для серьезных исследований.

Простая случайная выборка (SRS). Каждый участник выбирается случайно, как лотерейный билет. Требует полного списка всей совокупности.
Систематическая выборка. Отбирается каждый $k$-й элемент из списка (например, каждый 10-й клиент из базы). Проще в реализации, но опасна, если в списке есть скрытая периодичность.
Стратифицированная выборка. Совокупность делят на важные группы (страты) — например, по полу или возрасту, — а затем внутри каждой группы делают случайный отбор. Гарантирует, что мелкие, но важные группы не потеряются.
Кластерная выборка. Популяцию делят на кластеры (районы, школы, офисы). Случайно выбирают несколько кластеров и изучают всех (или многих) внутри них. Дешевле логистически, но может быть менее точной.

Невероятностные выборки

Используются, когда случайный отбор невозможен или не нужен (например, для качественных интервью или быстрых гипотез). Результаты таких выборок нельзя строго экстраполировать на всех.

Выборка удобства (Convenience): опрос тех, кто под рукой (прохожие, подписчики в соцсетях).
Снежный ком: участники приводят других участников. Полезно для поиска редких или закрытых групп.
Квотная выборка: исследователь сам набирает респондентов, чтобы соблюсти пропорции (например, 50% мужчин и 50% женщин), но отбор внутри квот не случаен.

Сравнение методов отбора

Метод	Когда применять	Главный плюс	Главный минус
Простая случайная	Есть полная база контактов	Максимальная объективность	Сложно собрать полную базу
Стратифицированная	Важны различия между группами	Точность для подгрупп	Сложнее расчет и организация
Кластерная	Географически разбросанные объекты	Экономия на логистике	Выше ошибка выборки
Удобства / Квотная	Быстрые тесты, MVP, качественные интервью	Дешево и быстро	Нельзя обобщать на всех

Как рассчитать размер выборки

Многие считают: «чем больше, тем лучше». На практике после определенного порога рост точности становится неоправданно дорогим. Размер зависит от трех факторов:

Допустимая погрешность ($E$): насколько мы можем ошибиться (обычно 3–5%).
Уровень доверия: вероятность того, что мы попали в нужный интервал (стандарт — 95%).
Разброс данных (дисперсия): насколько ответы неоднородны.

Для оценки доли (например, "% клиентов, довольных сервисом") при большой совокупности используют формулу:

$$ n = \frac{Z^2 \cdot p \cdot (1-p)}{E^2} $$

Где:

$Z$ — коэффициент доверия (1.96 для 95%).
$p$ — ожидаемая доля (если неизвестна, берут 0.5 — это дает максимальный размер выборки).
$E$ — погрешность (в долях единицы, 0.05 для 5%).

Лайфхак для запоминания: Для получения результата с погрешностью ±5% и надежностью 95% вам нужно примерно 384–400 респондентов, независимо от того, составляет ваша аудитория 10 тысяч или 10 миллионов человек.

Если нужна более высокая точность (±3%), объем вырастет примерно до 1000–1100 человек. Дальнейшее увеличение выборки дает мизерный прирост точности при значительном росте затрат.

Практические примеры применения

Контроль качества на заводе. Невозможно проверить каждую произведенную деталь на прочность (это разрушило бы продукт). Инженеры берут случайную выборку из партии (например, 50 штук) и тестируют их. Если брак в выборке ниже нормы, вся партия принимается.
A/B тестирование в IT. Чтобы проверить новую кнопку на сайте, трафик делят случайно: 50% видят старый дизайн, 50% — новый. Это классическая простая случайная выборка из потока пользователей.
Социологический опрос. Чтобы узнать предпочтения жителей мегаполиса, используют многоступенчатую кластерную выборку: сначала случайно выбирают районы, затем улицы, затем домохозяйства.

Частые ошибки при работе с выборкой

Даже большой объем данных не спасет, если допущены методические ошибки.

Ошибка выжившего (Survivorship bias). Анализ только тех, кто «остался». Например, изучение успеха компаний только по текущим лидерам рынка игнорирует тех, кто разорился.
Смещение отбора (Selection bias). Выборка не отражает структуру населения. Классический пример: опрос о доходах через Instagram покажет завышенные цифры, так как аудитория платформы специфична.
Ошибка неответа (Non-response bias). Если на опрос отвечают только самые недовольные или, наоборот, самые лояльные клиенты, картина будет искажена. Важно анализировать, чем отличающиеся те, кто проигнорировал запрос.
Игнорирование малых групп. При простой случайной выборке маленькие, но важные сегменты (например, пользователи VIP-тарифа) могут просто не попасть в выборку из-за своей малочисленности. Здесь нужна стратификация.

Никогда не пытайтесь «исправить» нерепрезентативную выборку простым увеличением числа респондентов из того же источника. Это лишь уменьшит случайную ошибку, но оставит систематическое смещение нетронутым.

FAQ: частые вопросы о выборках

Можно ли делать выводы по выборке из 30 человек? Для качественных исследований (интервью, UX-тесты) — да, 30 человек часто достаточно, чтобы выявить основные паттерны проблем. Для количественных статистических выводов (проценты, средние значения) такая выборка даст огромную погрешность и ненадежна.

Что делать, если нет списка всей аудитории для случайного отбора? Используйте квазислучайные методы (например, систематический отбор из потока посетителей сайта) или признайте ограничения исследования, используя квотную выборку с осторожными выводами.

Влияет ли размер города на размер выборки? Практически нет, если город крупный (более 100 тыс. жителей). Формулы расчета работают так, что после определенного порога размер генеральной совокупности перестает влиять на необходимый объем выборки. Разница между опросом Москвы (13 млн) и города-миллионника будет минимальной.

Как проверить, репрезентативна ли моя выборка? Сравните ключевые социально-демографические характеристики вашей выборки (пол, возраст, география) с известными данными по генеральной совокупности (например, из Росстата). Если пропорции совпадают, выборку можно считать репрезентативной по этим признакам.