Як визначити похибка вибірки в соцопитуванні, вибір росії

Як визначити похибка вибірки в соцопитуванні, вибір росії

Найчастіше саме системну помилку вимірювання називають похибкою вибірки. Значить, для визначення похибки вибірки треба визначити системну помилку вимірювання. Останні роки я застосовую досить просту методику для того, щоб визначити систематичну помилку вимірювання, отриману в ході соціологічного опитування.

Насправді визначення похибки вибірки - справа нетривіальне. Для того, щоб визначити похибка вибірки, треба якесь значення генеральної сукупності (наприклад, рейтинг) порівняти з цим же значенням у вибірці. Але ми ж проводимо вибіркове дослідження для того, щоб за даними вибірці судити про дані всієї генеральної сукупності і в даному випадку похибка повинна сказати, наскільки сильно значення у всій генеральної сукупності може відрізнятися від вибіркового. Отримуємо рівняння з двома невідомими.

Давайте розбиратися в ситуації.

Говорити про помилку вибірки для всього опитування не зовсім коректно. Під помилкою розуміють різницю між показником якої-небудь ознаки в генеральній сукупності і в вибірці. Таким чином, для кожної ознаки треба говорити про свою похибки. Вислів «похибка опитування» найчастіше буває безглуздим, краще говорити про «похибки питання». Але моя методика якраз підходить для практично всього дослідження.

У політичних дослідженнях, так і в комерційних теж, ми найчастіше маємо справу з бінарними питаннями, тобто питаннями, на який дається відповідь «так» або «ні». Класичний рейтинговий питання «За кого б Ви проголосували, якби вибори відбулися в найближчі вихідні?» - окремий випадок бінарного питання. Його можна уявити як кілька питань про підтримку кожного кандидата або партії: «Якби вибори проходили в найближчі вихідні, проголосували б ви за кандидата N ***?» І два варіанти «Так, проголосував» і «Ні, не проголосував».

У статистиці для оцінки похибки біномного розподілу використовується наступна формула:

де Sbin - помилка біномного розподілу

p - відсоток спостережень (рейтинг)

n - розмір вибірки.

Максимального значення помилка досягається, коли p = 50%, тобто навпіл відповіли «так, проголосував би» і «ні, ні не проголосував би». У всіх інших випадках помилка менше. Ми можемо оцінити помилку взявши максимальне значення.

На наступному кроці ми скористаємося правилом «Двох сигм» (або, за бажанням, правилом «Трьох сигм»). Правило говорить, що 95% всіх значень розподілу укладаються в інтервал

В цьому випадку помилку, згідно з правилом «двох сигма» при 95% -му довірчому інтервалі дорівнює ± 2 * Sbin. У підсумку ми отримуємо формулу, за допомогою якої можна оцінити похибку вибірки при 95% -му довірчому інтервалі і помилка буде залежати тільки від розміру вибірки:

Де ε - похибка вибірки, n - розмір вибірки.

Отримуємо, що для вибірки в 1000 чоловік похибка вимірювання складе 3% при 95% -му довірчому інтервалі.

Поділитися посиланням:

Схожі статті