Найчастіше саме системну помилку вимірювання називають похибкою вибірки. Значить, для визначення похибки вибірки треба визначити системну помилку вимірювання. Останні роки я застосовую досить просту методику для того, щоб визначити систематичну помилку вимірювання, отриману в ході соціологічного опитування.
Насправді визначення похибки вибірки - справа нетривіальне. Для того, щоб визначити похибка вибірки, треба якесь значення генеральної сукупності (наприклад, рейтинг) порівняти з цим же значенням у вибірці. Але ми ж проводимо вибіркове дослідження для того, щоб за даними вибірці судити про дані всієї генеральної сукупності і в даному випадку похибка повинна сказати, наскільки сильно значення у всій генеральної сукупності може відрізнятися від вибіркового. Отримуємо рівняння з двома невідомими.
Давайте розбиратися в ситуації.
Говорити про помилку вибірки для всього опитування не зовсім коректно. Під помилкою розуміють різницю між показником якої-небудь ознаки в генеральній сукупності і в вибірці. Таким чином, для кожної ознаки треба говорити про свою похибки. Вислів «похибка опитування» найчастіше буває безглуздим, краще говорити про «похибки питання». Але моя методика якраз підходить для практично всього дослідження.
У політичних дослідженнях, так і в комерційних теж, ми найчастіше маємо справу з бінарними питаннями, тобто питаннями, на який дається відповідь «так» або «ні». Класичний рейтинговий питання «За кого б Ви проголосували, якби вибори відбулися в найближчі вихідні?» - окремий випадок бінарного питання. Його можна уявити як кілька питань про підтримку кожного кандидата або партії: «Якби вибори проходили в найближчі вихідні, проголосували б ви за кандидата N ***?» І два варіанти «Так, проголосував» і «Ні, не проголосував».
У статистиці для оцінки похибки біномного розподілу використовується наступна формула:
де Sbin - помилка біномного розподілу
p - відсоток спостережень (рейтинг)
n - розмір вибірки.
Максимального значення помилка досягається, коли p = 50%, тобто навпіл відповіли «так, проголосував би» і «ні, ні не проголосував би». У всіх інших випадках помилка менше. Ми можемо оцінити помилку взявши максимальне значення.
На наступному кроці ми скористаємося правилом «Двох сигм» (або, за бажанням, правилом «Трьох сигм»). Правило говорить, що 95% всіх значень розподілу укладаються в інтервал
В цьому випадку помилку, згідно з правилом «двох сигма» при 95% -му довірчому інтервалі дорівнює ± 2 * Sbin. У підсумку ми отримуємо формулу, за допомогою якої можна оцінити похибку вибірки при 95% -му довірчому інтервалі і помилка буде залежати тільки від розміру вибірки:
Де ε - похибка вибірки, n - розмір вибірки.
Отримуємо, що для вибірки в 1000 чоловік похибка вимірювання складе 3% при 95% -му довірчому інтервалі.