Поговоримо про те, як нас обманюють за допомогою статистики і фактів і розберемося, як не попастися на вудку шахраїв і псевдовчених
Одягнемо на себе шкуру брехуна, який збирається застосувати найпростіші і найефективніші прийоми уявлення цілком нешкідливих даних таким чином, щоб видати бажане за дійсне.
Некоректна вибірка
Скажімо, ви хочете провести своє дослідження на світовому рівні і тому відбираєте людей з усього світу. Припустимо, у вас є список всіх людей на планеті і ви випадково вибираєте з нього 10 чоловік, які відповідають на ваші запитання. Чи буде ваше дослідження нести хоч якийсь сенс? Навряд чи. Головна помилка полягає в тому, що хоч ви і вибирали людей випадково, їх кількість виявилося занадто мало, щоб дослідження мало хоч якусь цінність. Дуже легко може виявитися, що всі 10 осіб читають або, навпаки, ніхто з опитаних ніколи не бере книг в руки. В такому випадку, результатом дослідження може бути висновок, що всі люди постійно читають або ж що ніхто з людей не захоплюється читанням. Чи не саме інформативне дослідження, чи не так?
За статистикою, 100% відвідувачів бібліотек читають книги.
Проте, навіть якщо в якості вибірки ви візьмете 10 мільйонів чоловік, це все одно не буде гарантувати точного результату. Припустимо, кілька років тому ви вже проводили якесь дослідження і опитали якраз 10 мільйонів різних вчених з усього світу. Чи коректно буде використовувати таку вибірку? З одного боку, вона дійсно масштабна, але з іншого боку, це сама що ні на є упереджена вибірка. Оцінювати, наскільки людство любить читання по тому, скільки читають вчені - це все одно що судити, який відсоток займається ручною працею, опитуючи виключно сантехніків.
візьмемо середнє
Уявіть, що ви хочете влаштуватися в компанію X і вам цікава середня зарплата по компанії. Відшукавши Вас звіт, ви дізнаєтеся, що вона становить 100 000 $ в рік, але що саме це означає? Може, що саме стільки вам будуть платити відразу після працевлаштування? Ні. Може, після певного терміну роботи в цій компанії ви, швидше за все, будете отримувати цю суму? Зовсім повз. Так що це означає? Насправді, з практичної точки зору, абсолютно нічого, якщо в дослідженні немає уточнення, про який середній йдеться.
Вираз «середня температура по лікарні» несе іронічний відтінок саме тому, що середнє арифметичне температури пацієнтів може сказати про те, що вони всі здорові.
Справа в тому, що існує три середніх значення: середнє арифметичне, медіана і мода. У випадку зі среднеарифметическим ви складаєте всі наявні значення і ділите суму на кількість доданків. Медіана означає, що половина значень лежить нижче даного значення, а половина вище. Мода ж просто характеризує найпоширеніше значення в наборі.
Тепер давайте розберемося, чому вираз середньої зарплати через середнє арифметичне позбавлене всякого сенсу. Припустимо, в компанії працює один генеральний директор з зарплатою в 10 мільйонів доларів, 5 менеджерів з зарплатою в 300 000 доларів і 20 робітників з окладом в 75 000 доларів. Середнє арифметичне виходить наступне: (10 000 000 + 5 x 300 000+ 20 x 75 000) / (1 + 5 + 20) = 500 000 доларів. Незважаючи на те, що найпоширеніша зарплата (і найімовірніше, отримувати ви будете саме її) дорівнює 75 000, середній оклад по компанії становить 500 000, хоча на ділі її не отримує ніхто.
У тому випадку, якщо ви дійсно хочете оцінити ваші фінансові перспективи в компанії, найрозумніше шукати дослідження, де наводиться медіана або хоча б мода, але ні в якому разі не середнє арифметичне для всіх зарплат. Так, можливо, ця цифра виглядає переконливо, але приземлена медіана або мода буде відображати дійсність і зможе дати вам реальні орієнтири при виборі місця роботи.
круті графіки
Уявіть таку ситуацію: у вас на руках є графік, що відображає дохід Романа Абрамовича за останній рік, і ви хочете представити доходи своєї компанії таким чином, щоб вони виглядали значно привабливіше, ніж прибуток відомого мільярдера.
На перший погляд, завдання здається нездійсненним, але насправді все досить просто. Досить лише змінити масштаб вашого графіка по осі Y. Інакше кажучи, якщо значення по вертикалі у графіка доходів Абрамовича рівні десяткам мільйонів доларів, зробіть свої, рівними десяткам доларів. Це дозволить досягти необхідного ефекту.
Втім, є і більш простий спосіб: приберіть шкалу з осі Y зовсім. Це дозволить вам намалювати графік з настільки вибуховим зростанням, з яким ви тільки побажаєте.
Графіки - це весело, але часто абсолютно не інформативно.
Вибираємо підходящі дослідження
Як би фантастично це не звучало, але за допомогою статистики легко довести, що монетка випадає решкою в 100% випадків. Крім того, цього можна домогтися навіть використовуючи дані незалежної лабораторії експертів (знайома формулювання?). Суть експерименту буде наступною: нехай в лабораторії підкинуть монетку 5 разів. З огляду на, що кожен раз вона випаде орлом, можна буде зробити висновок, що орел випадає в 100% випадків. У чому підступ? У тому, що насправді ви наймаєте відразу кілька десятків лабораторій, кожна з яких займається одним і тим же: підкидає 5 раз монетку. Після цього досить лише вибрати ту лабораторію, яка підкине монетку так, як вам потрібно.
Якщо вам здається, що в реальному житті подібні трюки незастосовні, згадайте різні написи на товарах в стилі «Зубна паста стала на 25% ефективніше, ніж раніше» або «Новий порошок видаляє плями на 30% краще, ніж звичайний порошок». При цьому зазвичай є примітка «Доведено незалежною лабораторією». Відчуваєте, де собака заритий?
Трюки з візуалізацією
Уявіть, що в компанії A співробітник заробляє 100 доларів на день, а в компанії Б всього 50. Якщо ви є власником компанії А і хочете залучити нових співробітників, ви хочете максимально ефективно використовувати той факт, що ваші робочі заробляють в два рази більше, ніж співробітники конкурента. Можна просто побудувати графік, на якому колонка «зарплата в компанії А» буде просто в 2 рази вище колонки компанії Б.
Але можна зробити візуалізацію ще більш ефектною. Фокус перший: вісь Y на графіку починати не з 0, а, наприклад, з 30 доларів. Таким чином, візуально різниця виходить не в 2 рази, а в усі 3,5. Поза всякими сумнівами, почати будувати можна і з 40 доларів - різниця в 6 разів буде виглядати ще значніше.
Крім цього, можна намалювати мішечки зі знаком долара на них, як уособлення грошей, і уявити різницю між зарплатами за допомогою них. З одного боку, компанії А відповідає 2 мішечка по 50 доларів, а компанії Б всього 1. Але знову-таки, це недостатньо ефектно. Давайте-но краще намалюємо мішок, що відображає зарплату в компанії А, в два рази більше, ніж відповідний мішок для компанії Б.
Трюк полягає в тому, що замість збільшення площі мішка в 2 рази (якщо ми говоримо про двомірної зображенні мішка), ми збільшуємо кожну його сторону в 2 рази. Таким чином, візуально різниця виходить в 4 рази. Зрозуміло, якщо ми захочемо зробити тривимірну версію нашої ілюстрації, різниця складе вже 8 раз.
Складні причинно-наслідкові зв'язки
Припустимо, шкільного психолога доручили вивчити залежність між курінням і успішністю учнів. Психолог, вивчивши відповідні дані, отримує таку ситуацію: серед добре учнів дітей ніхто не курить, в той час як серед невстигаючих курять абсолютно все. Чи означає це, що куріння негативно впливає на успіхи в навчанні? Не факт.
Справа в тому, що ми не з'ясували, що є причиною, а що - наслідком. З одного боку, куріння може бути причиною поганої успішності учнів. Але з іншого боку, легко може виявитися, що саме погана успішність штовхає учнів стати курцями.
В даному випадку ми маємо справу з кореляцією (взаємозв'язок двох величин), але кореляція - не їсти причинно-наслідковий зв'язок. По-перше, не завжди ясно, що є причиною, а що наслідком, а по-друге, кореляція між будь-якими величинами не завжди і зовсім має практичний сенс.
похибки
Дуже важливо звертати увагу на похибки в дослідженнях. Уявіть, що ви хочете виміряти поле, довжина якого становить 100 метрів (але вам це невідомо). Кожен ваш крок приблизно дорівнює 1 метру, але за 100 метрів ви цілком можете помилитися метра на три. Інакше кажучи, вимірюючи поле, ви можете зробити висновок, що його довжина дорівнює і 97, і 99, і навіть 103 метрам. В даному випадку похибка дорівнює 3%.
Давайте розглянемо приклад, коли недбале ставлення до похибки розрахунків дослідження може привести до абсурдних результатів. Відомий тест по вимірюванню IQ Стенфорда-Біне має похибку в результатах вимірювань, рівну 3%.
Тепер уявіть, що дитина А отримав результат в 97 балів, а дитина Б - 103. З огляду на, що 100 балів - це середнє (або «нормальне»), виходить, що результат дитини А нижче середнього, а дитини Б - вище середнього. Проте, якщо згадати, що похибка вимірювань становить 3%, може легко вийти, що насправді у дитини А результат в 103 бали, а у дитини Б, навпаки, 97. Тому говорити, що дитина А розумніші Б, грунтуючись на IQ-тесті (що в цілому абсурдно), - не найкраща ідея.
висновок
Ми розглянули лише найпоширеніші методи маніпулювання даними за допомогою статистики. Проте, якщо вам хочеться продовжити вивчати дану тему, рекомендую книгу «Як брехати за допомогою статистики».
Головне - не залишати знання в теоретичній площині. Наступного разу, коли ви прочитаєте чергове дослідження або звіт (особливо, якщо мова піде про роботу, яку виконав президент за останні чотири роки), спробуйте підійти до справи більш скептично і дізнатися, про що саме йде мова і що саме означають результати.