Парадокс Сімпсона (Парадокс Юла-Сімпсона, парадокс об'єднання) - ефект, явище в статистиці, коли при наявності двох груп даних, в кожній з яких спостерігається однаково спрямована залежність, при об'єднанні цих груп напрямок залежності змінюється на протилежне.
Історія відкриття парадоксу
Приклад з фішками
Нехай є чотири капелюхи (дві чорних і дві сірих), 41 фішка (23 кольорових і 18 білих) і два столи (А і Б). Фішки розподілені по капелюхів наступним чином:
- У чорній капелюсі на столі А лежать 5 кольорових і 6 білих фішок.
- У сірому капелюсі на столі А лежать 3 кольорові і 4 білі фішки.
- У чорній капелюсі на столі Б лежать 6 кольорових і 3 білих фішки.
- У сірому капелюсі на столі Б лежать 9 кольорових і 5 білих фішок.
Припустимо, що ви хочете витягнути кольорову фішку.
Якщо ви перебуваєте біля столу А, то ймовірність отримати кольорову фішку з чорної капелюхи дорівнює 5/11 = 35/77. а з сіркою капелюхи на тому ж столі - 3/7 = 33/77; таким чином, кольорову фішку більше шансів витягнути з чорної капелюхи, ніж з сіркою.
Якщо ви перебуваєте біля столу Б, то ймовірність отримати кольорову фішку з чорної капелюхи дорівнює 6/9 = 28/42. а з сіркою капелюхи - 9/14 = 27/42; таким чином, і тут кольорову фішку більше шансів витягнути з чорної капелюхи, ніж з сіркою.
Припустимо тепер, що фішки з двох чорних капелюхів складені в одну чорну капелюх на столі В, а фішки з двох сірих капелюхів - в одну сіру капелюх на столі В. На перший погляд, логічно було б припустити, що ймовірність витягнути кольорову фішку з чорної капелюхи вище, ніж з сіркою. Але це невірно:
- ймовірність витягнути кольорову фішку з чорної капелюхи на столі В дорівнює 11/20 = 231/420,
- ймовірність витягнути кольорову фішку з сірої капелюхи на столі В дорівнює 12/21 = 240/420,
тобто більше шансів отримати кольорову фішку з сірої капелюхи, ніж з чорною [4].
Приклад з камінням
Нехай ми маємо чотири набори каменів. Імовірність витягнути чорний камінь з набору №1 вище, ніж з набору №2. У свою чергу, ймовірність витягнути чорний камінь з набору №3 більше, ніж з набору №4. Об'єднаймо набір №1 з набором №3 (отримаємо набір I), а набір №2 - з набором №4 (набір II). Інтуїтивно можна очікувати, що ймовірність витягнути чорний камінь з набору I буде вище, ніж з набору II. Однак в загальному випадку таке твердження не так.
Доведення таке. Нехай n i> - число чорних каменів в i-му наборі (вибірці), m i> - загальне число каменів в i-му наборі при i = 1. 2. 3. 4. За умовою:
Імовірність витягнути чорний камінь з наборів I і II, відповідно:
Вираз для набору I не завжди більше вирази для набору II. Наприклад: n 1 = 6. m 1 = 13. n 2 = 4. m 2 = 9. n 3 = 6. m 3 = 9. n 4 = 9. m 4 = 14 = 6,
Співвідношення зваженого кількості видужали до НЕ видужалою серед які не брали ліки в цьому випадку складе 0,685, тобто нижче, ніж у приймали ліки. Це усуває парадокс і показує відношення видужали до НЕ видужалою без прийому ліків для такій же пропорції чоловіків і жінок, як у приймали ліки, що дозволяє порівнювати ці цифри.