6.2. Висновок статистичних характеристик
Щоб отримати описову статистику числових змінних, можна клацнути в діалозі Frequencies на кнопці Statistics. (Статистика). Відкриється діалогове вікно Frequencies: Statistics (Частоти: Статистика).
Мал. 6.2: Діалогове вікно frequencies: Statistics
У групі Percentile Values (Значення процентилей) можна вибрати наступні варіанти:
Quartiles (кварт). Будуть показані перший, другий і третій квартили. Перший квартиль (Q1) - це точка на шкалі виміряних значень, нижче (лівіше) якої розташовуються 25% виміряних значень. Другий квартиль (Q2) - це точка, нижче якої розташовуються 50% виміряних значень. Другий квартиль також називається медіаною. Третій квартиль (Q3) - це точка на шкалі виміряних значень, нижче якої розташовуються 75% значень. Якщо дані є тільки в формі порядкового відносини, то як запобіжний розкиду використовується межквартільная широта. Вона визначається як- Cut points (Точки розділу). Будуть обчислені значення процентилей, що розділяють вибірку на групи спостережень, які мають однакову ширину, тобто включають один і той же кількість виміряних значень. За замовчуванням пропонується кількість груп 10. Якщо задати, наприклад, 4, то будуть показані квартили, тобто квартили відповідають процентилями 25, 50 і 75. Видно, що число показуються процентилей на одиницю менше заданого числа груп.
-
Percentile (s) (відсотків). Тут маються на увазі значення процентилей, визначені користувачем. Введіть значення процентиля в межах від 0 до 100 і клацніть на кнопці Add (Додати). Повторіть ці дії для всіх бажаних значень процентилей. Значення в порядку зростання будуть показані в списку. Наприклад, якщо ввести значення 25, 50 і 75, то ми отримаємо квартили. Можна задавати будь-які значення процентилей, наприклад, 37 і 83. У першому випадку (37) буде показано значення обраної змінної, нижче якого лежать 37% значень, а в другому випадку (83) - значення, нижче якого розташовуються 83% значень.
У групі Dispersion (Розкид) можна вибрати наступні заходи розкиду:
Std. deviation (Стандартне відхилення) - це міра розкиду виміряних величин; воно дорівнює квадратному кореню з дисперсії. В інтервалі шириною, рівній подвоєному стандартному відхиленню, який відкладений по обидва боки від середнього значення, розташовується приблизно 67% всіх значень вибірки, що підкоряється нормальному розподілу.S.E. mean (Стандартна похибка середнього значення) - В інтервалі шириною, рівній подвоєній стандартної помилку, відкладеному навколо середнього значення, розташовується середнє значення генеральної сукупності з імовірністю приблизно 67%. Стандартна помилка визначається як стандартне відхилення, поділене на квадратний корінь з обсягу вибірки.
Зазвичай заходами розкиду змінних, що відносяться до інтервального шкалою і підкоряються нормальному розподілу, служать стандартне відхилення і стандартна помилка. Як було сказано вище, стандартне відхилення дозволяє задати діапазон розкиду окремих значень. За так званим правилом кулака, в одному діапазоні стандартного відхилення (що охоплює ширину стандартного відхилення в обидві сторони від середнього значення) розташовується приблизно 67% значень, в діапазоні подвоєного стандартного відхилення - приблизно 95%, а в діапазоні потроєного стандартного відхилення - приблизно 99% значень .
З іншого боку, стандартна помилка дозволяє задати довірчий інтервал для середнього значення. В діапазоні подвоєною стандартної помилки з обох боків від середнього значення з імовірністю приблизно 95% знаходиться середнє значення генеральної сукупності. З ймовірністю приблизно 99% вона лежить в діапазоні потроєною стандартної помилки. Часто вказують тільки одну з цих двох заходів розкиду, зазвичай - стандартну помилку, так як її значення менше. У всіх випадках слід точно з'ясувати, яка із заходів розкиду мається на увазі.
У групі Central Tendency (Середні) можна вибрати наступні характеристики:
Mean (Середнє значення) - це арифметичне середнє виміряних значень; воно визначається як сума значень, поділена на їх кількість. Наприклад, якщо є 12 виміряних значень і їх сума становить 600, то середнє значення буде х = 600. 12 = 50.Median (Медіана) - це точка на шкалі виміряних значень, вище і нижче якої лежить по половині всіх виміряних значень. Наприклад, якщо виміряні значення такі:
то спочатку вони розташовуються в порядку зростання: 233445 67889.
В даному випадку медианой буде значення 5. Всього у нас 11 виміряних значень, отже, медианой є шостою значення. Вище нього розташовується 5 значень, і нижче - теж 5. При непарній кількості значень медіана завжди буде збігатися з одним з виміряних значень. При парній кількості медіана буде середнім арифметичним двох сусідніх значень. Наприклад, якщо є такі виміряні значення:
то медіана в цьому випадку буде дорівнює: (6 + 7). 2 = 6,5.
Mode (Мода) - це значення, яке найбільш часто зустрічається у вибірці. Якщо одна і та ж найбільша частота зустрічається у декількох значень, то вибирається найменше з них.Sum (Сума) - сума всіх значень.
У групі Distribution (Розподіл) можна вибрати наступні заходи несиметричності розподілу:
Skewness (коефіцієнт асиметрії) - це міра відхилення розподілу частоти від симетричного розподілу, тобто такого, у якого на однаковій відстані від середнього значення по обидва боки вибірки даних розташовується однакова кількість значень. Якщо спостереження підкоряються нормальному розподілу, то асиметрія дорівнює нулю. Для перевірки на нормальний розподіл можна застосовувати наступне правило: Якщо асиметрія значно відрізняється від нуля, то гіпотезу про те, що дані взяті з нормально розподіленої генеральної сукупності, слід відкинути. Якщо вершина асиметричного розподілу зрушена до менших значень, то говорять про позитивну асиметрії, в протилежному випадку - про негативну.Kurtosis (Коефіцієнт варіації або ексцес) - вказує, чи є розподіл пологим (при великому значенні коефіцієнта) або крутим. Коефіцієнт варіації дорівнює нулю, якщо спостереження підкоряються нормальному розподілу. Тому для перевірки на нормальний розподіл можна застосовувати ще одне правило: Якщо коефіцієнт варіації значно відрізняється від нуля, то гіпотезу про те, що дані взяті з нормально розподіленої генеральної сукупності, слід відкинути.
Як правило, для змінних, що відносяться до інтервального шкалою і підкоряються нормальному розподілу, в якості основної характеристики використовують середнє значення. а в якості міри розкиду - стандартне відхилення або стандартну помилку. Для порядкових або інтервальних змінних, які не підкоряються нормальному розподілу - відповідно медіану або перший і третій квартили. Для змінних відносяться до номінальної шкалою, не можна дати інших значущих характеристик крім моди.
У діалозі є ще один прапорець:
Values are group midpoints (Значення є середніми точками груп). Якщо встановити цей прапорець, то при обчисленні медіани і інших значень процентилей оцінки цих характеристик будуть визначатися для концентрованих даних. Цьому питанню присвячено окремий розділ.
Для змінної alter (вік) ми визначимо наступні характеристики: середнє значення, медіану, моду, квартили, стандартне відхилення, дисперсію, розмах, мінімум, максимум, стандартну помилку, асиметрію і ексцес. Вчините так:
Виберіть в меню команди Analyze (Аналіз) / Descriptive Statistics (Дескриптивні статистики) / Frequencies. (Частоти)У діалозі Frequencies деактивуйте опцію Display frequency tables (Показувати частотні таблиці). Клацніть на кнопці ОК.