5. Основні проблеми прикладної статистики - опис даних, оцінювання і перевірка гіпотез
Вибіркові характеристики розподілу
Крім емпіричної функції розподілу, для опису даних використовують і інші статистичні характеристики. Як вибіркових середніх величин постійно використовують вибіркове середнє арифметичне, тобто суму значень даної величини, отриманих за результатами випробування вибірки, поділену на її обсяг:
де n - обсяг вибірки, xi - результат вимірювання (випробування) i -ого елемента вибірки.
Інший вид вибіркового середнього - вибіркова медіана. Вона визначається через порядкові статистики.
Порядкові статистики - це члени варіаційного ряду, який виходить, якщо елементи вибірки x1, x2, ..., xn розташувати в порядку неспадання:
У варіаційному ряду елемент x (k) називається k-тої порядкової статистикою. Порядкові статистики і функції від них широко використовуються в ймовірносно-статистичних методах прийняття рішень, в економетрики та в інших прикладних областях [2].
Вибіркова медіана - результат спостереження, який займає центральне місце в варіаційному ряду, побудованому за вибіркою з непарним числом елементів, або полусумма двох результатів спостережень, що займають два центральних місця в варіаційному ряду, побудованому за вибіркою з парним числом елементів. Таким чином, якщо обсяг вибірки n - непарне число, n = 2k +1, то медіана = x (k +1), якщо ж n - парне число, n = 2k. то медіана = [x (k) + x (k +1)] / 2, де x (k) і x (k +1) - порядкові статистики.
Як вибіркових показників розсіювання результатів спостережень найчастіше використовують вибіркову дисперсію, вибіркове середньоквадратичне відхилення і розмах вибірки.
Згідно [8] вибіркова дисперсія s2 - це сума квадратів відхилень вибіркових результатів спостережень від їх середнього арифметичного, поділена на обсяг вибірки:
Вибіркове середнє відхилення s - невід'ємні квадратний корінь з дисперсії, тобто
У деяких літературних джерелах вибіркової дисперсією називають іншу величину:
Вона відрізняється від s2 постійним множником:
Відповідно вибірковим середнім квадратичним відхиленням в цих літературних джерелах називають величину Тоді, очевидно,
Різниця в термінах призводить до різниці в алгоритмах розрахунків, правила прийняття рішень і відповідних таблицях. Тому при використанні тих чи інших нормативно-технічних та інструктивно-методичних матеріалів, програмних продуктів, таблиць необхідно звертати увагу на спосіб визначення вибіркових характеристик.
Вибір, а не s2. пояснюється тим, що
де Х - випадкова величина, що має таке ж розподіл, як і результати спостережень. У термінах теорії статистичного оцінювання це означає, що - несмещенная оцінка дисперсії (див. Нижче). У той же час статистика s2 не є несмещенной оцінкою дисперсії результатів спостережень, оскільки
Однак у s2 є інша властивість, що виправдує використання цієї статистики в якості вибіркового показника розсіювання. Для відомих результатів спостережень x1, x2, ..., xn розглянемо випадкову величину У з розподілом ймовірностей
і Р (У = х) = 0 для всіх інших х. Цей розподіл ймовірностей називається емпіричним. Тоді функція розподілу У - це емпірична функція розподілу, побудована за результатами спостережень x1, x2, ..., xn. Обчислимо математичне сподівання і дисперсію випадкової величини У:
Друге з цих рівностей і є підставою для використання s2 як вибіркового показника розсіювання.
Відзначимо, що математичні очікування вибіркових середніх квадратичних відхилень М (s) і М (s0), взагалі кажучи, не дорівнюють теоретичного середньому квадратичному відхиленню # 963 ;. Наприклад, якщо Х має нормальний розподіл, обсяг вибірки n = 3, то
Крім перерахованих вище статистичних характеристик, як вибіркового показника розсіювання використовують розмах R - різниця між n -й і першої порядковими статистиками в вибірці обсягу n. тобто різниця між найбільшим і найменшим значеннями в вибірці: R = x (n) - x (1).
У ряді ймовірносно-статистичних методів застосовують і інші показники розсіювання. Зокрема, в методах статистичного регулювання процесів використовують середній розмах - середнє арифметичне розмахів, отриманих в певній кількості вибірок однакового обсягу. Популярно і межквартільное відстань, тобто відстань між вибірковими квартилями x ([0,75n]) і x ([0,25n]) порядку 0,75 і 0,25 відповідно, де [0,75n] - ціла частина числа 0,75n. а [0,25n] -метою частина числа 0,25n.