Гістограма (статистика)

Графічно гістограма будується наступним чином. Спочатку безліч значень, що може приймати елемент вибірки, розбивається на кілька інтервалів (bins). Найчастіше ці інтервали беруть однаковими, але це не є суворою вимогою. Ці інтервали відкладаються на горизонтальній осі, потім над кожним малюється прямокутник. Якщо все інтервали були однаковими, то висота кожного прямокутника пропорційна числу елементів вибірки, що потрапляють в відповідний інтервал. Якщо інтервали різні, то висота прямокутника вибирається таким чином, щоб його площа була пропорційна числу елементів вибірки, які потрапили в цей інтервал.

Нехай X 1. .... X n. ..., \ ldots, X _, \ ldots> - вибірка з деякого розподілу. Визначимо розбиття числової прямої - ∞ . нехай

- число елементів вибірки, що потрапили в i -й інтервал. Тоді кусочно-постійна функція h

(X) = n i n Δ a i. Δ a i = a i - a i - 1. i = 1. .... k> (x) = >>>, \ Delta a_ = a_-a _, \; i = 1, \ ldots, k \;>. - називається нормалізованої гистограммой.

Нормалізована гістограма є щільністю ймовірності. Зокрема:

Гістограма абсолютно неперервного розподілу

Таким чином площа фігури під нормализованной гистограммой, обмеженою інтервалом (ai - 1. ai], a _]>. Наближається до ймовірності прийняття значень всередині цього інтервалу будь-який з випадкових величин X j>. Однак, нормалізована гістограма не сходиться поточечно до теоретичної щільності розподілу цих випадкових величин.

Гістограми застосовуються в основному для візуалізації даних на початковому етапі статистичної обробки.

Побудова гістограм використовується для отримання емпіричної оцінки щільності розподілу випадкової величини. Для побудови гістограми спостережуваний діапазон зміни випадкової величини розбивається на кілька інтервалів і підраховується частка від усіх вимірів, що потрапила в кожен з інтервалів. Величина кожної частки, віднесена до величини інтервалу, приймається в якості оцінки значення щільності розподілу на відповідному інтервалі.

Істотним для побудови гістограми є вибір оптимального розбиття, оскільки при збільшенні інтервалів знижується деталізація оцінки щільності розподілу, а при зменшенні падає точність її значення. Для вибору оптимальної кількості інтервалів n часто застосовується правило Стерджес

Також часто зустрічається правило, оцінює оптимальну кількість інтервалів як квадратний корінь із загального числа вимірів:

Схожі статті