Ймовірно, Ви добре знаєте, що таке середнє арифметичне. Якщо ми маємо набір якихось величин, і всі вони однієї природи (усереднювати кілограми з кілометрами ми, звичайно, не можемо), треба порахувати суму, а потім, поділивши її на кількість доданків, знайти середнє арифметичне. Здавалося б, просте і добре знайоме дію, але і тут є кілька проблем для обговорення. При знайомстві з деякими "показниками" мимоволі пригадується відомий жарт про "середню температуру по лікарні".
Приклад. Припустимо, фірма має два намети, які торгують гарячою випічкою, яку вони печуть на місці з напівфабрикатів. У таблиці наводиться приблизна зведення щоденної виручки кожної з наметів за тиждень (в руб.).
Різниця в щоденній виручці в основному пов'язано з розташуванням наметів. Намет 1 знаходиться в парку відпочинку, в той час як Намет 2 розташована навпроти школи і поблизу прохідної великого НДІ.
Власник фірми вирішив виплачувати щомісячну премію продавцям тієї намети, яка дасть в цьому місяці більшу виручку. При розподілі премії з'ясувалася дивна річ: виграш в цьому "змаганні" залежав тільки від кількості вихідних в місяці.
Не хотілося б наводити велику кількість цифр за весь місяць в цілому, але і без цього видно, що якби власнику фірми прийшла в голову ідея щоденного преміювання переможця якийсь фіксованою сумою, "Палатка вихідного дня" могла б розраховувати на премії в два з половиною рази рідше, хоча тижнева виручка від неї більше.
В таких умовах більш розумне змагання могло б бути засноване на осреднении показників за тиждень. Припустимо, тижневі показники практично збіглися. Як оцінити, яка з наметів корисніше для фірми, якщо з якихось причин фірмі необхідно продати одну з них?
Якщо виручка практично збігається, власник, мабуть, поцікавиться стабільністю роботи торгової точки. Провини продавців в цьому немає, але якщо обладнання працює два дні на тиждень на знос, а в решту часу більше простоїв, вихід з ладу такого обладнання більш імовірний. Нехай в один (випадковим чином випав) день в тиждень йде сильний дощ, і на вулицях мало перехожих, падіння виручки особливо різко помітно, коли такий дощовий день збігається з одним з вихідних. Для порівняння можна уявити спортсменів, які мають рівні шанси виграти, але один з них виступає рівніше. Швидше за все, саме він і буде прийнятий до складу збірної.
Але ось ще одне питання: а чи не робить ця найнестабільніша намет роботу фірми в цілому більш стабільною, прекрасно доповнюючи роботу намети 2? Давайте висунемо це твердження як гіпотезу і спробуємо його довести або спростувати. Щоб оцінити цю проблему кількісно, треба перш за все підсумувати денну виручку обох наметів.
Те, що ми описали загальними словами як "нестабільність роботи", в статистиці називається характеристикою розсіювання. До них відносяться такі показники як дисперсія і середнє квадратичне відхилення. Покажемо на попередньому прикладі, як визначаються ці поняття. Порахуємо спочатку середнє арифметичне виручки для кожного намету окремо, і для обох наметів разом (осреднение проводимо за сім днів):
Щоб порівняти розкид значень, порахуємо для обох наметів денні відхилення виручки від їх власного середнього значення.
Щоб виміряти, наскільки одна палатка "нестабільнішою" інший, хочеться скласти всю рядок за тиждень і отримати загальне відхилення за весь звітний період. Але цього робити не можна, ми самі так побудували ці показники, що, склавши, отримаємо нуль (з точністю до похибки округлення - середнє арифметичне величина не обов'язково ціла). Щоб уникнути цього обнулення, нам треба, щоб кожне відхилення від середнього арифметичного "позбулося" свого знака. Для цього зводять кожну величину в квадрат, і лише потім підсумовують весь ряд значень.
Щоб не залежати від періоду осереднення ділять отриману суму квадратів на число доданків (в нашому випадку, як і раніше на сім). Така величина називається дисперсією.
Ми бачимо, що дисперсія дійсно дуже показова величина. У "Намети вихідного дня" вона вище більш. ніж в десять разів. Дисперсію можна порахувати в Excel автоматично, навіть не рахуючи попередньо середнє арифметичне, програма зробить це сама. Для цього, перебуваючи в файлі Excel, натисніть у верхньому меню кнопку fx. Потім, виберіть серед функцій тип "СТАТИСТИЧНІ", і із запропонованого переліку в віконці - ДІСПР. Потім, за підказкою, поставивши курсор в поле "Число 1" проведіть мишею уздовж рядка з набраними значеннями. Цей вид підрахунку називається "обчислення зміщеною дисперсії по генеральної сукупності".
Дисперсією часто користуються, але більш зручна характеристика носить назву середнє відхилення (зазвичай позначається грецькою буквою омега. Середнє квадратичне відхилення - це квадратний корінь з дисперсії, він зручний тим, що має ту ж розмірність, що і вихідні величини. Так, в нашому випадку , дисперсія мала б розмірність "рублі в квадраті", в той час як середнє відхилення виходить просто і звично, в рублях.
У нашому прикладі, видно, що сумарна дисперсія і середнє квадратичне відхилення у двох наметів разом все-таки вище, ніж у одній першого намету, причому середнє відхилення вище більш. ніж в два рази. Значить, наша гіпотеза про "підвищеної стабільності суми" за рахунок присутності другої намети неспроможна.
Іноді, замість середнього арифметичного вживають інші характерні величини, якщо це з якихось причин краще описує вибірку.
Так якщо розставити вибірку по зростанню (або зменшенням) тієї величини, яку ми цікавимося, то медіана - це те, що буде рівно посередині "ладу". Наприклад, якщо ми розташуємо по порядку тривалості інтервали часу: секунда, хвилина, година, доба і тиждень - то медіаною буде годину.
Ще одне поняття для заміни середнього - мода. Сама назва дозволяє легко запам'ятати це визначення. Якщо ми вибудуємо по порядку всі пари взуття на складі за розміром, то найбільш ходовий розмір буде модою. Мода - це те, що неодмінно повинні враховувати виробники упаковок і фасувальники. Якби більшість людей купувало за один раз стакан молока, молочні пакети не були б літровими.
У наступному параграфі ми почнемо працювати з випадковими величинами, що мають нормальний розподіл. і ці поняття нам знову зустрінуться.
Віджет для обчислення середнього, моди і медіани.
Введіть свої дані, встановіть, що треба знайти і натисніть кнопку equals.