Ентропія і надмірність джерела повідомлень

Розглянемо джерело інформації, який видає послідовність незалежних дискретних повідомлень xi. Кожне повідомлення випадковим чином вибирається з алфавіту джерела X = x1 ... xn (n - розмір алфавіту джерела). Таке джерело інформації називається джерелом без пам'яті з кінцевим дискретним алфавітом, а повідомлення, що виробляються їм, називаються простими. Надалі, для спрощення розрахунків, будемо працювати саме з такими джерелами.

Кількість інформації, що міститься в одному елементарному повідомленні джерела (див. Формулу 7) ще ніяк його не характеризує, так як одні елементарні повідомлення можуть нести в собі багато інформації, але при цьому передаватися рідко, а інші повідомлення можуть нести мало інформації, але передаватися часто . Тому джерело може бути охарактеризований середньою кількістю інформації, а саме в одне елементарне повідомлення - ентропія джерела [1, 6, 7]:

де X - алфавіт повідомлень джерела інформації; n - розмір алфавіту джерела.

Ентропія має низку властивостей:

1. По-перше, Н (Х) ≥ 0. Позитивність Н (Х) видно з (8), так як ймовірності позитивні і укладені між нулем і одиницею, логарифми таких чисел негативні, а рівність нулю можливо тільки для такого випадку, коли ймовірність появи одного з повідомлень джерела дорівнює одиниці, а для інших дорівнює нулю.

2. По-друге, при заданому розмірі алфавіту джерела n ентропія максимальна і дорівнює Н (Х) = log2n. коли ймовірності появи повідомлень джерела рівні, тобто повідомлення різновірогідні.

3. По-третє, ентропія має властивість адитивності:

де Н (Х) - ентропія першого джерела інформації; Н (Y) - ентропія другого джерела інформації.

Приклад 2. Уявімо джерело повідомлень у вигляді кошика, в якій знаходяться кулі трьох кольорів: червоний, зелений і синій. Дані кулі (повідомлення) визначають розмір алфавіту джерела.

Розрахуємо ентропію джерела повідомлень якщо:

1) червоних куль - 7 шт. зелених куль - 5 шт. синіх куль - 2 шт.

2) червоних, зелених і синіх куль - 2 шт.

Рішення: В кошику знаходяться кулі трьох кольорів, отже, розмір алфавіту джерела n = 3.

Розрахуємо ентропію джерела:

Як видно з вищевикладеного, ентропія визначає середнє число двійкових знаків, необхідних для кодування вихідних символів джерела інформації. Вона максимальна, коли символи виробляються джерелом з однаковою ймовірністю. Якщо ж деякі символи з'являються частіше за інших, ентропія зменшується. Чим менше ентропія джерела відрізняється від максимальної, тим раціональніше він працює, тим більша кількість інформації несуть його символи.

Для порівняння джерел по їх інформативності вводиться параметр, званий надмірністю і рівний [1, 6, 7]:

де Нmax (Х) - максимальна ентропія джерела.

Джерело, надмірність якого R = 0, називають оптимальним. Всі реальні джерела мають надмірність R ≠ 0.

Припустимо, що ми отримали однакову кількість інформації I0 від реального і оптимального джерел. Тоді число символів k. витрачених на передачу цієї кількості інформації реальним джерелом, буде більше числа символів kmin витрачених оптимальним джерелом. Знаючи число символів k і kmin можна також розрахувати надмірність:

Надмірність збільшує час передачі інформації, тому вона небажана. Однак, при передачі повідомлень, при наявності перешкод в каналі зв'язку, надмірність використовується для збільшення перешкодозахищеності переданих повідомлень (завадостійке кодування).

Приклад 3. Нехай джерело інформації передає російський текст. Якщо не розрізняти букви «е» і «е», а також м'який і твердий знаки, то в російській алфавіті 31 літера; додамо пробіл між словами і отримаємо 32 символу.

Покажемо, що пятіразрядний двійкового коду (код Боде) не є оптимальним для передачі російського тексту.

Рішення: В даному коді на подання кожної букви витрачаються п'ять елементарних символів. Максимальна ентропія джерела, що використовує для передачі російського алфавіту п'ятизначний код Боде дорівнює Нmах (X) = log2 32 = 5 (біт). В даному випадку вважається, що всі літери російського алфавіту мають однакову ймовірність і статично незалежні.

З урахуванням різної ймовірності появи букв в тексті ентропія дорівнює:

З урахуванням кореляції між двома і трьома сусідніми буквами ентропія дорівнює:

4. З урахуванням кореляції між вісьмома і більше символами ентропія дорівнює:

Далі все залишається без змін.

Розрахуємо надмірність представленого джерела інформації при кодуванні символів пятіразрядний двійковим кодом Боде:

Таким чином, можна зробити висновок, що кожні 6 букв з десяти є надлишковими і можуть просто не бути передано, тобто надмірність російського тексту становить 60%.

Такий же і більш високою надмірністю володіють і інші джерела інформації - мова, музика, ТВ зображення і т.д.

Знаючи ентропію Н (X) і час. яке займає в середньому кожне елементарне повідомлення, можна розрахувати одну з найважливіших характеристик джерела - продуктивність (середня кількість інформації в одиницю часу) [1, 6, 7]:

Схожі статті