Алфавітний підхід до вимірювання інформації

Тема: «Алфавітний підхід до вимірювання інформації».

Найпростіше розібратися в цьому на прикладі тексту, написаного на якому - небудь мові. Для нас зручніше, щоб була російська мова.

Всі безліч використовуваних в мові символів будемо традиційно називати алфавітом. Зазвичай під алфавітом розуміють тільки букви, оскільки в тексті можуть зустрічатися знаки пунктуації, цифри, дужки, то ми їх теж включимо в алфавіт. В алфавіт також слід включити і пробіл (проміжок між словами).

Повне число символів алфавіту прийнято називати потужністю алфавіту. Наприклад, потужність алфавіту з російських букв і додаткових символів дорівнює 54.

Уявіть собі, що текст до вас надходить послідовно, по одному знаку, немов паперова стрічка, виповзає з телеграфного апарату. Припустимо, що кожен з'являється на стрічці символ з однаковою ймовірністю може бути будь-яким символом алфавіту.

У кожній черговій позиції тексту може з'явитися будь-який з N символів. Кожен символ несе i біт інформації; число i можна визначити з рівняння:

Ось скільки інформації несе один символ в російській тексті! А тепер для того, щоб знайти кількість інформації у всьому тексті, потрібно порахувати число символів в ньому і помножити на i.

Візьмемо з книжкової полиці, яку - небудь книгу і порахуємо кількість інформації на одній її сторінці. Нехай сторінка містить 50 рядків. У кожному рядку - 60 символів. Значить, на сторінці вміщується 50x60 = 3000 знаків. Тоді обсяг інформації буде дорівнює:

Отже, при алфавітному підході до вимірювання інформації кількість інформації від змісту не залежить. Кількість інформації залежить від обсягу тексту (тобто від числа знаків в тексті) і від потужності алфавіту.

Звідси випливає, наприклад, що не можна порівнювати інформаційні обсяги текстів, написаних на різних мовах, тільки за обсягом. У них відрізняється інформаційні ваги одного символу так як потужності алфавітів різних мов - різні.

Але якщо книги написані однією мовою, то зрозуміло, що в товстій книзі інформації більше, ніж в тонкій. При цьому змістовна сторона книги в розрахунок не береться.

Сформулюємо правило, як виміряти інформацію, використовуючи для цього алфавітний підхід.

Кількість інформації, що міститься в символьному повідомленні, так само К x i, де К-число символів в тексті повідомлення, а i - інформаційний вага символу, який знаходиться з рівняння 2 i = N, де N - потужність використовуваного алфавіту.

Застосування алфавітного підходу зручно перш за все при використанні технічних засобів роботи з інформацією. В цьому випадку втрачають сенс поняття «нові - старі», «зрозумілі - незрозумілі» відомості. Алфавітний підхід є об'єктивним способом вимірювання інформації на відміну від суб'єктивного, змістовного, походу.

1.Докажіте, що, виходячи з алфавітного підходу, повідомлення будь-якої довжини,

використовує Односимвольний алфавіт містить нульову інформацію.

У денном випадку N = 1, тому що 2 ^ i = N, то i = 0. Оскільки К (кількість символів в повідомленні) у нас довільне, позначимо його за x. Для знаходження кількості інформації в тексті, що містить x символів (в даному випадку) отримаємо вираз: x * 0. Цей вислів буде дорівнювати 0 при будь-якому значенні x. Що потрібно було довести.

2.Два тексту містять однакову кількість символів. Перший текст складений в алфавіті потужністю 32 символу, другий - потужністю 64 символу. У скільки разів відрізняється кількість інформації в цих текстах?

1) N = 32 32 = 2 ^ i i = 5 біт

2) N = 64 64 = 2 ^ i i = 6 біт

a. 20 * 16 = 320 (симв.) - на похвальне аркуші.

b. 1600 \ 320 = 5 (біт) - вага одного символу.

4.У книзі, написаній російською мовою 68 сторінок. На кожній сторінці 45 рядків, в кожному рядку 20 символів. Яка кількість інформації буде втрачено з книги, і яке залишиться, якщо в ній шкідливий учень Вовочка Сидоров вирве 2 сторінки.

1) 45 * 20 = 900 (симв.) - на одній сторінці.

2) 900 * 68 = 61200 (симв.) - у всій книзі.

3) 61200 * 54 = 3304800 (біт) - всього в книзі.

4) (900 * 2) * 54 = 57200 (біт) - втрачено на двох сторінках.

5) 3304800-57200 = 3247600 (біт) - залишилося.

Відповідь: втрачено 57200 біт, залишилося 3247600 біт.

Схожі статті

Одиниці виміру інформації