Щоб порівнювати між собою різні джерела повідомлень і різні канали зв'язку необхідно ввести деяку кількісну міру, що дозволяє оцінювати міститься в повідомленні і переноситься сигналами інформацію. Суворі методи кількісного визначення інформації були запропоновані К. Шенноном в 1948р. і привели до побудови теорії інформації, яка є математичною основою теорії зв'язку, інформатики та ряду суміжних галузей науки і техніки.
Розглянемо спочатку основні ідеї цієї теорії стосовно дискретного джерела, що видає послідовність повідомлень. Нехай це джерело посилає повідомлення a з деякого ансамблю. Знайдемо визначення кількості інформації, що міститься в цьому повідомленні, виходячи з таких природних вимог:
1. Кількість інформації повинно бути адитивною величиною, тобто в двох незалежних повідомленнях воно повинно дорівнювати сумі кількості інформації в кожному з них.
2. Кількість інформації в повідомленні про достовірне подію дорівнює нулю.
3. Кількість інформації не повинно залежати від якісного змісту повідомлення, зокрема, від ступеня його важливості для одержувача, можливих наслідків його передачі, емоційного забарвлення і т.д.
Отже, для визначення кількості інформації в повідомленні необхідно грунтуватися тільки на такий параметр, який характеризує в узагальненому вигляді повідомлення a з ансамблю A. таким параметром, очевидно, є ймовірність р (a) того, що джерело посилає дане повідомлення. Отже, кількість інформації i (a). що міститься в повідомленні a, має бути функцією від тобто
Подальше уточнення шуканого визначення не складає труднощів, якщо врахувати перші два вимоги. Нехай a1 і a2 - два незалежних повідомлення. Імовірність того, що джерело пошле обидва ці повідомлення (одне за іншим), дорівнює р (a1, a2) = р (a1). р (a2), а інформація, що міститься в них, повинна задовольняти умові аддитивности, тобто i (a1, a2) = i (a1) + i (a2). Отже, необхідно знайти функцію від ймовірності р, що володіє тим властивістю, що при перемножуванні двох аргументів значення функції складаються. Єдина така функція - це логарифмічна i (a) = kl og р (a), де k- будь-яка постійна, а логарифм береться за будь-якої підстави. При такому визначенні кількості інформації виконується і друга вимога: при р (a) = 1 i (a) = kl og1 = 0.
Щоб кількість інформації вимірювати невід'ємним числом, будемо завжди вибирати k = -1, оскільки ФОРМУЛА (якщо підстава логарифма більше одиниці). Тому:
Підстава логарифма в (2.1) частіше вибирають рівним 2. Отримана при цьому одиниця інформації, носить назву двійкова одиниця, або біт. Вона дорівнює кількості інформації в повідомленні про подію, що відбувається з ймовірністю 0,5, тобто такому, яке з однаковою ймовірністю може відбутися або не відбутися. Така одиниця найбільш зручна внаслідок широкого використання двійкових кодів в обчислювальній техніці і зв'язку. У теоретичних дослідженнях іноді застосовують натуральний логарифм, вимірюючи інформацію в натуральних одиницях. Натуральна одиниця в рази більше двійковій. Ми будемо користуватися в основному двійковими одиницями, і в подальшому позначення l og означатиме двійковий логарифм.
Можна характеризувати ентропію також як міру різноманітності викликаються джерелом повідомлень.
Ентропія є основною характеристикою джерела, чим вона вища, тим важче запам'ятати (записати) повідомлення або передати його по каналу зв'язку. Необхідна в багатьох випадках витрата енергії на передачу повідомлення пропорційна його ентропії.
Основні властивості ентропії:
1. Ентропія неотрицательна. Вона дорівнює нулю тільки для "виродженого" ансамблю, коли одне повідомлення передається з ймовірністю 1, а решта мають нульову ймовірність.
2. Ентропія аддитивна. Тобто якщо розглядати послідовність з n повідомлень як одне "укрупнених" повідомлення. то ентропія джерела таких укрупнених повідомлень буде в n разів більше ентропії вихідного джерела.
3. Якщо ансамбль містить K різних повідомлень, причому рівність має місце тільки тоді, коли всі повідомлення передаються равновероятно і незалежно. Число K називається об'ємом алфавіту джерела.
Зокрема, для двійкового джерела без пам'яті, коли K = 2, ентропія максимальна при P (a1) = P (a2) = 0,5 і дорівнює l og2 = 1 біт. Залежність ентропії цього джерела від P (a1) = 1-P (a2) показана на малюнку.
Тобто кількість інформації в повідомленні тим більше, ніж воно менш імовірно, або, інакше, ніж воно більш несподівано.
Якщо джерело передає послідовність залежних між собою повідомлень, то отримання попередніх повідомлень може змінити ймовірність подальшого, а отже, і кількість інформації в ньому. Воно повинно визначатися по умовної ймовірності передачі даного повідомлення an при відомих попередніх an-1. an-2, ...:
Певний вище кількість інформації є випадковою величиною, оскільки самі повідомлення випадкові. Для характеристики всього ансамблю (або джерела) повідомлень використовується математичне сподівання кількості інформації, зване ентропією і позначається H (A):
Тут математичне очікування, як завжди, позначає усереднення по всьому ансамблю повідомлень. При цьому повинні враховуватися всі ймовірні зв'язки між різними повідомленнями.
Чим більше ентропія джерела, тим більше ступінь несподіванки переданих їм повідомлень в середньому, тобто тим більше невизначеним є очікуване повідомлення. Тому ентропію часто називають мірою невизначеності. Після прийому повідомлення, якщо воно приймається вірно, будь-яка невизначеність усувається. Це дозволяє трактувати кількість інформації як міру зменшення невизначеності.
називається надмірністю джерела з об'ємом алфавіту K. Вона показує, яка частка максимально можливої при цьому алфавіті ентропії не використовується джерелом.
Деякі джерела передають повідомлення з фіксованою швидкістю, витрачаючи в середньому час T на кожне повідомлення.
Продуктивністю (в біт на секунду) такого джерела H '(A) назвемо сумарну ентропію повідомлень, переданих за одиницю часу: