В цьому випадку двійкового коду первинного алфавіту будується ланцюжками рівної довжини, тобто з усіма знаками пов'язано однакову кількість інформації дорівнює I (А) = log2N. Формувати ознака кінця знака не потрібно, тому для визначення довжини коду можна скористатися формулою К (А, 2)> log2N. Приймальний пристрій просто відраховує обумовлене заздалегідь кількість елементарних сигналів і інтерпретує ланцюжок (встановлює, якого знаку вона відповідає), співвідносячи її з таблицею кодів. Правда, при цьому неприпустимі збої, наприклад, пропуск (непрочитані) одного елементарного сигналу призведе до зсуву всієї кодової послідовності і неправильної її інтерпретації; вирішується проблема шляхом синхронізації передачі або іншими способами, про які піде мова в гл. 5. З іншого боку, застосування рівномірного коду виявляється одним із засобів контролю правильності передачі, оскільки факт надходження зайвого елементарного сигналу або, навпаки, надходження неповного коду відразу інтерпретується як помилка.
Іншим важливим для нас прикладом використання рівномірного алфавітного кодування є представлення символьної (знакової) інформації в комп'ютері. Щоб визначити довжину коду, необхідно почати з встановлення кількість знаків в первинному алфавіті. Комп'ютерний алфавіт повинен включати:
· 26 х 2 = 52 букв латинського алфавіту (з урахуванням великих і малих);
· 33 х 2 = 66 букв російського алфавіту;
· Цифри 0. 9 - всього 10;
· Знаки математичних операцій, знаки пунктуації, спеціальні символи ≈ 20.
Отримуємо, що загальне число символів N ≈ 148. Тепер можна оцінити довжину кодової ланцюжка: К (с, 2) ≥ log2 148 ≥ 7,21. Оскільки довжина коду виражається цілим числом, очевидно, К (с, 2) = 8. Саме такий спосіб кодування прийнятий в комп'ютерних системах: будь-якому символу ставиться у відповідність код з 8 двійкових розрядів (8 біт). Ця послідовність зберігається і обробляється як єдине ціле (тобто не маєте доступу до окремого біту) - з цієї причини розрядність пристроїв комп'ютера, призначених для зберігання або обробки інформації, кратна 8. Сукупність восьми пов'язаних біт отримала назву байт, а уявлення таким чином символів - байтовим кодуванням.
Байт поряд з бітом може використовуватися як одиниця вимірювання кількості інформації в повідомленні. Один байт відповідає кількості інформації в одному символі алфавіту при їх равновероятном розподілі. Цей спосіб вимірювання кількості інформації називається також об'ємним. Нехай є деяка повідомлення (послідовність знаків); оцінка кількості міститься в ньому інформації згідно розглянутому раніше вероятностному підходу (за допомогою формули Шеннона (2.17)) дає Iвер. а об'ємна міра нехай дорівнює Iоб; співвідношення між цими величинами випливає з (2.7):
Саме байт прийнятий в якості одиниці вимірювання кількості інформації в міжнародній системі одиниць СІ. 1 байт = 8 біт. Поряд з байтом для вимірювання кількості інформації використовуються більші похідні одиниці:
Використання 8-бітних ланцюжків дозволяє закодувати 2 8 = 256 символів, що перевищує оцінене вище N і, отже, дає можливість вжити решту кодової таблиці для подання додаткових символів.
Однак недостатньо тільки домовитися про певну довжині коду. Ясно, що способів кодування, тобто варіантів зіставлення знакам первинного алфавіту восьмибітних ланцюжків, дуже багато. З цієї причини для сумісності технічних пристроїв і забезпечення можливості обміну інформацією між багатьма споживачами потрібне узгодження кодів. Подібне узгодження здійснюється у формі стандартизації кодових таблиць.
Першим таким міжнародним стандартом, який застосовувався на великих обчислювальних машинах, був EBCDIC (Extended Binary Coded Decimal Interchange Code) - «розширена двоичная кодування десяткового коду обміну». У персональних комп'ютерах і телекомунікаційних системах застосовується міжнародний байтовий код ASCII (American Standard Code for Information Interchange - «американський стандартний код обміну інформацією»).
Він регламентує коди першої половини кодової таблиці (номери кодів від 0 до 127, тобто перший біт всіх кодів 0). У цю частину потрапляють коди великих і малих англійських літер, цифри, розділові знаки і математичних операцій, а також деякі керуючі коди (номери від 0 до 31), що виробляються при використанні клавіатури. Нижче наведені деякі ФSC -коди:
Друга частина кодової таблиці - вона вважається розширенням основний - охоплює коди в інтервалі від 128 до 255 (перший біт всіх кодів 1). Вона використовується для представлення символів національних алфавітів (наприклад, російського), а також символів псевдографіки. Для цієї частини також є стандарти, наприклад, для символів російської мови це ЯКІ-8, ЯКІ-7 та ін.
Як в основній таблиці, так і в її розширенні коди букв і цифр відповідають їх лексикографічним порядку (тобто порядку проходження в алфавіті) - це забезпечує можливість автоматизації обробки текстів і прискорює її.
В даний час з'явився і знаходить все більш широке застосування ще один міжнародний стандарт кодування -Unicode. Його особливість в тому, що в ньому використано 16-бітове кодування, тобто для подання кожного символу відводиться 2 байти. Така довжина коду забезпечує включення в первинний алфавіт 65536 знаків. Це, в свою чергу, дозволяє створити і використовувати єдину для всіх поширених алфавітів кодову таблицю.
Повернутися в зміст: Теоретичні основи інформатики