Як видно звичайний лист, заповнений значеннями, в плані синтаксису помилок немає, але є один мінус, все значення були введені вручну. З одного боку значень не багато, всього 26, в принципі можна і ввести, але якщо, наприклад, знадобитися додати ще один такий же лист, який буде містити всі літери російського алфавіту або відразу два списки обох алфавітів в нижньому регістрі, як бути тоді , теж все руками вводити? Звичайно, можна знайти і скопіювати вже готовий список значень і нічого вводити вручну не доведеться, але є ще один спосіб, про нього я розповім в цій статті.
Як отримати всі букви англійського алфавіту
Для початку згадуємо, що є така річ, як Unicode. Юнікод - це стандарт кодування символів, який дозволяє представити знаки практично всіх письмових мов Вікіпедія. В даний момент в ньому зарезервовано 1.112.064 позицій символів, з яких зараз використовується трохи більше 100 000. Кодова простір Unicode розділене на 17 площин. Нас цікавить нульова (базова багатомовна) площину, що має діапазон від U + 0000 до U + FFFF. Нульова площина, містить символи, часто уживаних писемностей і так само розбита на певні області (діапазони).
Всі області нас, звичайно ж, не цікавлять, будемо працювати лише з деякими діапазонами значень. І так, наприклад, в нашій програмі потрібно отримати всі букви англійського алфавіту від A до Z. Відразу треба пояснити, що Юнікод не містить букви англійського алфавіту, точно так же, як і не містить букви німецького, російського алфавіту. А все тому, що хоч ми і говоримо, наприклад букви англійського алфавіту, насправді всі букви німецького, італійського, французького і того ж англійської мови складаються з 26 букв латинського алфавіту. Тому нам потрібно шукати область, виділену під латиницю.
Основний діапазон, виділений під латиницю від U + 0020 до U + 007F (Основна латиниця), де U Unicode, а слідом йдуть чотири шістнадцятирічних числа. Вся ця область нам, звичайно ж, не потрібна, тому що крім букв, в нёй так само міститься ще багато інших знаків і чисел, які нас поки що не цікавлять.
Результати ті ж.
Виділена область під латиницю займає діапазон від \ u0020 до \ u007F (\ x20 - \ x7F). Цей основний діапазон, який крім букв, так само містить числа і символи (%, $, #), нам же потрібен відрізок, який містить тільки букви латинського алфавіту. Відразу хочу сказати, що букви представлені, як в верхньому регістрі, тобто всі букви від A до Z великі, так і в нижньому регістрі, коли всі букви від a до z маленькі.
Набираємо команду для організації і проведення вебінарів Детальніше.
Область, виділена під літери верхнього регістру: від \ x41 до \ x5А