Оптичне розпізнавання символів (OCR) - це процес вилучення тексту з зображення сторінки. Зображення сторінки є електронне зображення тексту та інших можливих елементів (заголовків, зображень та ін.). Зображення сторінок можуть виходити в результаті сканування паперового документа або відкриття файлу зображення. Такі файли можна отримати по електронній пошті, по факсу або з власного сканера.
Ці зображення не містять тексту для редагування. Вони являють собою безліч точок (пікселів), які всі разом утворюють малюнок тексту. За допомогою розпізнавання відбувається перевірка зображення тексту і створення тексту, який можна редагувати на комп'ютері, без повторного набору вручну.
Зображення обробляється за допомогою технології оптичного розпізнавання, і з нього створюється текст.
Під час розпізнавання програма OmniPage використовує параметри, вибрані на на панелі інструментів OmniPage для визначення потоку тексту на сторінці, а також створює впорядковані області навколо частин сторінок. Це дозволяє визначити, які елементи будуть розпізнаватися як текст, а які - зберігатися як зображення. Після розпізнавання вийшов текст можна зберігати в різних додатках для обробки тексту, електронних таблиць і макета документа.
Можливості розпізнавання в програмі OmniPage
Крім розпізнавання тексту, програма OmniPage може зберігати при розпізнаванні наступні елементи документа.
зображення
Прикладами зображень є фотографії, логотипи і малюнки.
форматування тексту
Типи, розміри і стилі шрифтів (такі, як напівжирний або курсив) є прикладами форматування текстових символів. Прикладами форматування абзацу є інтервали між абзацами, відступи, табуляція, міжрядковий інтервал і вирівнювання.
форматування сторінки
Прикладами форматування сторінки є структура колонок, розміщення абзаців, обробка таблиць і розташування зображень.
Програма OmniPage розпізнає тільки друковані символи: наприклад, надрукований на принтері або машинописний текст. Рукописний текст (наприклад, підпис) може зберігатися у вигляді зображення.