Що таке ocr, omnipage

Оптичне розпізнавання символів (OCR) - це процес вилучення тексту з зображення сторінки. Зображення сторінки є електронне зображення тексту та інших можливих елементів (заголовків, зображень та ін.). Зображення сторінок можуть виходити в результаті сканування паперового документа або відкриття файлу зображення. Такі файли можна отримати по електронній пошті, по факсу або з власного сканера.

Ці зображення не містять тексту для редагування. Вони являють собою безліч точок (пікселів), які всі разом утворюють малюнок тексту. За допомогою розпізнавання відбувається перевірка зображення тексту і створення тексту, який можна редагувати на комп'ютері, без повторного набору вручну.

Зображення обробляється за допомогою технології оптичного розпізнавання, і з нього створюється текст.

Під час розпізнавання програма OmniPage використовує параметри, вибрані на на панелі інструментів OmniPage для визначення потоку тексту на сторінці, а також створює впорядковані області навколо частин сторінок. Це дозволяє визначити, які елементи будуть розпізнаватися як текст, а які - зберігатися як зображення. Після розпізнавання вийшов текст можна зберігати в різних додатках для обробки тексту, електронних таблиць і макета документа.

Можливості розпізнавання в програмі OmniPage

Крім розпізнавання тексту, програма OmniPage може зберігати при розпізнаванні наступні елементи документа.

зображення

Прикладами зображень є фотографії, логотипи і малюнки.

форматування тексту

Типи, розміри і стилі шрифтів (такі, як напівжирний або курсив) є прикладами форматування текстових символів. Прикладами форматування абзацу є інтервали між абзацами, відступи, табуляція, міжрядковий інтервал і вирівнювання.

форматування сторінки

Прикладами форматування сторінки є структура колонок, розміщення абзаців, обробка таблиць і розташування зображень.

Програма OmniPage розпізнає тільки друковані символи: наприклад, надрукований на принтері або машинописний текст. Рукописний текст (наприклад, підпис) може зберігатися у вигляді зображення.

Що таке OCR?