Як швидко відсканувати книгу в формат PDF (використовуючи ClearScan)
У цьому короткому посібнику я б хотів поділитися своїм думками про швидке скануванні книг в формат PDF і враженнями про технології ClearScan, доступною в Adobe Acrobat починаючи з версії 9.0. На мій погляд, це чудова технологія, яка робить (нарешті!) Формат PDF відповідним для відсканованого тексту.
Фактично, при деструктивному скануванні (книга розривається на листи і використовується листової сканер), процес сканування - чищення - переведення в PDF - OCR можна виконати за три години для книги середнього розміру. (Треба сказати що у мене немає досвіду в фотографуванні книг, очевидно фотографування теж можна здійснити швидко, при належному обладнанні, і таким чином уникнути знищення паперової книги.) Якщо ж ви «скляр», тобто у вас досить терпіння сканувати книгу на склі сканера , сканування, очевидно, займе довше.
Як сканує початківець
Якщо є сканер, то хочеться що-небудь відсканувати! І слава Богу. Подивіться на велику кількість електронних бібліотек. Спасибі всім хто відсканував і виклав це для інших.
І це іноді правда. Є велика кількість різних паперів (кількістю 1, 2 ... 10 листів) з якими я так і роблю. А чого з ними чикатися? Видно - буде. А більше і не потрібно. Але ось книга ... та ще для тих, хто любить книги ... хіба можна назвати вийшла косу погань з смугами, плямами, чорними точками, з розірваним шрифтом книгою? Де ж зарита собака? Яку опцію треба виставити, який важіль покрутити, щоб все це стало схоже на оригінал?
В тому-то і справа що немає такого одного важеля. Є чотириступінчастий процес, кожна щабель якого вимагає деяких оптимальних рішень від оператора. Пакет програм для сканера, що працює по типу «одним махом усіх побивахом», приховує цей чотириступінчастий процес, роблячи з нього одну операцію: паперовий лист - електронний еквівалент. Але про те що насправді відбувається щось складне, все ж можна здогадатися. Наприклад, сканер вже закінчив сканувати, а комп'ютер ще не готовий продовжувати; на ньому відкриваються і закриваються якісь програми; блимає лампочка доступу до жорсткого диска ...
Щоб відсканувати книгу якісно, треба самому пройтися по східцях цього процесу: сканування, чистка, переклад в потрібний формат і розпізнавання тексту (OCR).
Завдання цієї ступені перевести паперові сторінки книги у відповідні їм файли в форматі TIFF з роздільною здатністю 300dpi. Цей дозвіл досить для книжкового тексту звичайного ( «читабельною») розміру. Дрібний шрифт або бажання передати дрібні деталі ілюстрацій може зажадати більшого дозволу. Покопайтеся в налаштуваннях свого сканера. На виході, вам потрібно отримати графічні файли, в форматі TIFF. Один лист - один файл. І ніяких багатосторінкових TIFF-ів (де в одному TIFF файлі кілька сторінок)! Ніяких PDF-ів! Ніяких OCR-ів (распознаваний тексту)!
На цьому ступені також потрібно прийняти рішення про скануванні книзі в кольорі (color) або у відтінках сірого (grayscale). Зазвичай не рекомендується сканувати книгу в строго чорно-білому варіанті (bw), так як сканер повинен буде тоді вирішувати що робити чорним, а що білим. Скажімо, вигин на сторінці може бути переданий чорним і створить чорні смуги і плями, а ще того гірше, ці плями закриють чорний же текст. Вичистити потім таке «чорне на чорному» неможливо. Якщо ж пляма (смуга, інший дефект) сірого (або іншого, при кольоровому скануванні) кольору, а текст чорного (відмінного від дефекту) кольору, то дефект можна буде прибрати на стадії чистки шляхом видалення з зображення кольору плями. Буває також, строго чорно-біле сканування утоньшает і розриває лінії і шрифт (тобто коли буква, скажімо, «d» виглядає як «cl»). Тому, для якісного сканування, уявімо що опції (bw) не існує.
Для мого листового сканера, сканування починається з відрізання обкладинки. Звичайний кухонний ніж з коротким лезом і зручною ручкою цілком підійде. Для м'якої обкладинки, ніж просовується між обкладинкою і першою сторінкою (при закритій обкладинці) і обкладинка відрізається. Якщо у книги тверда обкладинка, то при відкритій обкладинці з неї вирізається сама книга. Сторінки потім або відриваються по одній, або відрізаються. Рвані краї потім можна буде видалити за допомогою програми на стадії чистки. Головне, щоб рвані краю не залазили на текст.
Пишу ці рядки, а в голові звучить вірш Маршака:
У Скворцова Гришки
У мене є книжки, ще з дитинства, які я люблю і не буду різати. Але часто доводиться сканувати допомоги, часто комп'ютерні, часто товсті, і макулатура - найкраще місце для них. І часу свого на сканування «на склі» шкода витрачати.
Ще раз про базові налаштуваннях сканера. Дозвіл - 300dpi і колірної режим «відтінки сірого» (grayscale) або «кольорової» (color). Формат файлу - TIFF.
Вимірявши сторінку книги в міліметрах, можна задати довжину і ширину. Звичайно, «на склі» це можна зробити лише приблизно, так як точно покласти книгу на скло неможливо. А листової сканер буде засмоктувати листи з рівною сторони (або зверху / знизу або, якщо збоку, треба покласти рівною стороною) і тут все буде точно аж до міліметра. На своєму листовому сканері я останнім часом, через вродженої ліні, вибираю опцію «поліпшити текст» (text enhancement), яка «ужірняет» і «учерняет» текст і псує кольорові ілюстрації (згущує фарби) і опцію «вирівняти зображення» (deskew ) так як рівні листи легше потім обробити. Але можна взагалі ніяких інших опцій крім dpi і кольору не вибирати, і залишити все інше на стадію чистки.
Для чищення, я користуюся програмою ScanKromsator v 5.9. Її треба пошукати в інтернеті. Я трохи поплювавши на підлогу через її інтерфейсу, але це тільки спочатку, поки не звикнеш. Потім перестаєш помічати примхи, і навіть навпаки, відзначаєш як зручно зробити те чи це.
Посилання на опис цієї програми:
Програма, особливо для початківця, складна, але все ж не така складна як, скажімо, Photoshop. Є також ScanTaylor, яка обіцяє бути простіше, але я не пробував. Яка б програма не використовувалася, потрібно
• прибрати нахил сторінок (deskew)
• відрізати нерівні краї
• вирівняти освітленість (прибрати тіні від нерівномірної освітленості)
• прибрати точки і інше сміття (despeckle)
• окремо перевірити / виправити ілюстрації (включаючи обкладинку)