У цьому короткому посібнику я б хотів поділитися своїм думками про швидке скануванні книг в формат PDF і враженнями про технології ClearScan, доступною в Adobe Acrobat починаючи з версії 9.0. На мій погляд, це чудова технологія, яка робить (нарешті!) Формат PDF відповідним для відсканованого тексту.
Фактично, при деструктивному скануванні (книга розривається на листи і використовується листової сканер), процес сканування - чищення - переведення в PDF - OCR можна виконати за три години для книги середнього розміру. (Треба сказати що у мене немає досвіду в фотографуванні книг, очевидно фотографування теж можна здійснити швидко, при належному обладнанні, і таким чином уникнути знищення паперової книги.) Якщо ж ви «скляр», тобто у вас досить терпіння сканувати книгу на склі сканера , сканування, очевидно, займе довше.
Як сканує початківець
Як сканує початківець
Якщо є сканер, то хочеться що-небудь відсканувати! І слава Богу. Подивіться на велику кількість електронних бібліотек. Спасибі всім хто відсканував і виклав це для інших.
І це іноді правда. Є велика кількість різних паперів (кількістю 1, 2 ... 10 листів) з якими я так і роблю. А чого з ними чикатися? Видно - буде. А більше і не потрібно. Але ось книга ... та ще для тих, хто любить книги ... хіба можна назвати вийшла косу погань з смугами, плямами, чорними точками, з розірваним шрифтом книгою? Де ж зарита собака? Яку опцію треба виставити, який важіль покрутити, щоб все це стало схоже на оригінал?
В тому-то і справа що немає такого одного важеля. Є чотириступінчастий процес, кожна щабель якого вимагає деяких оптимальних рішень від оператора. Пакет програм для сканера, що працює по типу «одним махом усіх побивахом», приховує цей чотириступінчастий процес, роблячи з нього одну операцію: паперовий лист - електронний еквівалент. Але про те що насправді відбувається щось складне, все ж можна здогадатися. Наприклад, сканер вже закінчив сканувати, а комп'ютер ще не готовий продовжувати; на ньому відкриваються і закриваються якісь програми; блимає лампочка доступу до жорсткого диска ...
Щоб відсканувати книгу якісно, треба самому пройтися по східцях цього процесу: сканування, чистка, переклад в потрібний формат і розпізнавання тексту (OCR).
Завдання цієї ступені перевести паперові сторінки книги у відповідні їм файли в форматі TIFF з роздільною здатністю 300dpi. Цей дозвіл досить для книжкового тексту звичайного ( «читабельною») розміру. Дрібний шрифт або бажання передати дрібні деталі ілюстрацій може зажадати більшого дозволу. Покопайтеся в налаштуваннях свого сканера. На виході, вам потрібно отримати графічні файли, в форматі TIFF. Один лист - один файл. І ніяких багатосторінкових TIFF-ів (де в одному TIFF файлі кілька сторінок)! Ніяких PDF-ів! Ніяких OCR-ів (распознаваний тексту)!
На цьому ступені також потрібно прийняти рішення про скануванні книзі в кольорі (color) або у відтінках сірого (grayscale). Зазвичай не рекомендується сканувати книгу в строго чорно-білому варіанті (bw), так як сканер повинен буде тоді вирішувати що робити чорним, а що білим. Скажімо, вигин на сторінці може бути переданий чорним і створить чорні смуги і плями, а ще того гірше, ці плями закриють чорний же текст. Вичистити потім таке «чорне на чорному» неможливо. Якщо ж пляма (смуга, інший дефект) сірого (або іншого, при кольоровому скануванні) кольору, а текст чорного (відмінного від дефекту) кольору, то дефект можна буде прибрати на стадії чистки шляхом видалення з зображення кольору плями. Буває також, строго чорно-біле сканування утоньшает і розриває лінії і шрифт (тобто коли буква, скажімо, «d» виглядає як «cl»). Тому, для якісного сканування, уявімо що опції (bw) не існує.
Для мого листового сканера, сканування починається з відрізання обкладинки. Звичайний кухонний ніж з коротким лезом і зручною ручкою цілком підійде. Для м'якої обкладинки, ніж просовується між обкладинкою і першою сторінкою (при закритій обкладинці) і обкладинка відрізається. Якщо у книги тверда обкладинка, то при відкритій обкладинці з неї вирізається сама книга. Сторінки потім або відриваються по одній, або відрізаються. Рвані краї потім можна буде видалити за допомогою програми на стадії чистки. Головне, щоб рвані краю не залазили на текст.
Пишу ці рядки, а в голові звучить вірш Маршака:
У Скворцова Гришки Жили-були книжки - Брудні, кошлаті, Рвані, горбаті ...
У мене є книжки, ще з дитинства, які я люблю і не буду різати. Але часто доводиться сканувати допомоги, часто комп'ютерні, часто товсті, і макулатура - найкраще місце для них. І часу свого на сканування «на склі» шкода витрачати.
Ще раз про базові налаштуваннях сканера. Дозвіл - 300dpi і колірної режим «відтінки сірого» (grayscale) або «кольорової» (color). Формат файлу - TIFF.
Вимірявши сторінку книги в міліметрах, можна задати довжину і ширину. Звичайно, «на склі» це можна зробити лише приблизно, так як точно покласти книгу на скло неможливо. А листової сканер буде засмоктувати листи з рівною сторони (або зверху / знизу або, якщо збоку, треба покласти рівною стороною) і тут все буде точно аж до міліметра. На своєму листовому сканері я останнім часом, через вродженої ліні, вибираю опцію «поліпшити текст» (text enhancement), яка «ужірняет» і «учерняет» текст і псує кольорові ілюстрації (згущує фарби) і опцію «вирівняти зображення» (deskew ) так як рівні листи легше потім обробити. Але можна взагалі ніяких інших опцій крім dpi і кольору не вибирати, і залишити все інше на стадію чистки.
Для чищення, я користуюся програмою ScanKromsator v 5.9. Її треба пошукати в інтернеті. Я трохи поплювавши на підлогу через її інтерфейсу, але це тільки спочатку, поки не звикнеш. Потім перестаєш помічати примхи, і навіть навпаки, відзначаєш як зручно зробити те чи це.
Посилання на опис цієї програми:
Програма, особливо для початківця, складна, але все ж не така складна як, скажімо, Photoshop. Є також ScanTaylor, яка обіцяє бути простіше, але я не пробував. Яка б програма не використовувалася, потрібно
• прибрати нахил сторінок (deskew)
• відрізати нерівні краї
• вирівняти освітленість (прибрати тіні від нерівномірної освітленості)
• прибрати точки і інше сміття (despeckle)
• окремо перевірити / виправити ілюстрації (включаючи обкладинку)
• підняти роздільну здатність до 600dpi, якщо сканували з меншим дозволом.
Після того як ScanKromsator пройдеться по сторінках (т. Е після натискання кнопки process), він відкриє вікно для перевірки результату (result view). У цьому вікні є такі незамінні інструменти як ластик, «чарівна очищення» і вибір кольору до неї. Чи не нехтуйте скористатися ними для індивідуальної чистки окремих особливо брудних сторінок.
Можна поправити такі дефекти на станицях як замітки на полях (якщо звичайно, немає мети їх зберегти), стерти олівцеві лінії, що підкреслюють текст (будуть заважати програмі OCR, яка прийме їх за графіком), прибрати смуги, плями, а іноді і задній фон. Я одного разу сканував книжку з синіми літерами на блакитному тлі; фон вийшов потворно, і я його просто прибрав за допомогою «чарівної очищення», т. е. поміняв на білий, благо він був трохи світліше тексту і від нього можна було позбутися, прибравши його кольору.
«ЧК-ГПУ - це орган, покликаний карати, а якщо просто зобразити цю справу, - не тільки карати, а карати по-справжньому, щоб на тому світі був помітний приріст населення, завдяки діяльності нашого ГПУ.»
3. Переклад в кінцевий формат
3. Переклад в кінцевий формат
Отже ... переводимо книгу в потрібний формат. Я тут розглядаю тільки формат PDF як єдино просте, швидке, кардинальне рішення «форматного питання» ... стійте. Десь я вже це казав. Ах да. Ну, добре, є багато форматів в які можна перевести книгу, в тому числі «текстові». Подобається вам вичитувати книгу - вичитуйте. Тільки вже вичитуйте як слід, а то скачаєш з інтернету книжку в текстовому форматі - там помилок море.
Я ж поясню як зробити книгу в PDF, причому використовуючи технологію ClearScan. ClearScan - передова технологія. Якщо сам по собі формат PDF не ідеальний для зберігання сканів (виходить або великого розміру файл, або, якщо стиснути побільше, неякісне зображення) то при застосуванні ClearScan, цей формат наближається до ідеального.
Можна перевести книгу в текстовій формат - TXT, RTF, DOC нарешті, чи в HTML-ні та XML-ні EPUB і FB2. Але це - перевидати книжку заново. І можливо, втратити все або частину оформлення книжки при перевиданні. Чи потрібно це, якщо книжка вже видана? Звичайно, вирішувати вам. Якщо оформлення трохи, то можна і перевидати. А якщо багато і його хочеться зберегти? Та й просто не хочеться втрачати час на перевидання? Тоді залишається або «грюкнути» книгу в DJVU, або в PDF (хтось «плескає» і в PowerPoint, але це вже, вибачте, «ваще»). Ці формати як «маленькі TIFF-и» - книжка залишається в графічному форматі, але займає менше місця.
Суть технології ClearScan полягає в заміні зображень букв на стадії OCR на справжній шрифт. Цей шрифт не є якимось готовим (системним) шрифтом більш-менш схожим на оригінальний шрифт, а спеціальним шрифтом виготовляється програмою Acrobat «на льоту» під конкретну букву тексту.
В результаті, замість сторінки книги в графічному форматі, з'являється сторінка з (майже) справжнім текстом, за формою (майже) таким же як і оригінальний.
Як сказано в цій статті і перевірено на практиці, найкращі результати виходять при високій роздільній здатності оригіналу (600dpi) і відсутності на оригіналі побічних перешкод (сміття, артефактів). Тому процес чистки зображення після сканування (вирівнювання освітленості, очищення від сміття, підняття дозволу до 600dpi) необхідний для отримання якісного тексту і максимально маленького розміру файлу.
Де ж взяти Adobe Acrobat 9.0 і вище? В голові тут же починає крутитися одне <нехорошее слово>. Але навіщо мені вчити вас поганим словам? Ви їх знаєте і без мене. Тому, як екзотичний альтернативний спосіб, я придумав зайти на який-небудь аукціон, скажімо E-bay, набрати adobe acrobat 9 pro і подивитися чи можна отримати те що хочеться за розумною ціною. Припустимо - можна. І Acrobat у вас.
Запустивши Acrobat, вибираємо все TIFF-и утворені після чистки. Для цього тиснемо на File ^ Combine ^ Merge Files into a Single PDF. Відкривається віконце в якому ми
• справа вгорі вибираємо опцію Single PDF (вона скоріше за все і так обрана)
• справа внизу, де видно три сторінки, вибираємо найбільшу сторінку для кращої якості
• Натискаємо Add Files ^ Add Files і додаємо всі TIFF-и. Щоб додати всі файли відразу, натискаємо мишкою на перший файл, потім тримаємо клавішу Shift і натискаємо на останній файл. Натискаємо Combine Files і терпляче чекаємо результату - одного файлу в форматі PDF.
4. OCR з опцією ClearScan
4. OCR з опцією ClearScan
Що ж, запускаємо OCR в тому ж Adobe Acrobat. Для цього робимо Document - OCR Text Recognition - Recognize Text Using OCR і в вікні, натискаємо Edit в розділі Settings. вибираємо
• Primary OCR Language - треба вказати основну мову документа
• PDF Output Style - ставимо ClearScan
• Downsample Images - зазвичай можна Low (300dpi).
Чекаємо ще терпляче колишнього, а краще йдемо відпочивати. На виході виходить шуканий PDF. Знайдіть в ньому якусь літеру і почніть збільшувати. Ця буква повинна залишатися чіткою при будь-якому збільшенні.
Готово. Не забуваємо зберегти файл.
І ось що ще ... Не треба дотискати-пережимати цей файл в Acrobat-е заради економії місця на диску. Я навіть не буду розповідати як це зробити. Не треба псувати якість файлу, та й на мобільних пристроях, де процесор слабший, і програма для проглядання PDF не така розумна, дивитися таку перетиснутій книжку - мука.
Спробуйте закинути вашу книжку на мобільний пристрій - для мене це буде iPad з читалкою iBooks. Як добре вона виглядає! Як швидко можна гортати сторінки! Є пошук за ключовими словами! Студенти! Відскануте свої підручники! Мами і тата! Будь ласка, відскануйте хороші дитячі книжки з картинками!
І, не забудьте викласти їх в електронній бібліотеці.
Написав товариш Кузнєцов, Іван Іванович, зі слів товариша Петрова Філіпа Федоровича, який почув все це від сірої мишки.