Оцифровка книг - це

Оцифровка книг - це

Надпродуктивність сканер APT BookScan

Сканування 118 точок / см (300 точок на дюйм) є нормою для перетворення в цифровий вигляд тексту, однак для рідкісних і складних книг необхідне використання більш високої роздільної здатності. Високотехнологічні сканери здатні сканувати близько тисячі сторінок на годину, такі пристрої можуть коштувати тисячі доларів. Але можна зробити сканер і самому, наприклад, ручні книжкові сканери, здатні оцифровувати близько 1200 сторінок на годину, а вартість побудови близько 300 доларів.

Методика оцифровки

У минулому частіше застосовувався ручний набір тексту книги.

Сьогодні процес оцифровки включає два підходи.

  1. Обов'язковий: отримання копій сторінок у вигляді графічних (зазвичай растрових) зображень, здійснюване шляхом сканування або фотографування з подальшою обробкою і збереженням в одному з форматів графічних файлів. В цьому випадку повністю зберігається оригінальна верстка книги, і виключаються будь-які помилки, однак неможливий пошук або витяг фрагментів тексту для, наприклад, цілей цитування.
  2. Опціональний: розпізнавання тексту (технологія «оптичного розпізнавання символів» - OCR) з подальшим збереженням розпізнаного тексту в одному з форматів електронних книг. У цьому випадку стає можливий повнотекстовий пошук по книзі і індексація великих масивів електронних книг, проте важко відтворення оригінальної верстки, зображень, схем і формул, практично неминучі стають помилки розпізнавання.

Останнім часом (особливо з появою форматів PDF і DjVu) все частіше застосовується змішаний підхід: текст книги розпізнається в автоматичному режимі і підкладається під оригінальні растрові зображення сторінок, що дозволяє поєднати переваги обох підходів.

Книжкові сканери

До книжковим сканерів відносяться вузькоспеціалізовані сканери, призначені для максимально швидкого і / або зручного отримання растрових копій сторінок книги. Умовно можна виділити три типи таких сканерів:

  • планшетні - сканери, орієнтовані на домашнього користувача, але сконструйовані саме для полегшення процесу сканування книг (Plustek та інші)
  • планетарні - професійні високопродуктивні сканери
  • роботизовані (англ.) - промислові сверхвисокопроізводітельние сканери, обладнані пристроями різних конструкцій для автоматичного перевертання сторінок.

У двох останніх типах сканерів зазвичай застосовується не сканирующая лінійка, а одна розташована над Сканируемое оригіналом цифрова камера з високою роздільною здатністю (30-140 Мпікс.). У деяких моделях можливе використання двох камер, які встановлюються під кутом один до одного так, щоб одночасно робити знімки всього розвороту (при цьому немає необхідності розкривати книгу на 180 °, що є критичним при оцифрування старих або знаходяться в поганому стані оригіналів).

Професійні книжкові сканери

Оцифровка книг - це

Ескіз V-форми книжкового сканера ATIZ

Оцифровка книг - це

Ескіз типового книжкового сканера

Професійні книжкові сканери не просто звичайні сканери, це книжкові сканери, які сканують у високій якості з використанням цифрової камери і джерелами світла по обидві сторони від камери, що забезпечують легкий доступ до книги. Перевагою таких сканерів є те, що це дуже швидкі сканери, в порівнянні з продуктивністю планшетного сканера. Однак ціни таких сканерів зазвичай починаються з 10 000 $ ..

Сканування з обрізанням сторінок

Для сканування книг з низьким бюджетом, найменш дорогим способом є сканування книги або журналу з обрізанням сторінок від корінця. Це перетворює книгу або журнал в стопку документів, які можуть бути завантажені в стандартний пристрій автоматичної подачі документів, Хоча, безумовно, це не є хорошим рішенням для дуже старих і незвичайних книг, особливо тоді, коли книга дорога і колекційна. В даному скануванні є дві проблеми, обрізка сторінок і саме сканування.

обрізка сторінок

Одним із способів різання сторінок об'ємом від 500 до 1000 сторінок за один раз, виконується за допомогою гільйотини для паперу. Ця конструкція являє собою великий сталевий стіл з лещатами для паперу. Розріз виконується великим загостреним сталевим лезом, яке рухається прямо і ріже по всій довжині кожного листа відразу. Важіль на лезі дозволяє прикладати силу в кілька сотень фунтів, яка необхідно для розрізу стопки паперу. Чистий зріз неможливо зробити традиційним серповидним ножем, так як він призначений тільки для різання декількох листів, де 10 листів є практично межею. З плином часу при нарізці великий стопки паперу, розріз стає все більш неточним, а зусилля яке потрібно прикладати для нарізки паперу збільшувати. Процес при різанні гільйотиною притупляє лезо з плином часу, тому необхідно заточувати лезо. Папір з покриттям, притупляють лезо швидше, ніж звичайний папір.

сканування

Коли папір звільнена від корінця книги, то можна сканувати за допомогою традиційного планшетного сканера або використовувати сканер з автоматичною подачею документів. Сторінки з рифленою декоративною окантовкою або вигнутими в дугу можуть бути важкими для сканування за допомогою пристрою автоматичної. Автоподатчик призначений для сканування сторінок однакової форми і розміру, тому різний розмір або форма сторінок може привести до неправильного скануванню. Папір, яка використовується в журналах і підручниках може погано проходити в пристрій автоматичної подачі паперу. Взагалі найменші проблеми виникають зі звичайним папером. Липкий ролик, який захоплює папір, може з часом стертися, тому за його працездатністю необхідно уважно стежити. Якщо в стосі паперу знаходяться різні аркуші паперу, наприклад карти, то їх необхідно видалити відразу перед скануванням.

Сканування без втручання

Сканер на основі ЦФК. Сканер призначений для оцифровки як зшитих, так і розшитих видань. Підходить для оцифровки як щодо нових, так і старих видань за рахунок спеціальної V-подібною колиски, що дозволяє не розкривати книгу повністю (на 180 градусів), що зводить до мінімуму шкідливий вплив на видання. Книга залишається в одній і тій же позиції. Швидкість сканування (кольоровий режим) близько 500-700 сторінок / год. Перегортання сторінок відбувається вручну (існують моделі з автоматичним перегортанням, проте цінні, старі книги, що становлять основу бібліотечного фонду, не рекомендується оцифровувати на такому обладнанні, щоб уникнути пошкоджень). Формат сканування документа А2-А4. Дозвіл одержуваних зображень 130-470 dpi (оптичне). Сканери подібного типу займають багато робочого простору, однак практично не схильні до поломок, оскільки є сканирующими платформами. Модернізується за рахунок заміни фотокамер на більш професійні варіанти. Запускається натисканням однієї кнопки. Прикладом, таких сканерів можуть бути сканери, що використовують цифрові фотокамери.

Великі проекти з оцифрування книг

Оцифровка за бажанням

існуючі проекти

  • «Scan-on-demand» (Сканування на вимогу) - безкоштовний проект від openlibrary.org, будь-який бажаючий може вибрати книгу зі списку (фонди Бостонської громадської бібліотеки), який містить велику кількість літератури XIX-XX століть російською мовою. Оцифровка проводиться засобами некомерційної організації Архів Інтернету. Терміни робіт заявлені як 5-8 робочих днів. На сайті openlibrary.org зібрано вже більше мільйона оцифрованих публікацій. [1]
  • «DigiWunschbuch» - проект Центру оцифровки і Університетській державної бібліотеки Геттінгена (Німеччина), сканування за плату (розраховується посторінково) замовник отримує цифрову копію на CD-ROMе. крім того, його ім'я буде розміщено на шмуцтитулі цифрової копії розміщеної у відкритому доступі. [2]
  • Все про кнігосканірованіі - самовчителі, програми, допомога у виборі ПО і сканера, посилання на матеріали в Інтернеті

Примітки

Дивитися що таке "Оцифрування книг" в інших словниках:

Архів Інтернету - Не слід плутати з arXiv.org найбільшим архівом електронних публікацій з точних і природничих наук. Internet Archive ... Вікіпедія

Web.archive.org - Internet Archive www.archive.org Комерційний ... Вікіпедія

Web.Archive.org - Internet Archive www.archive.org Комерційний ... Вікіпедія

Електронна книга (документ) - Цей термін має також інші значення див. Електронна книга. Електронна книга версія книги в електронному (цифровому) вигляді. Даний термін застосовується як для творів, представлених в цифровій формі, так і по відношенню до пристроїв ... Вікіпедія

Схожі статті