Накопичений російськими бібліотеками досвід дозволяє чітко сформулювати відповіді на три головних питання оцифровки бібліотечного фонду: навіщо сканувати, що сканувати, як сканувати.
Чому бібліотека є найбільш яскравим чином системологии - фундаментальної науки, що вивчає організацію процесів і явищ в світі? Відповідь криється в фонді і довідково-пошуковому апараті бібліотеки. Для звичайного читача книги на полицях і є фонд, але це не зовсім так. Бібліотечний фонд - це складна за структурою сукупність документів, представлених на різних носіях інформації, відповідна певним галузям знань і пов'язана зі спеціалізованим пошуковим механізмом на основі критичного каталогу.
Навіть розміщення журналів на стелажах бібліотеки ґрунтуються на науковому підході: інформетріческій закон Бредфорда пояснює закономірність розподілу статей по виданням і тим самим дозволяє з великою ймовірністю спрогнозувати затребуваність матеріалів, виходячи із специфіки інформації.
Інакше кажучи, бібліотекам вдалося створити ідеальну систему класифікації і структурування інформації, яка дозволила вирішити проблему зберігання і пошуку величезних обсягів даних з будь-яких джерел. Для цього були розроблені спеціалізовані бібліотечні класифікатори, які регламентують розподіл і розстановку фондів, методи організації систематичних каталогів, стандарти оформлення та обліку документів.
про оцифрування
Коли ми говоримо про оцифрування книг будь-якої бібліотеки, то, крім збереження оригіналів і забезпечення автентичності електронної копії, необхідно пам'ятати про збереження ідентичності структури класифікації та пошуку інформації в паперовому та електронному фонді. Іншими словами, сканування книг вимагає обов'язкового створення електронного каталогу та формування індексного-пошукової бази даних з максимальною повнотою наповнення.
Проекти по створенню електронних ресурсів бібліотек
є одними з найскладніших і насичених з точки зору трудовитрат,
застосовуваних методологій і технічного виконання.
Виникає природне запитання - навіщо? Навіщо при такій складності реалізації подібних проектів затівати оцифровку бібліотечних матеріалів, адже «книги можуть зберігатися століттями», та й «взагалі в бібліотеку вже ніхто не ходить»?
Не варто забувати і про збереження безцінних знань і культурних цінностей, накопичених в книгосховищах по всій країні. Для цих цілей оцифровка - найефективніший спосіб збереження видань та забезпечення безпечного доступу до міститься в них інформації.
Електронний каталог
Основа основ автоматизації сучасних бібліотек - створення електронного каталогу та наповнення автоматизованої бібліотечно-інформаційної системи (АБІС). АБИС необхідна для автоматизації обліку фондів. А повноцінний електронний каталог значно збільшує ефективність і швидкість пошуку інформації, значно підвищуючи загальну якість обслуговування читачів.
Як правило, в бібліотеці ведуться кілька видів каталогів: алфавітний, в якому все картки розставлені за алфавітом; систематичний, де картки розставлені по галузях знань. Існують каталоги, поділені за охопленням фонду: генеральний або окремих частин фонду; за призначенням: читацький або службовий; за багатьма іншими ознаками: краєзнавчий, предметний і т.д.
При великій кількості фондів
оцифровка всього каталогу - досить тривалий процес,
який зазвичай проводиться поетапно.
Основа каталогу - це бібліотечна картка, що містить інформацію про видання, індекси класифікації, номер книги (ISBN) та інші дані. Зважаючи на великий обсяг специфічної інформації, картка є складним документом для отримання індексних даних. Ще більше ускладнюють обробку інформації записи на іноземних мовах, рукописний текст або діакритичні знаки (різні надрядкові, підрядкові, рідше внутрістрочние символи).
Одна бібліографічний запис може містити до 24 різних полів. Перенесення записів в систему безпосередньо з паперових носіїв недоцільний через низьку швидкості і ризику втрати / пропуску ключової інформації, тому роботи зі створення електронного каталогу на увазі обов'язкове попереднє сканування бібліотечної картотеки, формування та перевірку індексної бази даних перед завантаженням в АБІС.
Навіть у невеликій бібліотеці кількість карток обчислюється тисячами одиниць. В таких умовах шукати власні кадрові та технічні ресурси і самостійно займатися формуванням електронного каталогу практично неможливо, тому для економії часу і грошей залучаються професійні підрядники, які спеціалізуються на обробці бібліотечної інформації та готові гарантувати підсумковий результат.
Типовий технологічний процес створення електронного каталогу
Оцифровку доцільно проводити на території бібліотеки, щоб не вилучати бібліотечні картки з використання і не порушувати роботу з читачами. Процес ділиться на кілька етапів:
Експертиза. Оцінюється фізичний стан карток і обсягів картотеки. Визначається склад бібліографічного опису і необхідний формат машиночитаємих записів. Виходячи з отриманих даних, складається подальша технологічний ланцюжок робіт. На перелік робіт і методи отримання даних впливають нюанси в написанні символів, форматі і навіть складі матеріалу (картон, папір). Нижче наведені можливі типи карток:
Сучасне обладнання дозволяє досягати швидкості сканування 170 карток в хвилину, при цьому вибір професійного сканера дозволяє уникнути пошкодження самих карток.
- додаткова картка. Особливість: друковані та рукописні символи,
- роздільник. Особливість: відмінний від стандартного формат картки,
- довідкова картка. Особливість: тільки рукописні символи,
- опис. Особливість: старорусский текст.
Сканування. Потокове сканування паперових карток здійснюється на високошвидкісних документних сканерах. Стандартні вимоги до оцифрування: дозвіл 300 dpi, чорно-білий режим сканування, формат файлів TIFF або JPEG. Більшість карток типового розміру 130х80 мм, але зустрічаються до формату А6 (148х105 мм) включно. Іноді перед скануванням проводиться склейка пошкоджених карток. Часто проводиться двостороннє сканування карток, де на зворотному боці містяться інвентарні номери, розбивка по філіях. Незначні картки-роздільники не виконує сканування.
Після оцифровки паперовий масив картотеки наводиться в початковий стан.
Усі наступні роботи проводяться з отриманими
графічними образами карток.
Обов'язково повинні проводитися поворот перекошених зображень, видалення фону, прояв слабоконтрастних символів і т.д.
Властивості електронних копій повинні виключати втрату інформації і не погіршувати читаність документа в порівнянні з паперовим оригіналом. У разі поганого стану вихідного матеріалу допускається використання програмних засобів поліпшення якості зображень.
Вся обробка зображень виконується в автоматичному режимі. Можливе ручне корекція геометрії образів, очищення від шумів і слідів згину при необхідності обробки невеликої кількості пошкоджених документів.
Навіть в разі набору тексту на друкарській машинці, далеко не всі символи розпізнаються коректно. Автоматичне розпізнавання рукописного тексту, олівцевих позначок і карток, створених до середини 20 століття практично неможливо.
Кількість графічних образів має збігатися з кількістю листів паперового масиву. Нормою стало сканування в порядку проходження карток каталогу. Пропуск сторінок вважається браком.
Ретроконверсія: введення інформації з відсканованих карток і формування бази даних. Картки можуть містити машінопечатний і рукописний текст, олівцеві позначки, нечіткі символи і мати інші особливості заповнення.
У рідкісних випадках, при хорошій якості документа, що містить друкований текст, можна використовувати програмні засоби розпізнавання для автоматичного вилучення певних полів картки.
Тому дані з бібліотечних карток в основному вводяться вручну
і проходять багаторівневу систему контролю якості.
Перед ретроконверсії проводиться сепарація (сортування) зображень з метою угруповання окремих частин масиву за типами карток та іншими ознаками індексування (зчіпка складових карток, створення блоків даних для томів, поділ за мовами і т.д.). Виробляється розмітка блоків для зручності вилучення даних оператором.
На виході формується база даних в необхідному для бібліотеки форматі (RUSMARC, UNIMARK, MARC21 і ін.). У деяких випадках при створенні електронного каталогу предметом обробки можуть служити безпосередньо графічні образи книг. Тоді до роботи залучаються оператори, які володіють знаннями правил складання бібліографічних описів.
Вимоги до мінімального відсотку помилок в базі даних дуже високі, так як це безпосередньо впливає на якість пошуку інформації в електронному каталозі. Тому після введення даних присутній етап перевірки за різними параметрами досвідченими верифікаторами.
Для прискорення процесу ретроконверсії використовується технологія запозичення,
спрощує введення інформації за рахунок автопідбору заповнення полів
на основі раніше введених даних.
сканування книг
Після створення електронного каталогу або паралельно цьому процесу бібліотеки вирішують завдання щодо забезпечення збереження і доступності книжкового фонду шляхом оцифровки книг. Роботи з оцифрування проводяться для наповнення національних електронних проектів, створення колекцій рідкісних книг і повнотекстових ресурсів, зборів тематичних ілюстрованих матеріалів і багато іншого.
Бібліотеки можуть проводити роботи з оцифрування фондів самостійно. Наприклад, у великих бібліотеках організовані цілі відділи сканування, які мають парком професійного обладнання.
Важливим аспектом є характеристики цифрових копій. Якщо вирішуються локальні завдання, бібліотека може самостійно визначати вимоги до вихідних електронних ресурсів. Але при реалізації національних проектів, де використовуються фонди різних бібліотек, необхідний загальний стандарт, який регламентує основні характеристики роботи.
При створенні НЕП електронні ресурси, створені технічним виконавцем
і бібліотеками самостійно, мали різні параметри оцифровки,
що ускладнювало роботу по обробці і завантаженні цифрового контента.
Тому галузевим експертною радою були підготовлені «Рекомендації з оцифрування матеріалів з фондів бібліотек» *, які показують принцип створення електронних бібліотечних ресурсів. У рекомендаціях зазначено три види цифрових копій. Майстер-копія - еталонна копія оригіналу в поліграфічній якості (дозвіл не нижче 600 dpi). Призначена для користувача копія - для створення електронних колекцій і надання читачам (дозвіл не нижче 300 dpi). Службова копія використовується для внутрішніх завдань бібліотеки і розміщення на web-сайтах (дозвіл не нижче 150 dpi).
Особливості сканування книг
При оцифрування книг етапи робіт повторюють процес створення електронного каталогу. Діє бібліотека самостійно або наймає підрядника, але так чи інакше в першу чергу необхідно визначити мету проекту та провести експертизу книжкового фонду для розуміння вартості і трудомісткості роботи. Надалі формується склад підлягають оцифрування видань, узгоджуються технічні вимоги, і проводиться остаточна оцінка проекту.
Розглянемо кілька особливостей оцифровки книг, які впливають на вартість і терміни проектів. Велике значення має формат і стан книг, а також обсяг паперового фонду. Виходячи з цих особливостей, визначається вид скануючого обладнання і технології оцифровки.
Стара, рвана папір, а також товстий палітурка багатьох книг дозволяє застосовувати тільки безконтактне сканування - професійні планетарні (книжкові) сканери. Використання планшетних сканерів виключено.
Після сканування отримані цифрові копії проходять процес програмної корекції, наводяться до найбільш зручного для читання якості зображень. Найчастіше при використанні професійних книжкових сканерів для цього достатньо вбудованих програмних засобів обробки. Після отримання масиву цифрових копій при необхідності складаються бібліографічні описи відсканованих видань.
Окремо варто виділити роботи по високоякісному скануванню колекцій рідкісних книг, книжкових пам'яток, фоліантів і інших цінних екземплярів. Для цього використовуються спеціалізовані комплекси високоякісного сканування. забезпечують унікально високі показники оптичного дозволу.
Особливості формування повнотекстових PDF-книг
Для створення таких книг проводиться повнотекстове розпізнавання з подальшою верифікацією тексту і перевіркою орфографії. Для остаточної вичитки документа залучаються професійні коректори.
В результаті макетування формується електронна книга,
повністю ідентична паперовому оригіналу - з точним розташуванням сторінок,
ілюстраціями, збереженням мови і стилю.
Оцифровка книг і каталогів бібліотек, особливо при значному обсязі, різнорідності фондів за форматом і станом оригіналів, - дуже складний виробничий процес. здійснити який якісно можуть тільки спеціалізовані компанії, що володіють всією необхідною інфраструктурою і великим досвідом у створенні електронних ресурсів.