Сьогодні багато хто говорить про значущість оцифровки бібліотечних і архівних фондів. Ми в ABBYY знаємо, що таке оцифрувати цілу бібліотеку і готові прояснити деякі аспекти цієї масштабної і складної задачі.
Про те, чому так важливо оцифровувати книги і як правильно це робити, розповідає Дмитро Шушкін, заступник генерального директора ABBYY Росія, на сайті Forbes. Ознайомитися зі статтею можна в нашому блозі, сподіваємося, вам буде цікаво!
Питання збереження і доступності культурної спадщини і раніше виносилися на рівень уряду та профільних міністерств. Однак більшість обговорень носили дуже загальний характер. Їх учасники часто не розуміють, що це означає - оцифрувати цілу бібліотеку. У нас в ABBYY є реальний досвід участі в подібних проектах: ми брали активну участь в оцифрування окремих російських і зарубіжних бібліотек і були технологічними партнерами масштабних проектів зі збереження культурної спадщини - Gutenberg і META-e.
Я постараюся прояснити деякі суто технічні і ціннісні - у всіх сенсах - аспекти оцифровки бібліотек і архівів, які розкриють реальний масштаб і складність проблеми.
Навіщо потрібна оцифровка
Перше завдання - це зберегти книги, відсканувавши їх. Звичайно, старовинні фоліанти, бібліографічні раритети неможливо повноцінно зберегти як цифрової копії, вона не передасть фактури паперу, художньої цінності ілюстрацій, переливів світла на пергаменті і т. П. Але в інших випадках книга - це, в першу чергу, джерело знань, інформації .
Друге завдання - зробити книги доступними для широкого кола читачів. А для цього потрібно не тільки відсканувати текст, а й розпізнати його. Тому що людям, як правило, потрібні не фотографії сторінок, а саме сама інформація, яку при оцифрування можна скачати в потрібному електронному форматі, причому в значно меншому обсязі, ніж у вигляді сканів.
У російських бібліотеках величезні і найцінніші архіви, і процес по їх оцифрування вже почався. Наприклад, РДБ вже відсканувала близько мільйона видань і документів (всього в ній зберігається близько 45,5 млн одиниць). Темпи повільні, але початок покладено.
Як оцифровує книги
Перед скануванням потрібно визначитися, що саме будемо оцифровувати. Якщо з'ясується, що якісь книги знаходяться в поганому стані і при скануванні можуть просто розсипатися, потрібно подбати про це і по можливості відновити, відреставрувати їх.
Якщо ми скануємо або фотографуємо старі і старі книги, навіть відреставровані, цей етап вимагає спеціальних умов роботи і спеціального устаткування - потрібно використовувати «чарівні» апарати з V-подібним ложем для книг і системою перегортання сторінок, в тому числі за допомогою повітря. Вартість таких сканерів може перевищувати € 100 000.
Звичайно, не всі документи вимагають настільки дбайливого і дорогого звернення.
Більшість документів XIX-XXI століть можна сканувати більш звичним способом. Але в будь-якому випадку все обладнання для сканування книг повільне, тому що документи не простягаються через сканер, а перегораються автоматично або вручну сторінка за сторінкою. Так що сканування книг не йде в порівняння зі скануванням пачки договорів. Це дуже трудомісткий і дорогий процес.
Перевірка результатів розпізнавання - це досить тривала і трудомістка робота, яку, втім, можна виконати за допомогою краудсорсинга, довіривши її широкому загалу. Так, наприклад, при оцифрування 90-томника Льва Толстого силами 3000 волонтерів нам за півтора року вдалося оцифрувати понад 45 000 сторінок.
Як створити загальнодержавну електронну бібліотеку
Програма оцифровки бібліотечних і архівних фондів в масштабах країни вимагає системного підходу і опрацьованого плану.
Наприклад, як вирішити, які матеріали оцифровувати в першу чергу? З одного боку, правильно переводити в електронний вигляд те, що читають і беруть найчастіше, - найбільш популярні книги і документи. З іншого - зрозуміло, що зберігати потрібно унікальні і цінні книги, існуючі в єдиному екземплярі.
Як знизити ризик дублювання роботи в різних бібліотеках - адже оцифрувати книгу недешево?
Мені здається, що на першому етапі подібного проекту потрібно створити єдиний каталог або реєстр всіх об'єктів зберігання. І реалізовувати це краще «знизу». Наприклад, так: бібліотеки і архіви сформулюють свої потреби в оцифрування, на основі яких буде зібраний деякий пул заявок. Після вивірки, вирішення питань з дублюванням і систематизацією найменувань цей пул і стане нашим каталогом.
На цьому етапі, до речі, можна врахувати і вже виконану бібліотеками роботу: вони адже в першу чергу сканують свої каталоги, щоб читачі могли віддалено ознайомитися зі списком книг. Тому деякі частини нашого єдиного каталогу вже готові.
Потім на основі єдиного каталогу можна буде розробити детальний план з оцифрування, який повинен бути цілісним і єдиним для всіх державних архівів і бібліотек.
Скільки потрібно грошей
Якщо ви коли-небудь стикалися з потоковим скануванням, то знаєте, наскільки це просто. У потужний сканер кладеться пачка документів, сканування та розпізнавання відбуваються майже повністю автоматично, а ви в підсумку отримуєте повністю оцифрований офісний архів. Далі його потрібно ще верифікувати, тобто звірити розпізнані дані, це можна робити автоматично або вручну. У будь-якому випадку, при цьому способі вартість оцифровки складе кілька рублів за сторінку.
Книги - тим більш рідкісні і старі екземпляри - так сканувати не можна, ми говорили про це вище. Через більш складних сканерів, особливостей розпізнавання (дивовижних шрифтів, складних фонів та ін.) І більш кропіткої роботи людей ціна оцифровки сторінки зростає до десятків і навіть сотень рублів.
Щоб не ускладнювати розрахунки, давайте візьмемо суму 50 рублів - стільки в середньому може коштувати робота з оцифрування однієї сторінки умовного історичного бібліотечного фонду. Припустимо, що середньостатистична книга в бібліотеці містить 500 сторінок. На що вистачить 100 млн рублів? Приблизно на 4000 книг середньої складності. Повторюся, мова йде про «сферичних книгах в вакуумі», тобто для кожної бібліотеки це буде своя сума. Але приблизний порядок цифр, думаю, зрозумілий.
Для ясності скажу, що в постраждалої від пожежі Фундаментальною бібліотеці ІНІСН РАН, за офіційними даними, міститься 14,7 млн книг, з яких в сховище на Нахімовському проспекті знаходилося 10,2 млн. Відмінність, як бачимо, на три порядки.
Оцифровка в інших країнах
Один з найвідоміших проектів з оцифрування книг і документів - це Gutenberg. запущений в 1971 році. В його рамках волонтери оцифровує і зберігають в текстовому форматі різні твори світової літератури, що знаходяться у вільному доступі. Зараз на сайті проекту можна безкоштовно скачати 45 000 книг у всіх популярних форматах. І власний лічильник проекту показує 4,5 млн завантажень тільки за останній місяць.
Ще один проект з оцифрування стародавніх книг, що заслуговує згадки, -META-e. Він також був задуманий і здійснений країнами ЄС. В рамках цього проекту гроші були виділені на розробку системи комп'ютерних програм для розпізнавання будь-яких європейських текстів, надрукованих в період XVI-XIX століть з використанням майже не зустрічаються нині готичних шрифтів.
Поки європейські бібліотеки оцифровані набагато більшою мірою, ніж російські.
Наприклад, на сайті Національної бібліотеки Франції, яка володіє порівнянними з ІНІСН фондом, доступні більш 3 млн книг і документів. Будемо сподіватися, що і наші бібліотеки в найближчому майбутньому зможуть похвалитися такими цифрами.
Фото 1: Sharon Nikki McCutcheon, www.flickr.com
Фото 2: Michael D Beckwith, www.flickr.com