Що таке формат PDF
PDF - це багатофункціональний формат для зберігання і поширення електронних публікацій (книг, документів, брошур, каталогів і т.д.), який дозволяє зберігати їх форматування незмінним при відкритті на будь-яких пристроях. У документ / книгу PDF можуть бути вбудовані текст, картинки (векторні і растрові; в тому числі з прозорістю), анімація, звук, формули, таблиці, шрифти, посилання (внутрішні та зовнішні), скрипти (java), інтерактивне зміст і багато інших корисні елементи. Картинки можна стискати, зменшуючи тим самим загальний розмір файлу.
Я б виділив два основних типи PDF - так би мовити, з точки зору пересічного користувача. Тип перший - це «текстові» PDF, тип другий - PDF «картіночние». У «текстових» PDF текст - це дійсно текст; його можна копіювати, по документу можна проводити пошук і так далі; при бажанні можна збільшити розмір шрифту. При цьому крім тексту в «текстових» PDF можуть міститися таблиці, графіки, формули, картинки та інші елементи. Головне, що текст там є саме текстом.
«Картіночние» PDF - це просто набір відсканованих (або сфотографованих) сторінок книги, документа, брошури. Текст там - просто картинка, і часом картинка вельми посередньої якості. Вам не вдасться скопіювати цей текст, провести по ньому пошук, збільшити розмір шрифту ... Втім, звичайно, можна вдатися до допомоги програм-распознавателей тексту.
Такі програми можуть, розпізнавши документ PDF, накласти на нього так званий OCR-шар, що містить розпізнаний текст. Згодом по ньому можна буде проводити пошук (на деяких пристроях - і пошук слів у словниках, якщо вони встановлені). Але збільшити розмір шрифту і скопіювати текст все одно буде неможливо. Однак, як ви розумієте, «картіночние» PDF c OCR-шаром все ж краще звичайних «картіночних» PDF.
PDF є відкритим форматом, при бажанні кожен може його доопрацьовувати. Крім цього, для читання книг у форматі PDF можна без проблем створювати програми. Самі книги PDF можна поширювати без обмежень і відкривати на будь-якій кількості пристроїв. У той же час книги в PDF можна і оснащувати захистом від копіювання - найбільш популярна захист DRM, розроблена Adobe. Практично всі книги, що продаються в європейських і американських магазинах контенту, оснащені захистом DRM.
Під кінець варто сказати, що існує певна кількість спеціалізованих підвидів PDF, але, в общем-то, ці підвиди представляють інтерес лише для розробників і поліграфістів.
Розширення формату PDF - .PDF
Два головних мінуса PDF
Фактично, по-хорошому під кожен розмір екрану необхідно створювати окремий файл PDF. І в пристойних магазинах електронних книг (контенту) ви можете знайти кожну книгу в декількох варіантах: PDF A4, PDF A5, PDF A6. Для звичайного шестидюймового рідера краще варіант PDF A6.
Взагалі, PDF можна назвати вдалим форматом для зберігання художньої літератури; а ось для літератури почнемо і навчальної це дуже навіть непоганий варіант, так як він дозволяє вбудовувати величезна кількість різноманітних елементів - будь-яку графіку, таблиці, формули і так далі.
Програми для читання PDF
До речі сказати, PDF також вміють відкривати деякі браузери - наприклад, Safari від Apple. Але, природно, функціонал, який вони пропонують, дуже обмежений. Для простого читання документа його досить, але, наприклад, ніяких позначок або виділень ви зробити не зможете.
Програми для створення PDF
З спеціалізованих програм варто відзначити безкоштовні додатки PDF Creator для Windows (дозволяє створювати, але не редагувати PDF), pdftk для MacOS і Linux (дозволяє редагувати PDF, але це програма консольна - у неї немає класичного користувальницького інтерфейсу), PDFedit (для Linux), PDF XChange Viewer (для Windows; просте редагування). Варто згадати і платні програми: PDF Studio (MacOS X, Linux, Windows), InFix PDF Editor (для Windows), ABBYY PDF Transformer (для Windows).
Перетворення книг PDF в інші формати - завдання зазвичай непроста. Порівняно легко можна перевести PDF в DJVU; прості «текстові» PDF можна конвертувати в DOC, FB2, EPUB, HTML - теж без особливого клопоту і, головне, витрат. Список відповідних конвертерів (як онлайн-варіантів, які не потребують установки на комп'ютер, так і повноцінних програм) можна подивитися тут.
Якщо ж ви хочете перевести картіночний PDF в текстовий формат (DOC, RTF, TXT ...), то вам необхідно скористатися хорошою програмою розпізнавання текстів. Наприклад, ABBYY FineReader. Ця програма платна, випускається у версіях для Windows і MacOS.
Основні конкуренти PDF: DjVu, EPUB. У Росії конкурентом PDF є і DOC, який дуже люблять багато офісних працівників. Документи DOC хороші тим, що їх дуже просто створювати і редагувати, вони досить «легкі» і мають невеликий розмір. Однак DOC є дуже складним і своєрідним форматом, і на різних пристроях документи DOC можуть виглядати зовсім по-різному. PDF в цьому сенсі значно більш універсальний. Більш того, деякі пристрої відкривають PDF, але не відкривають DOC (наприклад, ряд е-інк рідерів).
Іншим плюсом PDF є його велика функціональність: в PDF можна вбудовувати що завгодно, аж до музики і анімації. Головним же мінусом PDF в порівнянні c DjVU є його ваговитість. Іншими словами, набір відсканованих сторінок в PDF важить помітно більше, ніж в DjVu. Але з розвитком телекомунікаційних технологій, а також технологій виробництва пам'яті, жорстких дисків цей мінус вже не стає таким вагомим. Тим більше що і сам формат PDF на місці не стоїть і вдосконалюється.
Залишилося порівняти PDF з EPUB. На даний момент PDF все-таки могутніше, ніж EPUB: в нього можна вбудовувати анімацію, звук (хоча з виходом EPUB 3 це вже неважливо); можливості форматування практично необмежені. З іншого боку, PDF файли зазвичай «важче» EPUB, і багато е-інк рідери справляються з їх читанням помітно гірше. Головний же мінус PDF - фактично, під кожен розмір екрану необхідно створювати окремий файл. Тому PDF можна назвати вдалим форматом для зберігання художньої літератури; а ось для літератури почнемо і навчальної це дуже навіть непоганий варіант, хоча, знову ж таки, який готується до виходу EPUB 3 буде, ймовірно, ще краще.
Моя думка про формат PDF
Перспективи формату PDF
Коли тільки починав писати цю статтю, думав, що у PDF перспективи непогані. Але потім зрозумів, що це не так. Майбутнє PDF вельми розмито і неясно. Звичайно, за станом на сьогоднішній день це видатний формат. Але конкуренти не дрімають; визрівають такі альтернативи, як EPUB і KF8. Звичайно, повністю замінити PDF вони не замінять, але потіснити його можуть цілком. Втім, в найближчі кілька років PDF однозначно буде залишатися одним з найбільш популярних форматів.
4 thoughts on "Про форматі PDF"
Основна проблема PDF в тому, що він .... сильно поширений. Його ліплять де треба і не треба. Якби він застосовувався за призначенням - в місцях де потрібно «попіксельно» точність взаємного розташування елементів на полотні, і саме як Документ, готовий для електронного підпису і створюваний «на століття», то проблем би не було.
У всіх інших випадках не можу уявити таку верстку, з якої б не впорався HTML. Подивіться на тисячі веб-сторінок і очманівши від можливостей. Невже в технічній _електронной_ книзі вимоги до верстки складніше, ніж на цих сторінках?
прості «текстові» PDF можна конвертувати в DOC, FB2, EPUB, HTML - теж без особливого клопоту і, головне, витрат
Чим можна конвертувати текстовий PDF з многоколоночной версткою? Жоден конвертер з мною випробуваних не має колонки послідовно, а просто перемішує їх текст - рядок 1 колонка 1, стр1 кол2, стр1 кол3, стр2 кол1, стр2 кол2 і т.д.
У всіх інших випадках не можу уявити таку верстку, з якої б не впорався HTML. Подивіться на тисячі веб-сторінок і очманівши від можливостей. Невже в технічній _електронной_ книзі вимоги до верстки складніше, ніж на цих сторінках?
PDF, на відміну від HTML, хороший тим, що всюди відображається однаково; а ось файли HTML в різних браузерах можуть відображатися по-різному - з невеликими відмінностями. Крім цього, відскановані сторінки книг в HTML не поширюють - зокрема тому, що важать вони занадто багато; у PDF є спеціальні механізми стиснення зображень. Щодо інших моментів я сказати не можу - НЕ поліграфіст і не розробник, але, думаю, є і якісь додаткові стримуючі фактори.
В принципі, заснований на HTML / XML формат EPUB - особливо його третя версія - дуже перспективний, і я думаю, що через деякий час він PDF потіснить. Фактично, це якийсь гібрид HTML і PDF, який взяв кращі риси від обох цих форматів.
>> відскановані сторінки книг в HTML не поширюють
Це питання в розрахунок не беремо. Застосування виключно піратське.
>> PDF, на відміну від HTML, хороший тим, що всюди відображається однаково
А в яких випадках потрібно ідентичне відображення? Тільки в разі журналів, де верстка передбачає заголовки, таблиці, малюнки, розташовані на розвороті (відразу на двох сторінках). І то, витрати на невелике переверстиваніе таких елементів є нікчемною. Зазвичай їх не більше десятка.
Усе. Крапка. У всіх інших випадках ідентичність не важлива. Так як просто немає поняття сторінки. Тому колонтитули та інше в електронній версії просто не потрібно, вони не мають фізичного сенсу. Головне порядок проходження елементів і максимум обтікання елементів текстом, яке плюс-мінус одна-дві рядки виконується цілком якісно.
Дивують журнали, які часто не мають паперової версії, але все-одно ліпляться в Багатоколоночних pdf. Та й інших, з якістю «споконвічно комп'ютерне» дофіга і більше.
Наскільки я знаю, основні програми верстки цілком можуть робити експорт в HTML. Але PDF ліплять куди треба і не треба. Навіть Ви, не помічаєте ізлішнесть формату для читання (споживання) текстово-ілюстративної інформації з електронних пристроїв.
>> А в ідеалі, звичайно, варто придбати програму ABBYY PDF Transformer:
У чому її відмінність від банального FineReader? Вона може _без распознаванія_ переверстати _ізначально компьютерний_, включаючи Багатоколоночних, PDF в HTML?
Це питання в розрахунок не беремо. Застосування виключно піратське.
Щоб ви не сказали. Зарубіжні журнали, наприклад, досить часто зберігають і поширюють свої статті у вигляді картіночних PDF (сканів) з OCR-шаром.
І, до речі, мені ось спливло на розум ще одна перевага PDF перед HTML: безпека - можливість додавання цифрового підпису, установки захисту від копіювання DRM ...
Також є ще один невеликий момент, якщо порівнювати PDF саме з HTML, а не з EPUB. PDF - це завжди один файл. HTML - це завжди файл і архів з купою додаткових файлів, що не завжди зручно.
Ну і нарешті, в PDF використовується вбудований шрифт, в той час як при відображенні HTML браузер може замінити вказаний шрифт на інший, якщо зазначений не встановлено на комп'ютер.