Інструменти маніпулювання файлами pdf

pdfgrep. Пошук в pdf.

Якщо ви хоч раз використовували потужну утиліту grep, то вам відразу буде ясна робота pdfgrep. Відмінність тільки одне. Grep оперує рядками, а PdfGrep сторінками. PdfGrep вміє використовувати міць регулярних виразів, обходити рекурсивно каталоги при пошуку, підсвічувати знайдене.

comparepdf. Порівняння файлів pdf.

Утиліта командного рядка comparepdf, як каже її ім'я, створена для порівняння pdf файлів. За замовчуванням порівняння відбувається в "текстовому" режимі (мається на увазі --compare = text), де порівнюється текст відповідних пар сторінок. При знаходженні відмінностей програма виводить повідомлення і повертає код виходу.

Опція --compare = appearance дозволяє "дізнатися" чи немає змін у діаграмах або зображеннях. Опції -verbose = 0 відключають повідомлення, -verbose = 1 повідомляють тільки при розходженні, -verbose = 2 повідомляють при розходженні або ідентичності.

Вам варто знати, що comparepdf не виводить вам в будь-якому вигляді розрізняються частини. Утиліта заточена під виклики з програм для діагностування самого факту відмінності або ідентичності в pdf. Якщо вам необхідний інструмент візуального порівняння документів, то переходите до Diffpdf.

DiffPDF використовується для порівняння двох файлів формату PDF. За замовчуванням в кожній парі сторінок порівнюється текст, але можна порівняти і зовнішній вигляд. Наприклад, зміна вставленої діаграми або стилю абзацу. Крім того, можна порівняти певні сторінки або сторінки в певних діапазонах. Наприклад, якщо в першій версії файлу формату PDF є сторінки від 1 до 12, а в другій - від 1 до 13 (вставлена ​​додаткова сторінка 4), ці версії можна порівняти, сторінки першої версії файлу вказавши в діапазоні 1-12, а сторінки другий - в діапазонах 1-3 і 5-13. Таким чином, DiffPDF виконає порівняння сторінок в наступних парах: (1,1), (2, 2), (3, 3), (4, 5), (5, 6) і далі до (12, 13).

Інструменти маніпулювання файлами pdf

Картинки в pdf.

Якщо у вас є серія зображень типу pic _ *. Jpg, то перетворити в pdf можна командою ls -v | tr '\ n' '' | sed 's / $ / \ result.pdf /' | xargs convert Причому pic_10.jpg буде після pic_9.jpg, а не після pic_1.jpg, завдяки ключу -v.

PDF Toolkit (pdftk).

Якщо PDF документ - це "електронний папір", то pdftk - це степлер, дирокол, сшиватель в одному флаконі. pdftk, немов швейцарський ніж, вміє:

  • З'єднати безліч pdf в один. pdftk file1.pdf file2.pdf cat output newFile.pdf або pdftk * .pdf cat output combined.pdf
  • Розділити один pdf на безліч. pdftk user_guide.pdf burst
  • Видалити частину сторінки, що в pdf. Для прикладу видалимо з 10 по 25 сторінку. pdftk myDocument.pdf cat 1-9 26-end output removedPages.pdf
  • Розшифрувати документ pdf. pdftk secured.pdf input_pw ВашПароль output unsecured.pdf
  • Зашифрувати документ pdf. pdftk your_normal.pdf output secured.pdf owner_pw ВашПароль
  • Спробувати виправити пошкоджений документ pdf. pdftk broken.pdf output fixed.pdf
  • Обертання сторінок в документі pdf. Повернути першу сторінку в документі pdf на 90 градусів за годинниковою стрілкою pdftk in.pdf cat 1east 2-end output out.pdf. Повернути всі сторінки на 180 градусів pdftk in.pdf cat 1-endsouth output out.pdf
  • Нанести на сторінки в документі pdf "водяний знак". Для прикладу потрібно на кожній сторінці зробити вказівку що це Черновик. Зробіть draft.pdf з однієї сторінки словом Чернетки. Командуйте pdftk document.pdf background draft.pdf output watermark_document.pdf
  • Оновити метадані pdf. Наприклад, можна створити текстовий файл War_Peace.txt з вмістом
pdftk war_peace.pdf update_info war_peace.txt output war_peace-updated.pdf
  • Вміє заповнювати PDF Forms з FDF Data або Flatten Forms.
  • З PDF в текст. Конвертер PDF.

    Виклик pdftotext document.pdf document.txt дозволить вам витягти текст з pdf. Можна відразу вивести текст в простий html або xml. Якщо текст в pdf є на фіксованих позиціях, тобто можливість вказати координати і текст буде витягнуто саме звідти. Викликаючи pdftotext document.pdf - | grep НужнаяСтрока. можна зімітувати роботу pdfgrep.

    З PDF витягнути картинки.

    З CHM в PDF.

    Якщо хочете перетворити свою колекцію різних посібників у форматі Microsoft Compiled HTML Help в Portable Document Format, то в цьому допоможе утиліта командного рядка chm2pdf. chm2pdf підтримує пакетний режим, опції безпеки PDF, захист паролем і режими стиснення.

    PDF Split and Merge (pdfsam).

    Не можна не відзначити java програму PDF Split and Merge (pdfsam), яка в графічному режимі дозволить зробити масу вищеописаного.

    Інструменти маніпулювання файлами pdf

    PDFSaM йде в двох версіях, обидві вільні. Базова доступна в пакетах для Debian, Ubuntu і Arch Linux. Розширена версія володіє всім функціоналом, але доступна на офіційному сайті лише у вигляді вихідного коду, хоча з огляду на мову java, проблем з запуском програми бути не повинно.

    • Дозволить розділити PDF на безліч сторінок, кожну в свій файл.
    • Витяг обраних сторінок в новий PDF.
    • З'єднати кілька документів PDF в один.
    • Вирощують сторінки в документі PDF.
    • Візуально змінити порядок проходження сторінок.
    • Візуально створити новий PDF з декількох PDF, вручну перетягуючи потрібні сторінки.
    • Шифрувати і дешифрувати PDF.
    • Встановлювати права доступу.
    • Витягувати вкладення (attachments).
    • Оновлювати метадані.