Персональный блог | Константин Моренко

Всё, что интересует меня и может быть полезно и интересно другим

Изменение метаданных автора и заголовка pdf-документа с помощью pdftk

Когда я выкладывал на сайте свои собственные статьи (в виде вырезанных из pdf-сборников страниц), я захотел сделать их качественно, и поэтому решил дать каждому pdf-файлу название в соответствии с названием работы и указать себя в качестве автора. Для этого мне пригодился пакет pdftk. В Linux есть так же графическая оболочка PDFChain

Работа с графической оболочкой довольно проста, а в терминале это можно сделать следующим образом:

  1. Извлечём метаданные из существующего документа в файл data.txt:

     $ pdftk input.pdf dump_data output data.txt
    

В файле метаданных будет примерно следующее

    InfoBegin
    InfoKey: ModDate
    InfoValue: D:20161229161229+03'00'
    InfoBegin
    InfoKey: CreationDate
    InfoValue: D:20161229161229+03'00'
    InfoBegin
    InfoKey: Author
    InfoValue: Моренко К. С.
    InfoBegin
    InfoKey: Title
    InfoValue: Научная статья
    NumberOfPages: 4
  1. Далее редактируем этот файл с помощью текстового редактора, изменяя необходимые значения полей (при необходимости можно добавить поля, синтаксис весьма прост)

  2. Затем обновим метаданные. Следует отметить, что pdftk не позволяет перезаписать существующий файл, поэтому нужно создать новый

     $ pdftk input.pdf update_info_utf8 data.txt output input.pdf.new
    
  3. Далее, при необходимости, можно заменить оригинальный файл (предварительно убедившись, что всё прошло успешно)