ebooks / martin-n / pdftk / shell script / wkhtmltopdf

Coletar um site recursivamente em um único PDF

O objetivo deste

O script a seguir fará o download de um site recursivamente em uma coleção de arquivos html, os converterá em PDFs e os concatenará em um único PDF.

Pré-requisitos

Você precisará de pdftk, wget e wkhtmltopdf.
Certifique-se de ter uma versão wkhtmltopdf que termina corretamente, por exemplo, versão 0.9.9.

Se você estiver no OSX, poderá instalar todas essas ferramentas via homebrew.
A fórmula para pdftk pode ser encontrada aqui .

O roteiro

#!/bin/bash

echo "Collecting files from subfolders..."
for FILENAME in $(find . -type f -name '*.html' -print | sed 's/^.///')
do
    mv $FILENAME `basename $FILENAME`
done

echo "Converting into PDF files..."
find . -name *.html | sed 's/.html$//g' | xargs -n 1 -I X wkhtmltopdf --quiet X.html X.pdf

echo "Concatenating the PDF files..."
pdftk *.pdf cat output book.pdf