Coletar um site recursivamente em um único PDF

O objetivo deste

O script a seguir fará o download de um site recursivamente em uma coleção de arquivos html, os converterá em PDFs e os concatenará em um único PDF.

Pré-requisitos

Você precisará de pdftk, wget e wkhtmltopdf.
Certifique-se de ter uma versão wkhtmltopdf que termina corretamente, por exemplo, versão 0.9.9.

Se você estiver no OSX, poderá instalar todas essas ferramentas via homebrew.
A fórmula para pdftk pode ser encontrada aqui .

O roteiro

#!/bin/bash

echo
"Collecting files from subfolders..."
for FILENAME in $(find . -type f -name '*.html' -print | sed 's/^.///')
do
mv $FILENAME
`basename $FILENAME`
done

echo
"Converting into PDF files..."
find
. -name *.html | sed 's/.html$//g' | xargs -n 1 -I X wkhtmltopdf --quiet X.html X.pdf

echo
"Concatenating the PDF files..."
pdftk
*.pdf cat output book.pdf