O objetivo deste
O script a seguir fará o download de um site recursivamente em uma coleção de arquivos html, os converterá em PDFs e os concatenará em um único PDF.
Pré-requisitos
Você precisará de pdftk, wget e wkhtmltopdf.
Certifique-se de ter uma versão wkhtmltopdf que termina corretamente, por exemplo, versão 0.9.9.
Se você estiver no OSX, poderá instalar todas essas ferramentas via homebrew.
A fórmula para pdftk pode ser encontrada aqui .
O roteiro
#!/bin/bash
echo "Collecting files from subfolders..."
for FILENAME in $(find . -type f -name '*.html' -print | sed 's/^.///')
do
mv $FILENAME `basename $FILENAME`
done
echo "Converting into PDF files..."
find . -name *.html | sed 's/.html$//g' | xargs -n 1 -I X wkhtmltopdf --quiet X.html X.pdf
echo "Concatenating the PDF files..."
pdftk *.pdf cat output book.pdf