Extraia o conteúdo de .doc (x), .ppt (x), etc.

Tão simples quanto 1,2,3, o Apache Tika faz os trabalhos e os faz bem. Esta biblioteca é capaz de extrair o conteúdo e metadados de qualquer documento estruturado , como documentos do Microsoft Office. O excelente Apache Lucence conta com ele para extrair o conteúdo dos documentos e torná-los pesquisáveis .

Apache Tika oferece uma versão independente do aplicativo com uma CLI fácil (você também pode chamar uma GUI).

Para extrair um conteúdo do PowerPoint em formato HTML, basta executar o seguinte comando:

java -jar tika-app.jar Text.pptx --html > Test.html