Tão simples quanto 1,2,3, o Apache Tika faz os trabalhos e os faz bem. Esta biblioteca é capaz de extrair o conteúdo e metadados de qualquer documento estruturado , como documentos do Microsoft Office. O excelente Apache Lucence conta com ele para extrair o conteúdo dos documentos e torná-los pesquisáveis .
Apache Tika oferece uma versão independente do aplicativo com uma CLI fácil (você também pode chamar uma GUI).
Para extrair um conteúdo do PowerPoint em formato HTML, basta executar o seguinte comando:
java -jar tika-app.jar Text.pptx --html > Test.html