„Apache Tika ist ein Toolkit zur Erkennung und Extraktion von Metadaten und strukturierter Text-Inhalte aus verschiedenen Dokumenten in einem der vorhandenen Parser-Bibliotheken.“ ~ Quelle: tika.apache.org
Alles in allem kennt Tika ca. 1200-Dateiformate und kann in etwa die Hälfte von ihnen lesen.
Die gebrächlichsten Formate: HTML, XML, einschließlich RSS und ATOM-Feeds, Microsoft Office (binäre Formate und OOXML) und OpenDocument (OpenOffice.org), Apple iWork, PDF, EPUB, RTF, komprimierte Formate wie ZIP, Audio-Formate inklusive MP3, Flash FLV Video-, Bild-Formate, einschließlich JPEG und TIFF, Postfach mbox-Format, etc.
Apache Tika für TYPO3 bietet dafür drei Dienste, um die Infos aus den Dateien abzurufen:
- Text-Extraktion
- Spracherkennung von Dateiinhalten (ab Version 0.8 oder höher)
- Met Datenextraktion
Alle drei Dienste können zusammen mit der DAM verwendet werden.
Bei einem kurzem Blick auf die installierten Dienste, sehen sie einen Bericht welche Formate unterstützt werden. Die Liste können sie leicht durch Hinzunahme neuer Dateiformate (kommagetrennt) erweitern. Diese können sie bei einer Serviceregistrierung abrufen. derzeit ist diese Liste begrenzt
Es wird die Tika Version 0.7 oder höher empfohlen. Für die Spracherkennung brauchen Sie wie schon erwähnt die Service Version 0.8 oder höher.