Metadaten Extraction Tool

Immer wieder gibt es die Anforderung aus einer Reihe von Dokumenten die Metadaten auszulesen. Die National Bibliothek von Neu Seeland hat sich dafür ein Werkzeug erstellt, was nun als Open Source zur Verfügung gestellt wird - Metadata Extraction Tool.

Das Werkzeug kann die Informationen aus diversen Grafik- und Dokumentenformaten auslesen.
Zum derzeitigen Zeitpunkt werden folgende Formate unterstützt:

  • Images: BMP, GIF, JPEG and TIFF.
  • Office documents: MS Word (version 2, 6), Word Perfect, Open Office (version 1), MS Works, MS Excel, MS PowerPoint, and PDF.
  • Audio and Video: WAV and MP3.
  • Markup languages: HTML and XML.

Die unterstützen Formate wurden als dtd / jar definiert, so dass man auch weitere Formate hinzufügen kann.

Die ausgelesenen Daten werden in einem XML-File gespeichert und können somit recht einfach in weiteren Anwendungen genutzt werden.

Die Software ist in Java geschrieben und läuft unter Unix und Windows. Steuern kann man per GUi oder Kommandozeile. Eine Installation ist nicht notwendig, einfach entpacken und starten.

Ein Kommentar

  1. Pingback: Links am Mittwoch

Kommentare sind geschlossen.