Metadaten Extraction Tool

Die Zeiten ändern sich.

Dieser Beitrag scheint älter als 10 Jahre zu sein – eine lange Zeit im Internet. Der Inhalt ist vielleicht veraltet.

Immer wieder gibt es die Anforderung aus einer Reihe von Dokumenten die Metadaten auszulesen. Die National Bibliothek von Neu Seeland hat sich dafür ein Werkzeug erstellt, was nun als Open Source zur Verfügung gestellt wird - Metadata Extraction Tool.

Das Werkzeug kann die Informationen aus diversen Grafik- und Dokumentenformaten auslesen.
Zum derzeitigen Zeitpunkt werden folgende Formate unterstützt:

  • Images: BMP, GIF, JPEG and TIFF.
  • Office documents: MS Word (version 2, 6), Word Perfect, Open Office (version 1), MS Works, MS Excel, MS PowerPoint, and PDF.
  • Audio and Video: WAV and MP3.
  • Markup languages: HTML and XML.

Die unterstützen Formate wurden als dtd / jar definiert, so dass man auch weitere Formate hinzufügen kann.

Die ausgelesenen Daten werden in einem XML-File gespeichert und können somit recht einfach in weiteren Anwendungen genutzt werden.

Die Software ist in Java geschrieben und läuft unter Unix und Windows. Steuern kann man per GUi oder Kommandozeile. Eine Installation ist nicht notwendig, einfach entpacken und starten.

Ein Kommentar

  1. Pingback: Links am Mittwoch

Kommentare sind geschlossen.