Startseite Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung
Artikel
Lizenziert
Nicht lizenziert Erfordert eine Authentifizierung

Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung

  • Thomas Bähr

    Technische Informationsbibliothek, Welfengarten 1B, 30167 Hannover, orcid.org/0000-0002-9337-7127

    ORCID logo EMAIL logo
    und Merle Friedrichsen

    Technische Informationsbibliothek, Welfengarten 1B, 30167 Hannover, orcid.org/0000-0001-7158-8583

    ORCID logo
Veröffentlicht/Copyright: 6. April 2017
Veröffentlichen auch Sie bei De Gruyter Brill

Zusammenfassung

In der Darstellung, Weitergabe und Aufbewahrung elektronischer Publikationen steht das Format PDF unangefochten an erster Stelle. Die Stärken des ISO-standardisierten Formats liegen in der Plattform- und Hardwareunabhängigkeit, in der seitengenauen Darstellung von Publikationen sowie in der einfachen Navigierbarkeit von komplexen Dokumenten. Dank der stetigen Weiterentwicklung des Formats existiert mittlerweile eine große Anzahl an PDF Profilen wie PDF/A, PDF/X, PDF/UA oder PDF/E. Eine flexiblere Dokumentendarstellung ermöglicht hingegen die eXtensible Markup Language XML, welche nicht nur im Web, sondern auch vermehrt in der Druckvorstufe eingesetzt wird. Wie PDF ist auch XML medienneutral und plattformunabhängig. Im Gegensatz zu PDF-Dokumenten erlaubt XML hingegen mittels Erfassung der Inhalte in einer dokumentierten und transparenten Struktur eine Validierung der Inhalte wie auch eine gezielte Weiternutzung einzelner Teilinhalte. Die Technische Informationsbibliothek (TIB) führte eine Analyse zur Machbarkeit einer PDF-nach-XML-Konvertierung durch. Ziel ist die Vorhaltung von XML-Dokumenten für zwei Prozesse: Erstens zur automatischen Katalogisierung von Kongressbänden auf Aufsatzebene, zweitens zur Aufbewahrung einer parallelen Repräsentation neben PDF-Dokumenten im Langzeitarchiv. Dieser Artikel stellt die Ergebnisse der Machbarkeitsstudie dar.

Abstract

PDF is without a doubt the most common file format choice when it comes to presenting, sharing and preserving electronic publications. The strengths of the ISO-standardized format lie in its independent platform and hardware, its page-exact rendering of publications as well as its smooth navigation of complex documents. Due to the ever-growing requirements of the community, a number of profiles for the file format exist today, such as: PDF/A, PDF/X, PDF/UA or PDF/E. The eXtensible Markup Language XML, on the other hand, allows for more flexible handling of document display, leading to a high adoption of the format not only in the web but also in printing and publishing processes. Like PDF, XML is media-neutral and platform-independent. Contrary to PDF, XML makes use of a transparent and well-documented content structure, allowing for validation processes as well as for extraction processes targeting specific content parts. TIB (the Technische Informationsbibliothek) conducted a proof-of-concept study on PDF to XML conversion. The study’s background is the usage of XML as a second representation of the original PDF content in the digital archive. This article presents the outcome of the proof-of-concept.

About the authors

Thomas Bähr

Technische Informationsbibliothek, Welfengarten 1B, 30167 Hannover, orcid.org/0000-0002-9337-7127

Merle Friedrichsen

Technische Informationsbibliothek, Welfengarten 1B, 30167 Hannover, orcid.org/0000-0001-7158-8583

Published Online: 2017-4-6

© 2017 by De Gruyter

Heruntergeladen am 7.9.2025 von https://www.degruyterbrill.com/document/doi/10.1515/abitech-2017-0004/html?lang=de&srsltid=AfmBOoqpak4FC6R97_EafSDm7RhSPNPOR_bdWKLn-4fnTQDIHTtUNlxq
Button zum nach oben scrollen