Home Library & Information Science, Book Studies FAIRe Geodaten aus dem Archiv. Ein Tool zur automatisierten Metadatenextraktion aus historischen Karten
Article Open Access

FAIRe Geodaten aus dem Archiv. Ein Tool zur automatisierten Metadatenextraktion aus historischen Karten

  • André Hartmann

    André Hartmann

    ORCID logo EMAIL logo
    , Hendrik Herold

    Hendrik Herold

    ORCID logo EMAIL logo
    , Anna Lisa Schwartz

    Anna Lisa Schwartz

    ORCID logo EMAIL logo
    and Markus Schmalzl

    Markus Schmalzl

    ORCID logo EMAIL logo
Published/Copyright: November 8, 2023
Become an author with De Gruyter Brill

Zusammenfassung

In einem von der NFDI4Biodiversity geförderten Kooperationsprojekt der Generaldirektion der Staatlichen Archive Bayerns (GDA) und des Leibniz-Instituts für ökologische Raumentwicklung (IÖR) wurden Möglichkeiten der Verbesserung der Zugänglichkeit und Interoperabiltiät historischer Geoinformationen erprobt. Ziel des Projektes war die Erarbeitung von Digitalisierungsempfehlungen für historische Karten aus Archivbeständen und die Entwicklung sowie der Pilotbetrieb eines Tools zur Mobilisierung und FAIRification von analoggebundenen Informationen. Die über die Extraktion von Karteninhalten gewonnen Geo- und Metadaten bedienen verschiedene Standards und stehen somit neben der Biodiversitätsforschung weiteren Communities zur Verfügung. Über eine generische Archivierungsschnittstelle werden die Daten in einem Digitalen Langzeitarchiv ingestiert und können in ausgewählten Fachportalen publiziert werden.

Abstract

In a collaborative project between the State Archives of Bavaria and the Leibniz Institute of Ecological Urban and Regional Development (IOER), funded by NFDI4Biodiversity, possibilities for enhancing the accessibility and interoperability of historical geoinformation were developed and tested. The aim of the project was to develop digitization recommendations for historical maps from archival collections and to engineer and pilot a tool for the mobilization and FAIRification of analog-bound information. The geodata and metadata obtained through the automated extraction of map content serve various standards and are thus available to other science communities in addition to biodiversity research. Via a generic archiving interface, the data are ingested in a digital long-term archive and can be published in selected research portals.

1 Neuentdeckung historischer Karten für unterschiedliche Wissenschaftsdisziplinen

Historische Kartensammlungen gehören zu den klassischen Sammlungsschwerpunkten in Museen und Bibliotheken und bilden häufig anzutreffende Pertinenz- und Sammlungsbestände in Archiven. Ihnen wird in den letzten Jahrzehnten vermehrt Aufmerksamkeit geschenkt, seitdem die Geisteswissenschaften und insbesondere die Geschichtswissenschaft den „Raum“ als Untersuchungsgegenstand und Bezugspunkt wieder stärker in den Blick genommen haben.[1] Wurden herausragende Karten und Pläne schon seit langem als Exponate gezeigt, widmen sich nun ganze Ausstellungen den Sammlungen und Beständen und thematisieren die Herstellungsmethoden und Vermessungstechniken vergangener Jahrhunderte.[2]

Zudem entschieden sich in den letzten zwanzig Jahren viele Institutionen, zunächst herausragende ältere Bestandteile und zunehmend auch ihre kompletten Kartensammlungen und Planbestände zu digitalisieren und online zugänglich zu machen. Die Digitalisierung bot damit auch die Chance, institutionell verstreute historisch bedeutsame Kartensammlungen virtuell wieder zusammenzuführen und über zentrale und spartenübergreifende Portallösungen, wie etwa bavarikon (Portal zur Kunst, Kultur und Landeskunde)[3] oder LEO-BW (Landeskundliches Informationssystem Baden-Württemberg),[4] zugänglich zu machen. Dies betrifft auch Geoinformationen großer ehemals zusammenhängender Kultur- und Wirtschaftsräume, wie dies etwa in einem langjährigen EU-geförderten Kooperationsprojekt der Staatlichen Archive Bayerns mit tschechischen Archiven gelungen ist, bei dem über das eigens aufgebaute Rechercheportal Porta Fontium historische Karten und Pläne zum bayerisch-tschechischen Grenzraum aus insgesamt 13 Archiven digitalisiert und erschlossen wurden.[5] Dabei wurden Methoden der händischen Georeferenzierung sowie des automatisierten Auslesens verschriftlicher Informationen auf historischen Karten erprobt.[6] Neben KI-gestützten Verfahren setzen Bibliotheken und zunehmend auch Archive Crowdsourcingprojekte zur Georeferenzierung um.[7] Bei vielen dieser Projekte wurden schon Methoden und Tools zur Map Content Extraction an bereits digitalisierten Kartensammlungen erprobt.[8] Die konservatorischen Anforderungen bei der Digitalisierung geeigneter Kartenbestände, uneinheitliche Scanparameter bereits digitalisierter Sammlungen und der Langzeiterhalt der extrahierten Informationen stellen solche Projekte immer wieder vor Herausforderungen.[9] Das Projekt Hist4Biodiv[10] setzt bei diesen Punkten an: Neben einem Tool zur automatisierten Datenextraktion wurden Empfehlungen[11] und ein Workflow entwickelt, die bereits bei der Digitalisierung analogen Archivguts ansetzen. Die aus den Karten extrahierten Geoinformationen und Metadaten werden im Anschluss nicht nur in die Langzeitarchivierung überführt, sondern können durch die unterschiedlichen Ausgabeformate und Austauschstandards[12] im Sinne eines kompletten Datenlebenszyklus verschiedenen Forschungscommunities zur Nachnutzung zur Verfügung gestellt werden.

2 Historische Biodiversitätsdaten und Geoinformation aus mehreren Jahrhunderten

Die öffentlichen Archive in Deutschland archivieren in steigendem Maße digitale Informationen der öffentlichen Verwaltung von bleibendem Wert, um diese dauerhaft zu verwahren, zu erschließen und wieder zugänglich zu machen.[13] Über dieses Aussonderungsverfahren auf Grundlage der Archivgesetze gelangen große Datenmengen in die Archive, die auch für die Beantwortung aktueller wissenschaftlicher Fragen beispielsweise der Biodiversitätsforschung (NFDI4Biodiversity), der Erdsystemwissenschaften (NFDI4Earth) und Agrosystemforschung (FAIRagro) sowie weitere Disziplinen und damit auch für die Nationale Forschungsdateninfrastruktur (NFDI) und ihre Konsortien relevant sind.[14] Dies betrifft sowohl digitale Informationen der Verwaltung (born digitals), die in den letzten Jahren entstanden sind, als auch historische Archivbestände, die bis in das frühe Mittelalter zurückreichen. So konnten in Vorbereitung auf die Beteiligung der Staatlichen Archive Bayerns in der NFDI einschlägige Archivalienbestände für die jeweiligen Forschungscommunities, u. a. historische Biodiversitätsdaten, identifiziert werden.[15] Wie anderen Gedächtnisinstitutionen bieten sich den Archiven Chancen, mit Hilfe innovativer Methoden benachbarter Disziplinen, wie den Digital Humanities, diese analoggebundenen Daten zu mobilisieren und für die Wissenschaft zugänglich zu machen.[16]

In Hist4Biodiv wurden der Umgang mit solchen historischen Daten und ihre Verfügbarmachung für die Biodiversitätsforschung in einem Pilotprojekt erprobt. Denn viele Archivbestände, die bislang v.a. für geisteswissenschaftliche Fragestellungen ausgewertet wurden, bieten auch relevante Informationen für andere Disziplinen. So zieht die Wirtschafts- und Sozialgeschichte als frühes Beispiel mittelalterlicher Überlieferung zu Rechts- und Besitzverhältnissen geistlicher und weltlicher Herrschaftsträger die Urbare als Quellen heran, die teilweise und in Vorformen auch in Bayern seit dem 8. Jahrhundert überliefert sind.[17] Sie enthalten, ähnlich wie die Ernteregister der Klöster, die teils ab dem Spätmittelalter bis ins 19. Jahrhundert in geschlossenen Serien in den Archiven verwahrt werden und Auskunft über Ernteerträge der Landwirtschaft geben, Informationen zur Landnutzung, die auch Rückschlüsse auf klimatische Veränderungen erlauben.[18] Mit der dichteren Überlieferung einer sich professionalisierenden und ausdifferenzierenden Verwaltung seit der Frühen Neuzeit verbreitert sich auch das Spektrum einschlägiger Datenbestände für naturwissenschaftliche Fragestellungen.[19] Neben der Urkunden- und Amtsbuchüberlieferung stehen ab dem 15. Jahrhundert umfangreiche Aktenbestände und Berichtsserien zur Verfügung, die mitunter auch Rückschlüsse zur Intensität der Landnutzung ganzer Territorien für einzelne Zeitschnitte erlauben, wie etwa die Hauptsteuerbeschreibungen der niederbayerischen Pfleggerichte für 1612 und 1721.[20] Die statistischen Erhebungen des 19. Jahrhunderts erlauben teils ganz direkte Auswertungen zur Biodiversität. Beispielsweise erging 1845 der Auftrag an die bayerischen Forstverwaltungsbezirke, anhand eines Formularblatts die Fauna in den zugehörigen Forstämtern zu erfassen (s. Abb. 1). Das Ergebnis ist eine flächendeckende Erhebung des Vorkommens ausgewählter Tierarten in ganz Bayern für den Zeitschnitt 1845.[21]

Abb. 1: Auszug aus dem Formularblatt zur Erfassung der Fauna in den zugehörigen Forstämtern
Abb. 1:

Auszug aus dem Formularblatt zur Erfassung der Fauna in den zugehörigen Forstämtern

Seit dem 15. Jahrhundert sind kartographische Darstellungen in den Staatlichen Archiven Bayerns überliefert, die zwar noch nicht auf exakter Vermessung der Erdoberfläche beruhen, aber dennoch wertvolle Aussagen zur Landnutzung und Landschaft erlauben. Mit der Herausbildung der amtlichen Vermessung, der Gründung eines topographischen Bureaus 1801 und der Nutzung der Trigonometrie mit dem Nordturm der Münchner Frauenkirche als Nullpunkt änderte sich das Verfahren grundlegend.[22] Mit Hilfe moderner Messtechnik und großem Personaleinsatz wurde das Königreich Bayern komplett vermessen. Dies betraf nicht nur die 21 Millionen Grundstücke, sondern auch die Fläche des Landes. Zwischen 1808 und 1864 entstanden über 23 000 Messtisch- bzw. Urpositionsblätter im Maßstab 1:25 000, und damit die Basis für die Flurkarte, die heute mit Fernerkundung in digitaler Form erzeugt wird.[23]

Die neuen Kartenwerke dienten nun nicht mehr nur militärischen Zwecken, sondern der Besteuerung und verschiedensten Aufgabenbereichen der zivilen Verwaltung. Entsprechend sind in den Staatlichen Archiven Bayerns nicht nur die älteren Flurkarten der Vermessungsverwaltung überliefert, die nach der Erstaufnahme auch für weitere Zeitabschnitte vorliegen. Vielmehr diente die Flurkarte ab der ersten Hälfte des 19. Jahrhunderts auch als Grundlage für Kartenwerke der verschiedenen Verwaltungszweige, wie der Vermessungs-, Steuer-, Umwelt und Landwirtschaftsverwaltung, der Moorbewirtschaftung, der Bauverwaltung und Landesplanung oder für Planungszwecke zum Bau und Ausbau der Schienennetze im Königreich Bayern. Diese analog gebundenen Geofachdaten sind daher in den unterschiedlichsten Verwaltungszusammenhängen verschiedener Provenienzbildner überliefert, bislang nur in geringem Umfang digitalisiert, häufig nicht ausreichend mit Metadaten beschrieben und abgesehen von einer Zuweisung zu dem jeweiligen Flurkartenblatt nicht georeferenziert. Sie sind damit bislang in vielen Fällen nur schwer auffindbar, eingeschränkt zugänglich und nicht interoperabel auswertbar. Gerade eine gegenüberstellende Auswertung älterer und neuer Geoinformationen mit Hilfe von historischen Flurkarten eröffnet neue Forschungsperspektiven, wie dies in Einzelfallstudien bisher auf nicht-automatisiertem Wege erfolgt ist.[24] Der Bedarf an historischen Landnutzungsdaten[25] nimmt aktuell zu, wenn es beispielsweise um die Wiederverwässerung von Mooren zu Zwecken der CO2-Bindung geht. Hierfür werden gerade auch ältere Kartenwerke herangezogen, die auf diesem Wege und neben aktuellen Geofach- und Geobasisdaten teils erst in die Archive gelangen und für künftige Auswertungen langzeitarchiviert werden.[26]

3 Digitalisierungsempfehlungen als einheitliche Ausgangsbasis für die Map Content Extraction

Das vollautomatisierte Auslesen maschinenlesbarer Inhaltsinformationen aus Karten stellt Projektvorhaben immer noch vor Herausforderungen.[27] In dem Projekt Hist4Biodiv wurden deshalb „Empfehlungen für die Digitalisierung historischer Karten“[28] entwickelt, um eine einheitliche Ausgangsbasis für die Anwendung eines Tools zur Extraktion von Karteninhalten zu schaffen und Hilfestellung für einen die Originale schonenden Umgang zu geben (s. Abb. 2).[29]

Abb. 2: Empfehlungen für die Digitalisierung historischer Karten
Abb. 2:

Empfehlungen für die Digitalisierung historischer Karten

In das Papier sind verschiedene Handreichungen zu Digitalisierungsempfehlungen in deutschen Archiven, Bibliotheken und Sammlungen eingeflossen.[30] Zwischen 2013 und 2015 beteiligte sich die Generaldirektion der Staatlichen Archive Bayerns an dem von der Archivschule Marburg koordinierten Projekt „Digitalisierung von archivalischen Quellen“.[31] Auf dem Weg zu einer Vereinheitlichung von Digitalisierungsvorhaben im deutschen Archivwesen sind zudem die „Handreichung zur Digitalisierung von Archivgut“[32] sowie das Grundlagenpapier „Archiv- und Bibliotheksgut schonend digitalisieren“ als wichtige Meilensteine zu nennen.[33] Die Digitalisierung von kulturellem Erbe wird weiterhin intensiv diskutiert[34] und auch die DFG hat ihre 2016 erstmals veröffentlichten Praxisregeln, insbesondere vor dem Hintergrund einer Nationalen Forschungsdateninfrastruktur, überarbeitet.[35]

Zur genauen Kalkulation des zeitlichen Umfangs sowie eines Ressourcen- und Kostenplans für ein Digitalisierungsprojekt dient in einem ersten Schritt die gründliche Analyse eines in Frage kommenden Bestands. Im Projekt wurden Empfehlungen erarbeitet, welche Aspekte hierbei und zu einer Reihe weiterer wichtiger Fragen entlang des Digitalisierungsprozesses von Karten und Plänen zu berücksichtigen sind:[36]

  1. Eignen sich Trägermaterial und Formate der Karten und Pläne und haben diese evtl. Auswirkung auf die Auswahl der Digitalisierungstechniken?[37]

  2. Sind Schäden nach einer einheitlichen Matrix erfasst und ggf. Zustandsprotokolle für herausragende Einzelstücke erstellt?[38]

  3. Gibt es urheber- oder archivrechtliche Einschränkungen für die unterschiedlichen Nutzungsszenarien und die Publikation der Digitalisate?[39]

  4. Ist die korrekte Grunderschließung aller Archivalieneinheiten des Bestands gegeben,[40] die den jeweiligen Erschließungsstandards der bestandhaltenden Institution genügt?[41]

  5. Wie und unter welchen Bedingungen können die einzelnen Karten und Pläne digitalisiert werden oder müssen von der Maßnahme aus konservatorischen Gründen ausgeschlossen werden?

  6. Welche Verbesserungen müssen künftig bei der Lagerung der Archivalien geschaffen werden, um künftige Schäden zu verhindern?

  7. Welche Aspekte müssen bei der Beauftragung eines Dienstleisters, beim Transport der Karten und Pläne und bei der Qualitätskontrolle beachtet werden.[42]

Zur Optimierung der Digitalisate für die automatisierte Extraktion von Karteninhalten im Projekt Hist4Biodiv wurden zudem technische Vorgaben zusammengestellt:

  1. Entsprechen die erzeugten Dateien einschließlich der Probedigitalisate den festgelegten technischen Parametern, insbesondere hinsichtlich des TIFF-Formats zur Vermeidung von Einspielfehlern?[43]

  2. Enthalten die Dateien die notwendigen technischen Metadaten zum Scanprozess und folgen diese der vorab festzulegenden Dateinamenskonvention?

  3. Gibt es Richtlinien für die mobilen Datenträger bei der Zwischenspeicherung der Digitalisate?

  4. Entsprechen Aufnahmeformat und Auflösung den Zielvorgaben für die automatisierte Datenextraktion (in Hist4Biodiv 508 dpi)?[44]

  5. Werden die Qualitätsstandards für eine Langzeitspeicherung bzw. Langzeitarchivierung der Digitalisate in dem jeweiligen Repositorium bzw. Digitalen Langzeitarchiv erreicht?[45]

Anhand dieser Empfehlungen wurden Digitalisate analoger Flurkarten aus dem Bayerischen Hauptstaatsarchiv erstellt, um diese bestmöglich für die Anwendung eines vom Leibniz-Institut für ökologische Raumentwicklung entwickelten Tools zur Datenextraktion bereitzustellen (s. Abb. 3).

Abb. 3: Digitalisat eines Flurkartenblattes. Anhand dieser und ähnlicher Flurkarten wurde die Metadaten-Extraktion getestet
Abb. 3:

Digitalisat eines Flurkartenblattes. Anhand dieser und ähnlicher Flurkarten wurde die Metadaten-Extraktion getestet

4 Extraktion von Karteninhalten und Metadaten

Durch die Extraktion von Karteninhalten wird angestrebt, nicht nur den Kartenscan selbst, sondern auch die extrahierten Informationen so gut zugänglich wie möglich zu machen. Dies hängt mit dem eher technischen Teil der Interoperabilität zusammen, d. h. mit der Verwendung offener Standards, Formate und Software. Indem wir die Exportfunktionalität für eine Vielzahl von Dateiformaten vorbereiten, ermöglichen wir die freie Wahl der Software auf der Benutzerseite. Außerdem ermöglicht die Implementierung in Open-Source-Code und -Software, die Definition einer geeigneten Exportschnittstelle für die Archivierung sowie die Bereitstellung ausreichenden Dokumentationsmaterials die Reproduzierbarkeit und Wiederverwendbarkeit des Ansatzes zur Datenextraktion und den Langzeiterhalt der extrahierten Informationen.

4.1 Map Content Extraction

Der im Folgenden beschriebene Workflow ermöglicht es, die Kartenscans um strukturierte und möglichst interoperable Metadaten anzureichern. Hierfür wurde ein zweistufiges Verfahren implementiert. Zunächst wird darauf abgezielt, mit Methoden der Computer Vision (d. h. Farbseparation und Template Matching) Karteninhalt zu extrahieren (Map Content Extraction). Aus dem Ergebnis dieser Extraktion wird dann ein Metadatensatz aufgebaut, der den Karteninhalt beschreibt und in möglichst viele Ausgangsformate exportiert werden kann (s. Abb. 4).

Eine erste Analyse betrifft also den Farbinhalt der gescannten Karten. Damit ist nicht die rein technische Frage gemeint, ob Farbkanäle im Bildformat gespeichert sind, sondern vielmehr die durch das menschliche Auge wahrnehmbare Farbkodierung der semantischen Karteninhalte. Ersteres ist ohne großen Aufwand zu beantworten, der zweite Sachverhalt lässt sich nur klären, wenn man die Mischung der Pixelfarben zu Grauwerten, oder die Schwelle für den Weißwert berücksichtigt. Dazu stelle man sich vor, dass eine historische Karte ohne farbliche Inhalte auf vergilbtem Papier eingescannt wurde. Das gescannte Bild wird rein technisch verschiedene Farbkanäle (d. h. Pixel mit Rot- oder Blauwerten) enthalten, obwohl der Inhalt der Karte für das menschliche Auge nur aus einfarbigen Grauwerten der graphischen Zeichen besteht. Ob eine solche Karte tatsächlich farbliche Inhalte enthält kann, über eine statistische Auswertung der einzelnen Pixelwerte beantwortet werden. Mit dieser Information kann dann entschieden werden, ob eine Farbseparation für ein solches Kartenwerk in Frage kommt. Mittels der Farbseparation können die farblich hinterlegten Inhalte direkt über ihre Farbbereiche selektiert und extrahiert werden. In den meisten Fällen sind Liniensignaturen der Gewässer, Höhenlinien oder Flächen der Vegetation auf diesem Wege extrahierbar.

Template Matching wird verwendet, um in einem gescannten Kartenwerk wiederkehrende Signaturen zu identifizieren. Das Verfahren basiert darauf, aus einem Bestand an kleinen Bildausschnitten (Templates) ähnliche Bereiche in größeren Bildern zu finden. Diese Bildausschnitte müssen zunächst aus dem Kartenwerk zusammengestellt werden, d. h. es müssen einige Signaturen in einem Kartenscan ausgewählt und als Beispiel gespeichert werden. In den meisten historischen Karten sind die Signaturen handgezeichnet und weisen dadurch eine gewisse Variabilität auf. Die gewählten Templates sollten diese Variabilität widerspiegeln, und dennoch möglichst repräsentativ sein. Wenn die semantische Tiefe des Kartenwerkes groß genug ist, sind mit diesem Verfahren sehr performante inhaltliche Auswertungen möglich. So lassen sich Signaturen für Laub- und Nadelbäume identifizieren und die entsprechenden Waldflächen geometrisch abgrenzen. Ziel der hier erwähnten Verfahren ist es letztlich, die Landbedeckung (LB) aus einer historischen Karte abzuleiten und in strukturierte Metadatenformate überführen zu können. Für den folgenden Schritt des Metadaten-Exports ist es nachrangig, mit welchem Extraktionsverfahren die Vektorgeometrien der Landbedeckung erstellt werden.

4.2 Generierung und Export von Metadaten

Am Beispiel des Template Matchings wird an dieser Stelle die Extraktion der Metadaten dargestellt. Als Eingangsdaten dienen Scans der oben erwähnten bayerischen Urpositionsblätter, die mit 23 000 Blatt ganz Bayern abdecken, in ihren Maßstäben je nach Region aber unterschiedlich sind (1 : 1 250, 1 : 2 500, 1 : 5 000).[46]

Der kartografische Zeichenschlüssel der Flurkarten gestattet die Unterscheidung verschiedener Bodenbedeckungen (u. a. Feuchtwiesen/Moore) und Waldarten. Anhand dieser Signaturen wurden Templates erstellt, je Bodenbedeckung 20 Stück. Die Anzahl der Templates ist dabei Abwägungssache, aber eine niedrige zweistellige Zahl an Templates fängt in der Regel die grafische Variabilität einer Signatur ganz gut ein. Für jedes dieser Templates werden in den Eingangskarten ähnlich aussehende Bildteile gesucht, markiert und in einer Ausgabemaske gespeichert. Diese Ausgabemaske wird anschließend in Vektordarstellung konvertiert, somit wird jede maskierte Position durch ein Polygon dargestellt. Diese Polygonflächen werden nun zusammengefasst und gepuffert, d. h. in gewisser Weise die Umwandlung von „Fläche mit Waldsignaturen“ in „Waldfläche“ durchgeführt. Diese Waldfläche verfügt, dank der Vektordarstellung, über Koordinaten und kann mit Attributen versehen werden. Die Koordinaten werden letztlich benötigt, um den Fundort der Waldfläche als Metadatum zu extrahieren.

Abb. 4: Workflow der Extraktion von Karteninhalt und Metadaten
Abb. 4:

Workflow der Extraktion von Karteninhalt und Metadaten

Da die Zielformate für die Metadaten am ABCD-Schema orientiert sein sollten (s. Abb. 5), werden die Koordinaten im gml-Format ausgespielt. Dieser gml Abschnitt kann im ABCD-Schema eingefügt werden. Daneben können die Koordinaten leicht in andere Dateiformate (ESRI-Shapefile, Geopackage, NAS etc.) überführt werden. Aus Gründen der Interoperabilität und der langfristigen Interpretierbarkeit werden offene xml-basierte Formate als Standardeinstellung genutzt, was auch weitestgehend den Anforderungen an die Langzeitarchivierung Rechnung trägt. Die Implementierung des Verfahrens erfolgte in offener Software, mit Hilfe der Programmiersprache Python und der Schnittstellen des QGIS-Geoinformationssystems. Auch die verwendeten Zusatz-Bibliotheken (openCV, numpy) sind frei zugänglich.

Abb. 5: Die Zielformate für die Metadaten sind am ABCD-Schema orientiert
Abb. 5:

Die Zielformate für die Metadaten sind am ABCD-Schema orientiert

5 Sicherung der langfristigen Verfügbarkeit – Schnittstellen für die digitale Langzeitarchivierung

Neben der Festlegung von allgemeingültigen Parametern für die Kartendigitalisierung und der Extraktion von Daten aus historischen Karten war das Ziel des Projektes, diese auch langfristig nachnutzbar und interpretierbar zu halten. Die Überführung in die Langzeitarchivierung ermöglichen generische logische Archivierungs- und Exportschnittstellen, die in der GDA konzipiert wurden. Hierfür wurden wichtige Elemente wie die Nutzung möglichst offener, dokumentierter und nicht proprietärer Formate sowie dokumentierte Metadatenstandards berücksichtigt. Mit Hilfe eines vorgegebenen Schemas für die Bildung des Submission Information Package (SIP), liegen die Daten in der korrekten Struktur für den Ingest über den Generalisierten XML-Client (GXAC) der Staatlichen Archive Bayerns vor (s. Abb. 6). Die nachvollziehbare Struktur, die Verwendung möglichst offener, weitgehend nicht proprietärer und gut dokumentierter Formate, die Auswahl geeigneten Dokumentationsmaterials und die Extraktion der Metadaten in eine zusätzliche CSV-Datei ermöglicht zudem als generische Archivierungsschnittstelle die Langzeitarchivierung in anderen Repositorien.

Abb. 6: Das vorgegebene Schema für die Bildung des Submission Information Package (SIP)
Abb. 6:

Das vorgegebene Schema für die Bildung des Submission Information Package (SIP)

Das SIP besteht aus zwei ZIP-Containern, „Prolog“ und „Daten“. Beide werden nach einer Dateinamenskonvention benannt, die das Archivkürzel der datenhaltenden Stelle sowie eine UUID enthält. Die ZIP „Prolog“ enthält eine CSV-Datei mit den Erschließungsmetadaten (Mindestanforderungen, s. o.) für ein Archivfachinformationssystem (AFIS) sowie Dokumentationsmaterial zu den Daten, um sie interpretierbar zu halten. Dazu zählen die Empfehlungen für die Digitalisierung und die Schemata der bei der Metadatenextraktion bedienten Exportformate. Der Container „Daten“ enthält neben dem Digitalisat auch die extrahierten Metadaten gemäß unterschiedlicher XML-Austauschstandards. Mit dem XML-Standard ABCD[47] lässt sich die Publikation der Daten in Forschungsportalen der Biodiversitäscommunity realisieren, die innerhalb von NFDI4Biodiversity weiter ausgebaut werden. Durch die INSPIRE-Konformität[48] der Geoinformationen stehen die Daten zusätzlich den Erdsystemwissenschaften und der NFDI4Earth sowie weiteren wissenschaftlichen Communities zur Nachnutzung zur Verfügung.

Der GXAC wurde für die Archivierung personen-, objekt- oder fallbezogener Daten aus komplexen Fachverfahren entwickelt.[49] Dieses Tool erlaubt es, unterschiedliche Daten einer Vielzahl von Einzelobjekten automatisiert in ein angeschlossenes Digitales Magazin zu ingestieren. Dabei können flexible Daten, also die hier extrahierten Metadaten, zusammen mit den logisch zugehörigen fixierten Daten, in diesem Falle den Kartendigitalisaten, strukturiert verarbeitet und jeweils in ein Archival Information Package (AIP) portioniert werden.[50] Bei der Verarbeitung der Daten aus der Metadatenextraktion werden also die extrahierten Metadaten und die zugehörige digitalisierte Karte gemeinsam zu einem AIP strukturiert (s. o.). Durch die automatisierte Dokumentation aller Verarbeitungsschritte wird deren Nachvollziehbarkeit und damit die data provenance gesichert. Außerdem ermöglicht es der GXAC, mit Blick auf eine künftige automatisierte Verarbeitung für einzelne Unterlagengruppen oder Ursprungssysteme jeweils zu konfigurieren, welche Abschnitte einer XML-Datei mit welchen definierten Dokumenten zu einem AIP strukturiert werden sollen und welche Daten aus der XML-Datei zur Grunderschließung im angeschlossenen Archivfachinformationssystem (AFIS) nachgenutzt werden sollen.

Von dort aus können die Daten über die vorhandenen Schnittstellen in den Standards EAD- und ABCD-XML für verschiedene Wissenschaftscommunities u. a. über das Archivportal-D[51] und GFBio[52] publiziert werden (s. Abb. 7). Mit der umgesetzten Exportstruktur, der Dokumentation und den beim Export erzeugten XML-Erschließungsinformationen wird außerdem zusätzlich garantiert, die Informationen auf Grundlage anderer technischer Infrastrukturen in ein Repositorium überführen und andernorts publizieren zu können.

Abb. 7: Workflow: wie Daten über die vorhandenen Schnittstellen in den Standards EAD- und ABCD-XML für verschiedene Wissenschaftscommunities publiziert werden können
Abb. 7:

Workflow: wie Daten über die vorhandenen Schnittstellen in den Standards EAD- und ABCD-XML für verschiedene Wissenschaftscommunities publiziert werden können

6 Zusammenfassung und Ausblick

Im Projekt Hist4Biodiv werden Aspekte des gesamten Datenlebenszykluses bei der Mobilisierung analoggebundener Daten aus historischen Kartenwerken adressiert: von Empfehlungen für die Digitalisierung über die tatsächliche Metadatenextraktion bis hin zur Langzeitarchivierung, Erschließung und Publikation der extrahierten Informationen. Aus den im Test verfügbaren hochaufgelösten Digitalisaten konnten über Verfahren der Computer Vision Abgrenzungen für definierte Landbedeckungen abgeleitet werden. Diese können als Vektorgeometrien in strukturierte XML-basierte Metadatenformate eingebettet werden und gemeinsam mit wesentlichen Prozessparametern den ursprünglichen Archivdatensatz näher beschreiben. Günstig für die Analyse ist das Vorliegen eines umfangreicheren Kartenwerks mit festgelegtem Zeichen- bzw. Signaturenschlüssel.

In der bisherigen Implementierung müssen einige Parameter noch interaktiv gesetzt werden. Dies betrifft z. B. die zulässige Differenz zwischen Template und Bildausschnitt. Auch die Templates als solche sind zunächst eine Eingabegröße, bei der das MCE-Tool auf Interaktion angewiesen ist. An diesen Stellen kann zukünftig darauf hingearbeitet werden, dass Parameterwerte in bestimmten Bereichen voreingestellt sind und falls nötig nur feingestellt werden. Des Weiteren ist es denkbar, für verschiedene Landbedeckungsklassen eine Bibliothek an Templates anzulegen, die auf beliebige Kartenwerke angewendet werden kann.

Ein hier nicht adressierter Aspekt ist die Extraktion von Textinformation aus dem Kartenwerk. Die gestalterische Variabilität, gerade historischer Karten, macht die maschinelle Texterkennung zu einer besonderen Herausforderung. Dennoch können historische Topo- bzw. Choronyme wertvolle Hinweise der historischen Landbedeckung liefern, weshalb hier Potential für Ausbau und Weiterentwicklung des Tools gesehen wird. Weiterentwicklungsmöglichkeiten bestehen darüber hinaus auch bei der Extraktion von Fachinformationen, die durch weitere Symbole in die Karten eingetragen wurden oder beim georeferenzierten Extrahieren kartographischer Aufnahmen, die noch nicht auf exakter Vermessung beruhen.

Über die Autoren

André Hartmann

André Hartmann

Hendrik Herold

Hendrik Herold

Anna Lisa Schwartz

Anna Lisa Schwartz

Markus Schmalzl

Markus Schmalzl

Online erschienen: 2023-11-08
Erschienen im Druck: 2023-11-27

© 2023 bei den Autoren, publiziert von De Gruyter.

Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Downloaded on 30.12.2025 from https://www.degruyterbrill.com/document/doi/10.1515/abitech-2023-0045/html
Scroll to top button