
Fabian Steeg ist Softwareentwickler im Bereich Datenverarbeitung und Webentwicklung in der Gruppe Offene Infrastruktur am Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz). Er ist Open-Source-Contributor im Umfeld von Metafacture, JSON-LD und OpenRefine sowie Co-Chair der W3C Entity Reconciliation Community Group. Er beantwortet die aktuelle ABI-Technik-Frage: Wie kann ich Daten aus einem Digitalisierungsprojekt mit Normdaten anreichern?
Normdaten spielen speziell im Hinblick auf die Qualität der Inhaltserschließung bibliografischer und archivalischer Ressourcen eine wichtige Rolle. Sie ermöglichen Einheitlichkeit und Eindeutigkeit und so eine bessere Auffindbarkeit der Ressourcen. Daher sollten Daten aus Digitalisierungsprojekten mit Normdaten angereichert werden.
Eine Möglichkeit stellt die Verwendung des Werkzeugs OpenRefine dar. OpenRefine ist – auch im Bibliotheksbereich – eines der meistbenutzten und -bewährten Werkzeuge für Datenbereinigung und -abgleich und wird als Essential Open Source Software for Science gefördert.
OpenRefine ist ein generisches tabellenbasiertes Werkzeug, vergleichbar mit klassischen Tabellenkalkulationen wie Excel. Es bietet zahlreiche Funktionalitäten zur Bereinigung und Transformation von Daten, sowie zum Abgleich (Reconciliation) und zur Anreicherung mit externen Datenquellen.
Neben dem in OpenRefine integrierten Wikidata-Service gibt es eine größere Anzahl von Datenquellen, für die ein Reconciliation-Dienst angeboten wird,[1] darunter auch die Gemeinsame Normdatei (GND). Das Protokoll zur Kommunikation mit diesen Diensten kann auch von anderen Clients als OpenRefine verwendet werden (z. B. direkt aus dem Bibliotheksmanagementsystem Alma über Alma Refine).
Was bedeutet das nun für die Arbeit in Digitalisierungsprojekten konkret? Der erste Schritt ist hier die manuelle oder automatische Eigennamenerkennung (Named Entity Recognition) in den Digitalisaten, z. B. von Personen oder Orten. Als Ergebnis haben wir Listen von Namen. Diese können in OpenRefine eingelesen werden und mittels eines Reconciliation-Dienstes mit Normdaten abgeglichen werden. Besonders gute Treffer werden automatisch abgeglichen, andere müssen manuell überprüft werden. Dazu bietet OpenRefine in Abhängigkeit der konkreten Service-Implementierung Unterstützung in der Oberfläche an, für die GND bei Personen etwa in Form von Lebensdaten, Berufen und Abbildungen. Zur Verbesserung des automatischen Abgleichs können zusätzlich zu den Namen disambiguierende Merkmale mitgeschickt werden.
Nach erfolgtem Abgleich verfügen wir nicht nur über die Identifikatoren aus der jeweiligen Normdatei, sondern können weitere Felder der abgeglichenen Normdatensätze in unseren lokalen Daten anreichern. Schließlich können wir die abgeglichenen, angereicherten Daten in verschiedene Formate exportieren und erhalten so für unsere Digitalisate Metadaten in hoher Qualität.
Um das alles einmal auszuprobieren empfiehlt sich ein Blick in unsere Tutorials zur Reconciliation mit lobid-gnd[2] sowie in die Anleitung von OpenRefine.[3]
About the author

Fabian Steeg
© 2022 Fabian Steeg, publiziert von De Gruyter.
Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.
Articles in the same Issue
- Titelseiten
- Editorial
- Fachbeiträge
- Nationalbibliothek Luxemburg – ein ambitioniertes Bauprojekt
- Die Erweiterung der Unithèque in Lausanne – eine Vision
- Die neue Stadtbibliothek Dornbirn – ein öffentliches Wohnzimmer als Wissens- und Ideenraum
- #JLUoffline. Der Cyber-Angriff auf die Justus-Liebig-Universität Gießen im Dezember 2019
- Die Verwaltung elektronischer Ressourcen mit Open Source Systemen – neue Möglichkeiten und Herausforderungen
- HOAD: Data Analytics für mehr Transparenz bei Open-Access-Transformationsverträgen
- Informationsmanagerin gesucht – Die Rolle wissenschaftlicher Bibliotheken in der Forschungsberichterstattung in Deutschland
- Tagungsbericht
- Databases for 2080 – Preserving database content for the long term
- Nachrichten
- Nachrichten
- Produktinformationen
- Produktinformation
- ABI Technik-Frage
- Wie kann ich Daten aus einem Digitalisierungsprojekt mit Normdaten anreichern?
- Rezensionen
- Giles Clark, Angus Phillips: Inside book publishing. Sixth Edition. London/Abingdon,Oxon/New York, NY: Routledge, 2019. – XXI, 396 S., Ill. – ISBN 978-1-138-57438-0. £ 96,00; 978-1-138-57791-6. £ 27,99; 978-1-351-26572-0 E-Book: £ 27,99
- Veranstaltungskalender
- Veranstaltungskalender
Articles in the same Issue
- Titelseiten
- Editorial
- Fachbeiträge
- Nationalbibliothek Luxemburg – ein ambitioniertes Bauprojekt
- Die Erweiterung der Unithèque in Lausanne – eine Vision
- Die neue Stadtbibliothek Dornbirn – ein öffentliches Wohnzimmer als Wissens- und Ideenraum
- #JLUoffline. Der Cyber-Angriff auf die Justus-Liebig-Universität Gießen im Dezember 2019
- Die Verwaltung elektronischer Ressourcen mit Open Source Systemen – neue Möglichkeiten und Herausforderungen
- HOAD: Data Analytics für mehr Transparenz bei Open-Access-Transformationsverträgen
- Informationsmanagerin gesucht – Die Rolle wissenschaftlicher Bibliotheken in der Forschungsberichterstattung in Deutschland
- Tagungsbericht
- Databases for 2080 – Preserving database content for the long term
- Nachrichten
- Nachrichten
- Produktinformationen
- Produktinformation
- ABI Technik-Frage
- Wie kann ich Daten aus einem Digitalisierungsprojekt mit Normdaten anreichern?
- Rezensionen
- Giles Clark, Angus Phillips: Inside book publishing. Sixth Edition. London/Abingdon,Oxon/New York, NY: Routledge, 2019. – XXI, 396 S., Ill. – ISBN 978-1-138-57438-0. £ 96,00; 978-1-138-57791-6. £ 27,99; 978-1-351-26572-0 E-Book: £ 27,99
- Veranstaltungskalender
- Veranstaltungskalender