Home Mit Machine Learning auf der Suche nach Provenienzen – ein Use Case der Bildklassifikation an der Österreichischen Nationalbibliothek
Article Open Access

Mit Machine Learning auf der Suche nach Provenienzen – ein Use Case der Bildklassifikation an der Österreichischen Nationalbibliothek

  • Martin Krickl

    Österreichische Nationalbibliothek, Forschung und Entwicklung, Josefsplatz 1, A- Wien 1015, Österreich

    EMAIL logo
    , Simon Mayer

    Österreichische Nationalbibliothek, Forschung und Entwicklung, Josefsplatz 1, A-1015 Wien, Österreich

    and Emanuel Zangger

    Am Kanal 5, A-2700 Wiener Neustadt, Österreich

Published/Copyright: April 7, 2022

Zusammenfassung

Bibliotheken können in vielen Bereichen künstliche Intelligenz einsetzen. Machine Learning bietet vielversprechende Einsatzmöglichkeiten, unter anderem in der Erschließung von digitalisierten historischen Buchbeständen. Der vorliegende Artikel präsentiert eine Anwendung für die Ermittlung von Provenienzen an zwei Beispielen aus dem Bestand der Österreichischen Nationalbibliothek. Als binäre Bildklassifikatoren wurden Convolutional Neural Networks eingesetzt. Zudem soll gezeigt werden, dass mit einem einfachen Setting bereits gute Ergebnisse erzielt werden können.

Abstract

Artificial Intelligence offers a wide range of opportunities in the library domain. Among other applications, machine learning methods are suitable for discovery in digitised historical book collections. This article presents two examples for the use of machine learning in provenance research about collections of the Austrian National Library. We have used Convolutional Neural Networks as binary image classifiers. We also want to demonstrate that simple settings can already yield good results.

1 Künstliche Intelligenz in Bibliotheken

Künstliche Intelligenz (KI, engl. Artificial Intelligence, AI) eröffnet kaum vorstellbare Möglichkeiten in beinahe allen datenbasierten Domänen menschlichen Wissens und Handelns. Bibliotheken stehen vor einer Fülle an Chancen und einer Reihe unausweichlicher Herausforderungen, künstliche Intelligenz in ihre Arbeitsläufe auf verantwortungsvolle Weise zu integrieren. Der Einsatz künstlicher Intelligenz mobilisiert Ängste um den Verlust menschlicher intellektueller Arbeit, auch in Bibliotheken. Laut Ralf Stockmann – Referatsleiter für Innovationsmanagement an der SBB Berlin – sei jedoch die Frage danach, welche Aufgaben von Bibliothekaren durch KI übernommen werden, falsch gestellt. Zukunftsweisender wäre die Frage, welche neuen Aufgaben möglich werden, wenn genügend Personal sich der Integration von KI öffnet.[1] Entscheidend sei – so Ralf Stockmanns Aufruf an die Bibliotheken – gezielt Kompetenzen aufzubauen, um als „älteste big data Halter der Geschichte“ am Potential von KI teilzuhaben; eine Forderung, die Thomas Padilla und Ryan Cordell in ihren Reports mit dem Aufbau von Kollaborationen verknüpfen. Beide empfehlen in verschiedenen der in den Reports vorgestellten Einsatzbereichen Pilotprojekte zu initiieren.[2] Der folgende Beitrag soll einen Einblick geben in ein solches Pilotprojekt, das in Kollaboration mit einem Studierenden des Studienganges Data Science der FH Sankt Pölten an der Abteilung für Forschung und Entwicklung der Österreichischen Nationalbibliothek durchgeführt wurde.

1.1 Eine sehr kurze Einführung in Machine Learning

Anwendungen von KI im Bibliotheksbereich sind weitgehend spezifisch. Meist geht es darum, Typen, Muster (pattern) zu erkennen und Dokumente zu klassifizieren oder zu gruppieren (clustering).[3] Dafür können Algorithmen als Modelle von Handlungsanweisungen durchprogrammiert werden (symbolische KI) oder – und dieses Verfahren hat sich weitgehend durchgesetzt – aus einer Datengrundlage vermittels Machine Learning trainiert werden. Die Klassifizierung von Objekten ist für Menschen eine relativ einfache Aufgabe, für Maschinen ist sie jedoch sehr komplex. Jede Entscheidung, die etwa ein Bildklassifikator trifft, basiert auf dessen Trainingsdaten. Trainingsdaten sind im Fall von Bildklassifikatoren Bilder, denen zuvor eine Klasse zugeordnet wurde (labelled data). Basierend auf diesen Trainingsdaten „lernt“ der Klassifikator welche Merkmale (features) eine Klasse beschreiben. Die Performanz eines Machine Learning Modells hängt ab von Volumen und Zusammensetzung der Trainingsdaten und davon, welche Gewichtungen das System aus diesen trifft.[4] Die Merkmalsextraktion kann je nach Implementation unterschiedlichste Formen annehmen. Von den unbearbeiteten Pixelwerten der Bilder bis zu komplex erstellten Merkmalsvektoren basierend auf einer Reihe von Bildwerten können verschiedenste Merkmale für die Erstellung der Modelle verwendet werden. Für maschinelles Lernen mögen oftmals andere Merkmale ausschlaggebend sein als für die menschliche Wahrnehmung. Lernt das Modell aus (intellektuell) klassifizierten Trainingsdaten, wird von „überwachtem Lernen“ (supervised learning) gesprochen im Gegensatz zu „unüberwachtem Lernen“ (unsupervised learning), wo die Merkmale automatisch aus den Daten errechnet werden. Die Ausgabe sind Wahrscheinlichkeitswerte, bei einer Klassifikation etwa mögliche richtige Kandidaten als Träger eines Merkmals (zum Beispiel d ist mit Wahrscheinlichkeit p ein Element der Klasse X). Es bleibt der menschlichen Evaluation vorbehalten, den Mustern und Gruppierungen als Output des Modells, die nicht immer mit den erwarteten menschlichen Konzepten übereinstimmen müssen, Bedeutung zu geben. Selten wird eine einhundertprozentige Genauigkeit erreicht. Die Zuweisungen als Wahrscheinlichkeitswerte zu verstehen bedeutet auch, Ungewissheiten anzunehmen.[5] Standardisierte Indikatoren für den Erfolg des Modells sind Genauigkeit der Zuweisung (accuracy), der Präzision (precision) und Sensitivität (recall). Zudem – und das ist in Bibliotheken, wo keine Supercomputer zur Verfügung stehen, in der Regel ausschlaggebend – ist auch der Aufwand, d. h. die Rechenleistung und die Berechnungsdauer ein Metrum für die Performanz des Modells (feasibility). Für Machine Learning gibt es eine große Zahl an Modellen, die hier nicht erklärt werden können.[6] Besonders leistungsstark für Klassifikationen sind Support Vector Machines, für Klassifikationen sowie Bild- und Texterkennung Neuronale Netze, insbesondere sogenannte Convolutional Neural Networks (CNN, zu Deutsch etwa „faltendes neuronales Netzwerk“) und Multilayer Perceptrons.[7] Der folglich vorgestellte Anwendungsfall ist eine Klassifikation von Bildern vermittels CNN.

1.2 Machine Learning in Bibliotheken

Machine Learning ist für den Bibliotheksbereich eine der vielversprechendsten Technologien, insbesondere wo die Menge an zu verarbeitenden Daten für menschliche Bearbeitung zu groß ist oder diese zu komplex sind. Gegenüber den Ergebnissen einer im ersten Quartal 2019 an amerikanischen und kanadischen Universitätsbibliotheken durchgeführten Erhebung, dass Forschung zu und basierend auf künstlicher Intelligenz in Universitätsbibliotheken nahezu inexistent wäre und keine der untersuchten Institutionen künstlicher Intelligenz in der strategischen Planung berücksichtigt habe, gewinnt der Einsatz im Bibliotheksbereich rasant an Bedeutung.[8] Die Österreichische Nationalbibliothek hat „Potenziale und Herausforderungen des Einsatzes von Künstlicher Intelligenz“ in ihrer neuen Strategie 2035 verankert.[9] Die Herausforderung liegt darin die nach Thomas Padilla signifikante Lücke zwischen Konzept einerseits, Umsetzung in Workflows und Verfügbarkeit von geeigneten Datensets andererseits zu schließen.[10] Machine Learning Werkzeuge können in bibliothekarischen Kernaufgaben wie der Erschließung und Klassifikation von Dokumenten, der Aufbereitung von Dokumenten für die Forschung oder der Bereitstellung von möglichst relevanten Ergebnissen für Suchanfragen aufwändige Arbeiten unterstützen, wenn nicht ersetzen und neue Services eröffnen, die ohne die Effizienzsteigerung maschineller Verarbeitung nicht möglich schienen.[11] Je nach Fragestellung und Bereich der Anwendung braucht es eine Reihe von Voraussetzungen, neben Infrastruktur und Verfügbarkeit maschinenlesbarer Datensets, technisches Wissen, Wissen um Zusammensetzung und Kontext der Ausgangsdaten, Wissen zu rechtlichen und ethischen Aspekten des Einsatzes von künstlicher Intelligenz, Wissen zu Risiken der Gewichtung (bias) und Wissen zu Verwertung und Interpretation der Ergebnisse.[12] Für dieses komplexe Bündel an Kompetenzen hat sich in der englischsprachigen Literatur der Terminus „AI literacy“ etabliert.[13] Dafür braucht es an Bibliotheken eine strategische Expansion von entsprechenden Kompetenzen, etwa durch die Einbindung von Data Scientists oder durch Kooperationen in „cross-functional teams“.[14] Nennenswerte Lücken gibt es auch in der Reintegration der Ergebnisse in die Bibliothekssysteme.[15] Traditionelle Beschreibungen in Bibliothekskatalogen sind Wahrheitsaussagen. Für die Integration von Beschreibungen maschineller Provenienz unter Angabe von Wahrheitswerten bieten Wissensgraphen (probability graphs) in Semantic Web tauglichen Linked-Open-Data-Katalogen entschiedene Vorteile. An Lösungen für das MARC-Format wird gearbeitet, wenn auch die Grenzen des Formats damit deutlich werden.[16]

Verschiedene einfachere und komplexere Verfahren werden auf strukturierten Daten wie Metadaten oder unstrukturierten Daten wie Volltexten und Bildern für die Erschließung von Beständen eingesetzt, um damit neue Zugänge zu den Beständen zu ermöglichen.[17] Algorithmen über Volltexte werden seit geraumer Zeit erfolgreich als Assistenten in der Sacherschließung eingesetzt,[18] für die Zuweisung von Autorschaft zu Dokumenten, oder für die Genre-Klassifikation von Dokumenten,[19] um nur drei Beispiele aus einer Fülle von Anwendungen aus diesem Bereich zu nennen. Machine Learning steckt in automatisierter Erkennung von Drucktypen (OCR) und Handschriften (HTR).[20] Schreiberhände in mittelalterlichen Handschriften können mit erstaunlich hoher Genauigkeit klassifiziert werden, wobei Deep-learning-Verfahren dabei dem klassischen „überwachten“ Machine Learning überlegen ist.[21] CNNs wurden erfolgreich zur Erkennung von handschriftlichen Unterstreichungen aus binarisierten Scans einer insgesamt 6 000 Bände umfassenden Sammlung historischer Druckschriften eingesetzt.[22] Wie sich an den Ergebnissen dieser Anwendung zeigt, sind Fehler in der Klassifikation (falsch positiv und falsch negativ) oftmals auf mangelnde Qualität der Inputbilder oder Fehler im Preprocessing zurück zu führen. Lange Zeit eine Herausforderung, die zunehmend besser von Algorithmen gelöst wird, ist die Unterscheidung von textuellen und bildlichen Elementen, insbesondere in historischen Dokumenten. Aus historischen Drucken können mittlerweile illustrative Elemente, darunter auch Druckermarken und Ornamente, gut erkannt werden.[23] Ausschlaggebend für zureichende Ergebnisse sind, wie im Falle des „Fleuron“-Algorithmus zur automatisierten Erkennung von Druckerornamenten, Volumen und Zusammensetzung der Trainingsdaten und die Kombination passender Methoden (hier wurde etwa die Menge der Kandidaten aufgrund zu vieler falsch Positiven über eine lineare Support Vector Machine reduziert).

Nach dem Prinzip der „nearest neighbour search“ kann eine Suchapplikation angeschlossen werden. Die Berliner Staatsbibliothek etwa widmet sich im Rahmen des Projekts Qurator auf künstlicher Intelligenz basierenden Verfahren der Textanalyse und „intelligenten Bildsuche“ (reverse image search) für die Aufbereitung digitalisierter (historischer) Bestände.[24] Grundlage für die Suche nach ähnlichen Bildinhalten ist nicht mehr die Eingabe einer Zeichenfolge, sondern ein Bild oder ein Bildsegment. In Zusammenarbeit mit dem Fraunhofer Heinrich-Hertz-Institut entwickelte die Bayrische Staatsbibliothek eine Bildähnlichkeitssuche für historische Bestände, die eigentlich nicht Bilder vergleicht, sondern Vektoren von Merkmalsbündeln (Deskriptoren).[25]

Kooperationen mit Forschungsinstituten ermöglichen derart komplexe Anwendungen, für die Bibliotheken allein oftmals nicht ausreichend Personal haben oder nicht über Personal mit entsprechend technischem Wissen verfügen. Wir möchten mit folgendem Beispiel Kolleg*innen in Bibliotheken ermutigen, Machine-Learning-Verfahren in einfacherer Weise für gezielte Fragestellungen zu erproben. Selbst einfache Settings können – bei gezielten Fragestellungen – effizient eingesetzt werden, wie wir am Beispiel der Suche nach spezifischen Provenienzmerkmalen über binäre Klassifikation darlegen möchten. Wir beginnen mit der Erläuterung der Fragestellung und des Kontextes, denn: „context is key to critical use of data science, Machine Learning and AI“.[26]

1.3 Auf der Suche nach Provenienzen in historischen Druckschriften

Die historischen Druckschriften, welche die Österreichische Nationalbibliothek in mehreren Sammlungen verwaltet und von denen nur ein Bruchteil im Prunksaal aufgestellt öffentlich bewundert werden kann, wurden über Jahrhunderte aus verschiedenen Quellen erworben. Vieles wurde in der Geschichtsschreibung zur ehemaligen K.u.K.-Hofbibliothek und zu den späterhin in die Österreichische Nationalbibliothek inkorporierten kaiserlichen Privatsammlungen (Habsburg-Lothringische Fideikommissbibliothek) aufgearbeitet, vieles in Forschungsartikeln beschrieben, teilweise ist Aktenbestand zu Erwerbungen im ÖNB-Archiv erhalten und vereinzelt liegen originäre handschriftliche oder edierte Kataloge zu erworbenen Sammlungen oder Teilen davon vor.[27]

Es gab in der Geschichte der Bibliothek wiederholt Versuche, Provenienzmerkmale systematisch zu erheben.[28] In den Sammlungen werden seit Jahrzehnten Provenienzmerkmale in der Erschließung beschrieben und daraus Provenienzen, insofern möglich, ermittelt. Im Projekt Austrian Books Online – dem Großprojekt zur digitalen Erschließung der historischen Bestände wurden in Form einer Private-Public Partnership mit Google Books mehr als 600 000 Bände aus dem urheberrechtsfreien Altbestand der Österreichischen Nationalbibliothek der Erscheinungsjahre ab 1501 digitalisiert.[29] Bilder der Digitalisate und die von Google vermittels OCR ausgelesenen Texte stehen für nichtkommerzielle Zwecke der Forschung über die Programmierschnittstelle (API) SACHA (Simple Access to Cultural Heritage Assets) zur Verfügung.[30] Die aus den alten Katalogen über mehrere Verarbeitungs- und Komprimierungsschritte eingebrachten Titeldaten wurden korrigiert und erweitert, aufgrund der Komplexität, der Menge und der Zeitvorgaben im Projekt konnten Provenienzen für die bearbeiteten Objekte jedoch nur vereinzelt im Katalogsystem vermerkt werden.

Zumal durch die Digitalisierung der Großteil des historischen Druckschriftenbestandes nun in maschinenlesbarer Form (als Bilddateien) vorhanden ist und die Anzahl zu klassifizierender Dokumente riesig ist, bietet sich der Einsatz von maschineller Klassifikation für die explorative Ermittlung von Provenienzen an. Provenienzmerkmale, insofern im Bestand nicht unikal überliefert, sind verteilte rekurrente Merkmalsbündel, die für sich explizit eine Provenienz repräsentieren beziehungsweise mit anderen zu Evidenzen für Provenienzen kombiniert werden.[31] Häufige Formen sind handschriftliche Besitzvermerke, Initialen, Stempel, Lesespuren (Marginalien), bildhafte Repräsentationen in Form von Wappen oder Exlibris beziehungsweise die Kombination von bildhaften und schriftlichen Elementen.[32] Diese können prinzipiell an beliebigen Stellen im gesamten Buchblock und an Einbandteilen vorliegen. Es etablierten sich jedoch Konventionen, die nur selten bewusst gebrochen werden. Eine konventionalisierte Form wäre das Supralibros in Form von gepressten oder geprägten Wappen auf den Einbanddecken; eine andere in der Regel in die Innenseiten der Deckel oder auf die Schmutzseiten eingeklebte grafisch gestaltete Zettel, sogenannte Exlibris.

Im Pilotprojekt zur Klassifikation von Bildern nach Provenienzmerkmalen gehen wir in einem ersten Schritt von einfachen Klassifikationen aus, das heißt es sollten jeweils eigene Modelle für spezifische Provenienzmerkmale zur Bilderkennung trainiert werden. Für den hier vorgestellten Ansatz ist kein generisches Modell zu erwarten, das alle Provenienzmerkmale in ihrer Formenvielfalt aus den Beständen filtert. Wir haben dafür zwei Anwendungsfälle zu zwei unterschiedlichen Formen ausgewählt, das Exlibris des Historikers und Büchersammlers Hermann Hallwich (1838–1913) und die Einbände mit Supralibros für die Bibliothek des Prinzen Eugen von Savoyen-Carignan (1663–1736).

2 Anwendungsfall Hermann Hallwich

Der im böhmischen Teplitz-Schönau geborene Historiker, Volkswirtschaftler und Politiker Hermann Hallwich besaß eine reiche Bibliothek mit Schwerpunkten zur böhmischen Geschichte und zu Eusebius von Wallenstein, die er wohl auch für seine seit Ende der 1860er-Jahre erschienenen zahlreichen Publikationen benutzte.[33] Aus der circa 15 000 Bände umfassenden Büchersammlung wurden von den Erben 1913 der Hofbibliothek 851 Bände als Schenkung überlassen, eine Schenkung, „welche in ihrer Zusammensetzung den großen Interessenskreis und das von ihm selbst gepflegte Arbeitsfeld wiederspiegelt, eine ausserordentlich wertvolle Bereicherung der Schätze der K.K. Hofbibliothek“.[34]

Abb. 1 
          Links: Porträt von Hermann Hallwich, Fotografie von Felix Schwab, 1912, ©Österreichische Nationalbibliothek/Bildarchiv und Grafiksammlung und rechts: Exlibris für Hermann Hallwich von August Mandlink, o.J., ©Österreichische Nationalbibliothek/Google Books
Abb. 1

Links: Porträt von Hermann Hallwich, Fotografie von Felix Schwab, 1912, ©Österreichische Nationalbibliothek/Bildarchiv und Grafiksammlung und rechts: Exlibris für Hermann Hallwich von August Mandlink, o.J., ©Österreichische Nationalbibliothek/Google Books

2.1 Fragestellung und Ziel für Einsatz von Machine Learning

Im Zuge der Arbeiten für Austrian Books Online (ABO) zeigten sich im Bestand der Sammlung von Handschriften und Alten Drucken wiederholt Bände mit handschriftlichem Besitzvermerk, mit Stempel („H. Hallwich“) oder eingeklebtem grafischem Exlibris, es wurden aber nur wenige Provenienzen im Katalog vermerkt. Wir konzentrierten uns in Folge auf das grafische Exlibris, welches von August Mandlink um 1900 in Zinkografie entworfen wurde (s. Abb. 1). Über die Frequenz des Exlibris im überlieferten Bestand konnte keine Annahmen gemacht werden. Durch Suchanfragen und Hinweise aus der Literatur konnte ein Set von 86 Bänden als Ground Truth erstellt werden, für die Komplettierung des Trainingssets wurde die gleiche Menge an Negativ-Beispielen (richtig negativ) ausgewählt. Ziel des ersten Anwendungsfalls war es nun (1), digitalisierte Bände mit grafischem Exlibris zu finden, (2) zu testen, ob ein grafisches Exlibris vermittels Machine-Learning-Techniken als rekurrentes Merkmalbündel ausreichend erkannt werden kann, und (3), ob die geringe Zahl an Trainingsdaten bereits ausreichend sei für eine zureichende Genauigkeit. Um nicht alle Seiten eines Digitalisates, dessen Einheit ein Barcode-Identifier ist, für die Berechnung zu verwenden, wurden nur die ersten fünf Seiten pro Barcode für das Training verwendet. Dabei wurde von der in den Trainingsdaten zutreffenden Gegebenheit ausgegangen, dass das Exlibris sich innerhalb der ersten fünf Seiten befinden sollte.

2.2 Methode

Die von uns gewählte Architektur für das Erstellen und Training eines neuronalen Netzwerkes ist TensorFlow.[35] Dies ist eine freie (open source) Programmbibliothek, welche für viele verschiedene Aufgaben zum Einsatz kommt, jedoch einen großen Fokus auf Training von tiefen neuronalen Netzwerken (deep networks) hat.[36] Wir verwenden ein CNN bestehend aus drei Faltungsschichten (jeweils gefolgt von Pooling Schichten) gefolgt von zwei voll verbundenen (fully connected) Schichten, in Summe also fünf trainierbare Schichten. Zum Vergleich: Das „AlexNet“[37] (eines der berühmteren Netzwerke, welches praktisch den Siegeszug der CNN einleitete) besteht aus acht Schichten, während heutige CNN aus 100 Schichten oder mehr bestehen. Somit ist unser Netzwerk (bzw. die Menge seiner trainierbaren Parameter) von einer Größenordnung, die das Training auf handelsüblichen Systemen ermöglicht. Im (frei zugänglichen) Google Colaboratory,[38] einer Umgebung zur Ausführung von Python-Code mit Anwendungsfeldern in Machine Learning sowie Datenanalyse und Ausbildung, ist es beispielsweise möglich, den Trainingsprozess für unser Netzwerk aus dem Browser heraus durchzuführen.

Im Laufe des Trainings und Validations-Prozesses der Klassifikatoren der Exlibris von Hermann Hallwich wurde entdeckt, dass in den Trainingsdaten teils Störelemente existieren. Auf manchen Bildern der Digitalisate befinden sich Klammern, welche sowohl auf den Trainingsbildern ohne Exlibris als auch auf denen mit Exlibris zu finden sind. Dies führte dazu, dass fälschlicherweise gehäuft Bilder mit Klammern auch als Hallwich-Exlibris klassifiziert wurden. Um dieses Problem zu lösen wurden die Trainingsbilder passend und die Störelemente dadurch entfernt. Basierend auf den dadurch angepassten und erweiterten Trainingsdaten (data augmentation) wurden neue Modelle trainiert, welche eine niedrigere Rate an falsch Positiven (fälschlich als Merkmalträger klassifizierte Seiten) mit gleichbleibender Rate an richtig Positiven erreichen konnten.

Bevor wir unser eigen trainiertes Modell im großen Stil angewendet haben, haben wir einige Standard-Modelle des maschinellen Lernens (nämlich Logistische Regression, Lineare Diskriminanzanalyse, Support Vector Machine, Nächste-Nachbarn-Klassifikation, Entscheidungsbaum-Klassifikation, Random Forest und Naiver Bayes-Klassifikator) gegeneinander validiert (cross-validated model accuracy) und diese wiederum gegen die Genauigkeit des CNN validiert. Entsprechend der in der ML-Community vorherrschenden Erwartung, dass CNN im Bereich der Bilderkennung State of the Art seien, war unser CNN überlegen und wurde daher für den Test an 145 236 Barcodes eingesetzt. Dafür wurden sämtliche verfügbaren ABO-Digitalisate mit Erscheinungsjahren 16001699, 18001820 und 18501880 als drei Testtranchen ausgewählt.

Für die Massenklassifizierung sind wir wie folgt vorgegangen. Ausgehend von der Liste der 145 236 Barcodes wurden parallel die ersten fünf Abbildungen je Barcode geladen und diese ebenso parallel durch das CNN klassifiziert. Falls mindestens eines der Bilder als positiv bewertet wurde, wurde dies als positiv in die Ergebnisliste übertragen. Siehe Abb. 2 für eine schematische Darstellung dieses Vorgehens.

Abb. 2 
            Schematische Darstellung der Klassifikations-Pipeline
Abb. 2

Schematische Darstellung der Klassifikations-Pipeline

2.3 Ergebnisse

Als Positiv (d. h. mindestens 1 Bild der 5 Bilder je Barcode enthält laut Modell Merkmalsträger) wurden 2 328 Barcodes ausgegeben. Die Evaluation der positiven Vorhersagen ergab jedoch nur 68 richtig positive und 2 260 falsch positive (d. h. falsch als Merkmalsträger klassifizierte) Barcodes. Unter den 68 bestätigten Buchbänden mit Hallwich-Exlibris waren bereits 13 als Ground Truth in den Trainingsdaten, es konnten daher 55 bis dato unbekannte Hallwich-Exlibris in den Testtranchen gefunden werden. Die übrigen 73 Barcodes aus der Ground Truth waren nicht Teil der Testtranchen und konnten daher auch nicht gefunden werden. Siehe Tab. 1 für eine Übersicht der Ergebnisse.

Tab. 1

Vorhersagen des Modells zu Hallwich-Exlibris sowie manuell überprüfte positive Vorhersagen

Positiv Richtig positiv Falsch positiv Präzision Negativ Gesamt
2 328 68 2 260 0,03 142 908 145 236

2.4 Limitationen und Diskussion

Fazit des ersten Anwendungsfalls ist, dass grafische Exlibris wie dasjenige für Hermann Hallwich gut für Bildklassifikation mit Convolutional-Neural-Network-Modellen geeignet wären, die Ergebnisse aber nicht befriedigend waren. Wir vermuten drei wesentliche Gründe:

  1. die Anzahl an Trainingsdaten war vermutlich zu gering, um eine ausreichende Präzision zu gewährleisten.

  2. Das Herunterskalieren der Bilder vor der Eingabe in das Netzwerk bedingt einen gewissen Informationsverlust, der zur geringen Präzision der Klassifizierung beigetragen haben könnte.

  3. Da keine Bestandsliste vorlag, war die Verteilung im Bestand unbekannt. Es wurde von der Annahme ausgegangen, dass Hermann Hallwich mehr für ihn zeitgenössische Literatur als historische besaß. Die zunehmende Häufung bei Bänden der Erscheinungsjahre 18701879 (vgl. Abb. 3) lässt vermuten, dass die Mehrheit der für die Hofbibliothek erworbenen Bände ein Erscheinungsjahr nach 1880 haben, welche noch nicht digitalisiert vorliegen und daher nicht getestet werden konnten.

Abb. 3 
            Verteilung der richtig positiven Buchbände mit Hallwich-Exlibris aufgeschlüsselt nach Erscheinungsjahren
Abb. 3

Verteilung der richtig positiven Buchbände mit Hallwich-Exlibris aufgeschlüsselt nach Erscheinungsjahren

3 Anwendungsfall Bibliotheca Eugeniana

Wir wählten eine zweite Anwendung für die ausreichend Trainingsdaten zur Verfügung standen. Zudem wurde mit dem zweiten Anwendungsfall sichergestellt, dass alle möglichen Kandidaten der Testung im ABO-Korpus enthalten sein müssen. Für die zweite Anwendung besteht ein höheres Forschungsinteresse nicht zuletzt aufgrund der Prominenz des Vorbesitzers, des Prinzen Eugen von Savoyen Carignan (16631736). Die Aufgabe bestand darin ein spezifisches Modell für die Erkennung der Supralibros-Einbände aus der Bibliothek des Prinzen Eugen von Savoyen-Carignan zu trainieren, welches als heuristisches Instrument für die Rekonstruktion dieses Sammlungsbestandes eingesetzt werden sollte.

3.1 Die Bibliotheca Eugeniana

Die Bibliothek des Prinzen Eugen von Savoyen Carignan, auch als Bibliotheca Eugeniana bezeichnet, wurde bekanntlich nach dem Tode des kinderlosen Prinzen von dessen Erbin Victoria von Sachsen Hildburghausen 1738 für eine Leibrente von 10 000 Gulden für die Hofbibliothek erworben.[39] Sie zählt zu einem der wichtigsten Teilbestände der Österreichischen Nationalbibliothek mit einer erstaunlichen Breite der Wissensgebiete und einer Fülle von Preziosen der Buchdruckerkunst, weshalb sie 2014 zu einem UNESCO Weltdokumentenerbe deklariert wurde.[40] Seit Ignaz von Mosels „Geschichte der Kaiserl. Königl. Hofbibliothek zu Wien“ wurde die Mengenangabe von 15 000 Druckwerken weiter kolportiert, die immer noch als ungeprüfter Schätzwert angegeben wird.[41] Die Bestände der Bibliothek wurden unter dem damaligen Präfekten der Hofbibliothek, Nikolaus Garelli, aufgenommen und, der Geschichtsschreibung zur Hofbibliothek zufolge, im Mitteloval des 1735 fertig gestellten repräsentativen neuen Bibliotheksbaus aufgestellt.[42] Instabilitäten in der ovalen Kuppel darüber, die unter der Leitung des Architekten Nikolaus Paccassi behoben wurden, bedingten eine vorübergehende Verlagerung des Sammlungsbestandes. Darauf folgten Jahrhunderte der Sammlungsgeschichte mit mehreren Phasen der Translokation von Buchbeständen in der zunehmend unter Raumnot leidenden Hofbibliothek, über deren Details wir leider kaum Kenntnis haben. Vermutlich wurden im Zuge der Erstellung des sogenannten „Josephinischen Zettelkataloges“ unter dem Präfekten Gottfried Van Swieten die heute noch auf den Vorsatzblättern sichtbaren, aber wohl bereits älteren PE-Signaturen (BE für „Bibliotheca Eugeniana“) mit dickem Bleistift oder Rötelstift eingetragen. Ein weitreichendes Großprojekt war die Erstellung des alphabetischen Verfasserkataloges auf losen Zetteln unter Ernst Birk zwischen 1847 und dem Beginn der 1870er-Jahre. Damit verbunden war nicht nur eine Bestandsrevision, sondern auch eine nachhaltige Bestandstransformation durch Ausscheidung der Dubletten und Auflösung von Sammelbänden, von der auch die Bibliotheca Eugeniana nicht verschont blieb. Wir wissen heute, dass seit der Erwerbung der Bibliothek zahlreiche Bände veräußert und zahlreiche an andere Speicherorte, mitunter in anderen Sammlungen, innerhalb der Bibliothek verschoben wurden, jedoch wenig darüber, welche Bände. Dass die Druckschriften der Bibliotheca Eugeniana sich heute geschlossen im Mitteloval des Prunksaals befänden – wie oftmals vermittelt wird – ist somit nicht korrekt. Es wurden in die Lücken zahlreiche Bände weitaus jüngerer Erscheinungsjahre eingebracht. Die sprechende BE-Signatur ist somit kein eindeutiges Indiz für die Zugehörigkeit der Bibliotheca Eugeniana. Wichtigstes Dokument für die Identifikation der Bestände bleibt der handschriftliche Katalog zur Büchersammlung des Prinzen Eugen von Savoyen, der in zwei Ausführungen in der Österreichischen Nationalbibliothek erhalten ist.[43] Eine Auswertung dieses Dokumentes wäre ein Desiderat, das zu schließen mit erheblichem Aufwand verbunden wäre. Mit der hier vorgestellten auf Machine Learning basierenden Methode kann zwar keine vollständige Rekonstruktion des Bestandes erreicht werden, sie ist jedoch unseres Erachtens ein effizientes Werkzeug für die Annäherung an die Schließung einer Forschungslücke, die vermutlich kaum restlos geschlossen werden kann.

Wir haben dazu dasjenige Merkmal ausgewählt, das, wenn auch in Variationen, möglichst häufig im Bestand erscheint und damit als rekurrentes Merkmal ein zureichendes Indiz für die meisten Bände der Bibliotheca Eugeniana ist, das Wappensupralibros auf den Einbanddecken der Eugenianischen Prachteinbände.

3.2 Die Büchersammlung des Prinzen Eugen von Savoyen und ihre Einbände

Prinz Eugen von Savoyen Carignan begann vermutlich bereits in jungen Jahren systematisch eine reiche Büchersammlung unter der Vermittlung von Agenten aufzubauen.[44] Frankreich, insbesondere Paris, war für sowohl für den Erwerb der Bücher als auch deren Ausstattung zentraler Bezugsraum. Über die Vermittlung des Prinzen Georg Wilhelm von Hohendorff wurde der Pariser Buchbinder Étienne Boyet, Sohn des französischen Hofbuchbinders Luc-Antoine Boyet, zu einem prägenden Akteur für den Aufbau und die Ausstattung der Büchersammlung, indem er „nicht nur für das gleichmäßige Einbinden der erworbenen Bücher und für deren Einordung und Aufstellung nach den verschiedenen Fachgebieten gesorgt, sondern zugleich die Durchsicht der Verkaufskataloge und Angebote vorgenommen hat.“[45] Die unverkennbare Spezifität des Erscheinungsbildes der meisten Bände der Büchersammlung ist auf Étienne Boyets Wiener Werkstatt zurückzuführen, für die ab 1714 auch Martin Tourneville arbeitete. Dem maßgeblichen französischen Einbandstil der Zeit verpflichtet, wurden tausende von Bänden in höchster technischer Qualität mit gleichförmigen Einbänden versehen, die der Bibliothek das bemerkenswerte Erscheinungsbild verliehen, das bereits von Zeitgenossen geschätzt und heute noch im Prunksaal der Österreichischen Nationalbibliothek bewundert werden kann. Wenn auch nicht alle Bände der Büchersammlung derart ausgestattet wurden – Bände von Vorbesitzern oder aus Schenkungen behielten ihre Einbände,[46] andere blieben in schlichten Gebrauchseinbänden aus Leder oder Pergament –, so ist der Einbandtypus dennoch repräsentativ geworden für den gesamten Bestand. Über starke Einbanddecken wurde Maroquinleder in drei Färbungen gezogen, welche die Einteilung in Wissensklassen repräsentierten. Auf Vorder- und Hinterdeckel wurden mittig in Gold Supralibros in verschiedenen Varianten gepresst, umgeben von goldenen Linienrahmen mit Eckornamenten. Steh- und Innenkanten wurden mit reicher Goldprägung, der Rücken mit erhabenen Bünden versehen, in den Bundfeldern mit einfachen Varianten des Wappens, Goldrahmen und Ornamenten. Rückenschilder mit goldgeprägten Titeln, Marmorierter Schnitt oder marmorierter Goldschnitt, relativ starke Marmorpapiere als Spiegel und Lesebändchen aus Seide runden das zugleich elegante und robust-kompakte Erscheinungsbild der Bände ab. Die Variationen der Elemente, insbesondere des Supralibros, wurden auf die Formate der Bände abgestimmt. Es sind mindestens drei Formen des Wappensupralibros mit Variationen bekannt, davon zwei in einer ovalen Kartusche mit dem Ordensband des Goldenen Vließ und einer Krone.[47] Das „große“ Wappensupralibros, das nicht nur bei Folioformaten verwendet wurde (Bsp. BE.2.M.16-18.(Vol.3) ALT PRUNK), hat 12 Wappenfelder und ein Herzwappen, das „kleinere“ Wappensupralibros die zwei Wappenfelder des Herzwappens (Bsp. BE.2.T.37-48.(Vol.6) ALT PRUNK). Zudem gibt es eine dritte einfachere Form ohne Kartusche und Ordensband, die – so viel vorweg – im Training nicht berücksichtigt, jedoch trotzdem ausreichend erkannt wurde (Bsp. BE.2.T.18 ALT PRUNK). Siehe Abb. 4 für eine Darstellung dieser drei Varianten.

Abb. 4 
            Detailansichten von drei Buchbänden (Signaturen ÖNB BE.2.M.16-18.(Vol.3) ALT PRUNK, BE.2.T.37-48.(Vol.6) ALT PRUNK, BE.2.T.18 ALT PRUNK) mit Supralibros des Prinzen Eugen, welche die drei bekannten Varianten des Wappens zeigen (hier jeweils auf braunen Maroquin-Einbänden), ©Österreichische Nationalbibliothek/Google Books
Abb. 4

Detailansichten von drei Buchbänden (Signaturen ÖNB BE.2.M.16-18.(Vol.3) ALT PRUNK, BE.2.T.37-48.(Vol.6) ALT PRUNK, BE.2.T.18 ALT PRUNK) mit Supralibros des Prinzen Eugen, welche die drei bekannten Varianten des Wappens zeigen (hier jeweils auf braunen Maroquin-Einbänden), ©Österreichische Nationalbibliothek/Google Books

3.3 Fragestellung und Ziel für Einsatz von Machine Learning

Wie im ersten Anwendungsfall war das Ziel, die Frage zu beantworten, ob unser CNN das Supralibros von Prinz Eugen (bzw. seine Varianten) korrekt klassifizieren kann. A priori haben wir zunächst vermutet, dass für das CNN eine Schwierigkeit sein würde, die Details des Wappens zu erkennen, denn andere Supralibros sind in Farbe und Form dem des Prinzen relativ ähnlich. Für einen Menschen ist es jedoch keine große Schwierigkeit die heraldischen Details dieser Wappen zu unterscheiden. Für Training und Testung des Modells wurden ausschließlich Digitalisate aus dem Datenset Austrian Books Online verwendet von Büchern der Erscheinungsjahre 1501 bis 1738. Die Erscheinungsjahre wurden bewusst zwei Jahre über das Ableben des Prinzen ausgeweitet, um damit auch die Hypothese zu prüfen, ob nach 1736 noch Bücher für die Sammlung erworben und mit dem Einbandtypus versehen wurden. Getestet wurde auf 100 067 digitalisierte Bände, für die eine manuelle Durchsicht ein erheblicher Aufwand wäre. Wie zuvor war das Ziel eine Massen-Klassifizierung der Buchbände in die Kategorien „enthält Merkmal“ und „enthält kein Merkmal“.

3.4 Methode

Wir verwendeten die gleiche Netzwerkstruktur wie im obigen Anwendungsfall, jedoch wurden die Parameter des CNN neu trainiert. Das Training wurde zum einen mit Bilddaten von 100 Barcodes (darin enthalten 203 Scans des Supralibros von Prinz Eugen), die das Wappen in den Varianten 1 und 2 tragen, und zum anderen mit ebenso vielen Bilddaten ohne Supralibros durchgeführt. Für das Zusammenstellen der Trainingsdaten wurde die dritte Variante des Wappens nicht berücksichtigt. Im Anschluss verwendeten wir dieselbe Pipeline wie für den Anwendungsfall des Exlibris von H. Hallwich für die Massen-Klassifizierung, mit dem Unterschied, dass das neu trainierte Modell geladen wurde. Die Arbeitsschritte für den zweiten Anwendungsfall können wir wie folgt zusammenfassen: (1) Erstellen von Ground Truth, (2) Training des Modells, (3) Massen-Klassifizierung der ausgewählten ABO-Bestände und (4) manuelle Evaluation der positiven Vorhersagen und Einteilung derer in richtig oder falsch positiv. Die Ergebnisse (und der verwendete Code) der jeweiligen Arbeitsschritte sind einsehbar auf dem öffentlichen GitLab Repository der ÖNB Labs.[48]

3.5 Ergebnisse

Insgesamt wurden 100 067 Bände auf das Supralibros getestet, davon wurden 5 548 als positiv und 94 519 als negativ klassifiziert. Die positiven Vorhersagen wurden von uns manuell kontrolliert und davon 4 997 als richtig positiv sowie 551 als falsch positiv bestimmt. Damit ist der positive Vorhersagewert (welcher den Anteil der richtig positiven an der Gesamtheit aller als positiv klassifizierten Bände angibt) mit 0,9 oder 90 % deutlich höher als im zuerst präsentierten Anwendungsfall. Siehe Tab. 2 für eine Darstellung der Ergebnisse aufgeschlüsselt nach Erscheinungsjahren sowie Abb. 5 für eine grafische Darstellung der Unterscheidung in richtig positive und falsch positive Vorhersagen.

Tab. 2

Vorhersagen des Modells zur Bibliotheca Eugeniana sowie manuell überprüfte positive Vorhersagen

Zeitraum Positiv Richtig positiv Falsch positiv Präzision Negativ Gesamt
1501–1599 1 314 1 055 259 0,80 40 512 41 826
1600–1699 3 211 2 958 253 0,92 49 816 53 027
1700–1738 1 023 984 39 0,96 4 191 5 214
1501–1738 5 548 4 997 551 0,90 94 519 100 067
Abb. 5 
            Aufteilung der positiven Vorhersagen in richtig positive und falsch positive für das Modell zur Bibliotheca Eugeniana aufgeschlüsselt nach Jahren
Abb. 5

Aufteilung der positiven Vorhersagen in richtig positive und falsch positive für das Modell zur Bibliotheca Eugeniana aufgeschlüsselt nach Jahren

Unter den richtig positiven Bänden gab es einige interessante Funde: Zum einen gibt es Exemplare mit Supralibros jedoch ohne BE-Signatur, zum anderen wurden auch Bände mit beschädigtem oder unvollständigem Supralibros korrekt klassifiziert und bemerkenswerterweise wurde auch die dritte Variante des Supralibros erkannt, obwohl diese nicht in den Trainingsdaten berücksichtigt wurde. Besonders die Bände ohne „sprechende“ BE-Signaturen wären aus dem Katalog und anderen Findeinstrumenten nur unter hohem Aufwand ermittelbar gewesen. Die korrekt positiven Identifikationen können nun automatisiert in den Bibliothekskatalog eingebracht werden.

Die Hypothese, dass es Eugeniana-Einbände mit Erscheinungsjahren nach 1736 geben könnte, konnte nicht bestätigt werden. Unter den korrekten Positiven aus der Testtranche 1700–1738 waren nur 30 Bände mit Erscheinungsjahr 1733, 15 mit 1734 und zwei mit 1735.

Aufgrund der großen Menge an negativen Vorhersagen wurden diese nur stichprobenartig überprüft. Von 400 aus den negativen Vorhersagen zufällig ausgewählten war lediglich ein einziges falsch negatives Exemplar, woraus wir ableiten, dass (mit hoher Wahrscheinlichkeit) deutlich weniger als 1 000 falsch negative Bände in der Menge der gesamten negativen Vorhersagen zu erwarten sind.

Weiters wurde für den Anwendungsfall Bibliotheca Eugeniana getestet welchen Einfluss Farbinformationen auf die Ergebnisse der Klassifikation haben. Es konnte kein signifikanter Unterschied zwischen den Modellen basierend auf Graustufenbildern oder RGB-Bildern festgestellt werden. Hierbei anzumerken ist allerdings, dass dieses Verhalten bei anderen Provenienzmerkmalen abweichen kann und zunächst noch mehr Daten gesammelt werden müssen, um eine generelle Aussage über Signifikanz von Farbmerkmalen zur Klassifikation von Provenienzmerkmalen machen zu können. Wie Ryan Cordell in seinem Report unterstreicht, ist die Expertise von Bibliothekar*innen unabdingbar, die Ergebnisse zu kontextualisieren und für die Sammlungsgeschichte zu interpretieren.[49]

3.6 Limitationen und Diskussion

Eine technische Limitation der verwendeten Methode ist, dass CPU- und Speicherbedarf für die Massen-Klassifizierung ein Herunterskalieren der Bilder vor Eingabe in das Modell auf eine relativ geringe Auflösung (256 x 256 Pixel) bedingen und entscheidende Details dadurch verloren gehen können: Einige falsch positive Bände haben ein optisch sehr ähnliches Supralibros.

Für die Provenienzforschung an der Österreichischen Nationalbibliothek sind die Beschränkung auf digitalisierte Dokumente, die Voraussetzung der Verfügbarkeit der Bilder im Digitalisat (teilweise sind Einbanddecken nicht oder nicht in ausreichender Qualität digitalisiert) und die Zusammenstellung einer ausreichenden Menge an Trainingsdaten (Ground Truth) weitere spezifische Limitationen. Bei dem hier vorgestellten Anwendungsfall kann eine Provenienz bereits aus einem rekurrenten Merkmal bestimmt werden, oftmals sind Provenienzen jedoch erst aus Merkmalsbündeln zu erschließen, für die komplexere Verfahren nötig wären.

Wir schlagen folgende mögliche Verbesserungen des Ansatzes vor. Zum einen könnte das Trainings-Set verbessert werden durch Aufnahme von 1) repräsentativen falsch positiven Buchbänden und 2) der dritten Variante des Supralibros in die Negativ-Beispiele und erneutes Trainieren. Zum anderen wäre ein zweistufiges Verfahren denkbar: Als erster Schritt eine Art Layout-Analyse, welche als Rückgabe-Wert einen Hüllkörper (bounding box) um das zu betrachtende Supralibros liefert und danach auf dem kleineren Ausschnitt erst die eigentliche Klassifizierung durch das vorige Modell durchgeführt wird. Dies hätte den Vorteil, dass die Region die herunterskaliert wird kleiner ist und somit weniger Details verloren gehen. Dabei zu beachten ist, dass dafür das Training auf verschiedenartigen Ausschnitten erneut durchgeführt werden sollte.

Über die Autoren

Martin Krickl

Österreichische Nationalbibliothek, Forschung und Entwicklung, Josefsplatz 1, A- Wien 1015, Österreich

Simon Mayer

Österreichische Nationalbibliothek, Forschung und Entwicklung, Josefsplatz 1, A-1015 Wien, Österreich

Emanuel Zangger

Am Kanal 5, A-2700 Wiener Neustadt, Österreich

Literaturverzeichnis

Alby, Tom (2021): Data Science: Von der Sprache der Daten zur Sprache der Algorithmen. In: API Magazin, 2 (1). DOI: 10.15460/apimagazin.2021.2.1.52.10.15460/apimagazin.2021.2.1.52Search in Google Scholar

Alpaydin, Ethem (2016): Machine Learning. The New AI. Cambridge, MA: MIT Press. Search in Google Scholar

Beckmann, Regine; Hinrichs, Imma; Janßen, Melanie; Milmeister, Gérard; Schäuble, Peter (2019): Der Digitale Assistent DA-3: Eine Plattform für die Inhaltserschließung. In: o-bib, 6 (3), 156–85. DOI: 10.5282/o-bib/2019H3S1-20.Search in Google Scholar

Brantl, Markus; Ceynowa, Klaus; Meiers, Thomas; Wolf, Thomas (2017): Visuelle Suche in historischen Werken. In: Datenbank Spektrum, 17, 53–60. DOI: 10.1007/s13222-017-0250-0.10.1007/s13222-017-0250-0Search in Google Scholar

Braubach, Max (1965): Prinz Eugen von Savoyen: Eine Biographie. Band V: Mensch und Schicksal. Wien: Verlag für Geschichte und Politik.10.1515/9783486816945Search in Google Scholar

Cilia, Nicole Dalia; De Stefano, Claudio; Fontanella, Francesco; Marrocco, Claudio; Molinara, Mario; Scotto di Freca, Alessandra (2020): An Experimental Comparison between Deep Learning and Classical Machine Learning Approaches for Writer Identification in Medieval Documents. In: J Imaging, 4 (9). DOI: 10.3390/jimaging6090089.10.3390/jimaging6090089Search in Google Scholar

Cordell, Ryan (2020): Machine Learning + Libraries: A Report on the State of the Field. Verfügbar unter https://labs.loc.gov/static/labs/work/reports/Cordell-LOC-ML-report.pdf.Search in Google Scholar

Fritze, Christiane; Krickl, Martin (2020): Austrian Books Online – Acht Jahre Digitalisierung des historischen Buchbestandes der Österreichischen Nationalbibliothek mit Google. In: BIBLIOTHEK – Forschung und Praxis, 44 (1), 8999.10.1515/bfp-2020-0008Search in Google Scholar

Gehrke, Alexander; Balbach, Nico; Rauch, Yong-Mi; Degkwitz, Andreas; Puppe, Frank (2019): Erkennung von handschriftlichen Unterstreichungen in Alten Drucken. In: BIBLIOTHEK – Forschung und Praxis, 43 (3), 447–52.10.1515/bfp-2019-2083Search in Google Scholar

Griffey, Jason (Hrsg.) (2019): Artificial Intelligence and Machine Learning in Libraries. Chicago: American Library Association (Library Technology Reports: 55.1). Search in Google Scholar

Géron, Aurélien (2019): Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. 2. ed. London: O’Reilly.Search in Google Scholar

Guigard, Joannis (1872): Armorial du bibliophile. Tome 4. Paris: Bachelin-Deflorenne.Search in Google Scholar

Hora, Manuela (2016): Erschließung von Bibliotheksbeständen. In: Bibliotheken als Orte kuratorischer Praxis, hg. v. Klaus Ulrich Werner. Berlin, Boston: De Gruyter (Bibliotheks- und Informationspraxis: 67), 139–50. 10.1515/9783110673722-011Search in Google Scholar

International Federation of Library Associations and Institutions (IFLA) (2020): IFLA Statement on Libraries and Artificial Intelligence. Verfügbar unter https://repository.ifla.org/handle/123456789/1646.Search in Google Scholar

Kaiser, Max; Majewski, Stefan (2013): Austrian Books Online: Die Public Private Partnership der Österreichischen Nationalbibliothek mit Google. In: BIBLIOTHEK – Forschung und Praxis, 37 (2), 197208.10.1515/bfp-2013-0020Search in Google Scholar

Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017): ImageNet classification with deep convolutional neural networks In: Communications of the ACM, 60 (6), 84–90.10.1145/3065386Search in Google Scholar

Long, Duri; Magerko, Brian (2020): What is AI Literacy? Competencies and Design Considerations. In: CHI ‘20: Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. New York: Association for Computing Machinery, 1–16.10.1145/3313831.3376727Search in Google Scholar

Mazal, Otto (1986): Bibliotheca Eugeniana: Die Sammlungen des Prinzen Eugen von Savoyen. Ausstellung der Österreichischen Nationalbibliothek und der Graphischen Sammlung Albertina. Wien: Österreichische Nationalbibliothek.Search in Google Scholar

Mosel, Ignaz von (1835): Geschichte der Kaiserl. Königl. Hofbibliothek zu Wien. Wien: Beck. Search in Google Scholar

Österreichische Nationalbibliothek (2021): Vision 2035: Wir öffnen Räume, hg. v. Johanna Rachinger. Wien: Österreichische Nationalbibliothek. Verfügbar unter https://www.onb.ac.at/ueber-uns/vision-strategie.Search in Google Scholar

Padilla, Thomas (2019): Responsible Operations: Data Science, Machine Learning and AI in Libraries. OCLC Research Position Paper. Dublin: OCLC. DOI: 10.25333/xk7z-9g97. Search in Google Scholar

Pearson, David (1994): Provenance research in book history: a handbook. London: The British Library.Search in Google Scholar

Rebitsch, Robert; Kilián, Jan; Svoboda, Milan (Hrsg.) (2014): Hermann Hallwich (1838–1913): Historiker und Sammler, Funktionär und Politiker. Innsbruck: innsbruck university press. Search in Google Scholar

Rörden, Jan; Gruber, Doris; Krickl, Martin; Haslhofer, Bernhard (2020): Identifying Historical Travelogues in Large Text Corpora Using Machine Learning. In: Sustainable Digital Communities. 15th International Conference, iConference 2020. Boras, Sweden, March 23–26, 2020. Proceedings, hg. v. Anneli Sundqvist et al. Cham: Springer International Publishing ( Lecture Notes in Computer Science book series (LNCS): 12051), 801–15. DOI: 10.1007/978-3-030-43687-2_67.10.1007/978-3-030-43687-2_67Search in Google Scholar

Souminen, Osma (2019): Annif: DIY automated subject indexing using multiple algorithms. In: LIBER Quarterly, 29 (1). DOI: 10.18352/lq.10285.10.18352/lq.10285Search in Google Scholar

Stockmann, Ralf (2017): Der Zauberlehrling war nicht als Anleitung gedacht. Keynote beim Barcamp Data and Demons, 27.–28.11.2017 in Wolfenbüttel. Verfügbar unter https://urn.fi/URN:NBN:fi-fe2021080942632.Search in Google Scholar

Strebl, Laurenz (1968): Die Barocke Bibliothek (1663-1739). In: Geschichte der Österreichischen Nationalbibliothek, hg. v. Josef Stummvoll. Wien: Georg Prachner, 163–217.Search in Google Scholar

Weber, Jürgen (2010): Bodies of Evidence: Exemplar, Sammlung und Provenienz. In: Quarto: Zeitschrift des schweizerischen Literaturarchivs, 30/31, 169–74.Search in Google Scholar

Wheatley, Amanda; Hervieux, Sandy (2019): Artificial intelligence in academic libraries: An environmental scan. In: Information Services & Use, 39, 347–56. DOI: 10.3233/ISU-190065. 10.3233/ISU-190065Search in Google Scholar

Wilkinson, Hazel; Briggs, James; Gorissen, Dirk (2015): Computer Vision and the Creation of a Database of Printer’s Ornaments. In: Digital Humanities Quarterly, 15 (1). Verfügbar unter http://www.digitalhumanities.org/dhq/vol/15/1/000537/000537.html.Search in Google Scholar

Zatschek, Heinz (1966): Hallwich, Hermann. In: Neue Deutsche Biographie, Bd. 7. Berlin: Duncker & Humblot, 566 f. Verfügbar unter https://www.deutsche-biographie.de/pnd139873708.html#ndbcontent.Search in Google Scholar

Online erschienen: 2022-04-07
Erschienen im Druck: 2022-04-30

© 2022 Martin Krickl, Simon Mayer und Emanuel Zangger, publiziert von Walter de Gruyter GmbH, Berlin/Boston

Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Articles in the same Issue

  1. Frontmatter
  2. Frontmatter
  3. Inhaltsfahne
  4. Editorial
  5. Editorial: Bibliotheken zwischen Forschung und Praxis
  6. Zukunftsgestalter in Bibliotheken 2021
  7. BibToGo – Der Digitale Bibliotheksausweis des Goethe-Instituts
  8. Mit den FakeHuntern auf der Suche nach der Wahrheit – das Planspiel der Büchereizentrale Schleswig-Holstein bringt Schulen und Bibliotheken im Kampf gegen Fake News zusammen
  9. Bibliotheca Somnia – die digitale Zaubererschule der Stadtbibliothek Weinheim
  10. Beyond Psssst! Der Film der ZHAW Hochschulbibliothek
  11. Digitale Jugendliteraturjury Gerolzhofen: ein Projektinterview
  12. Auf Tour mit dem BiboBike
  13. „Informationsvermittlung kooperativ“ an der Bibliothek der Hochschule für Technik und Wirtschaft Dresden
  14. Was passierte, als wir uns begegneten
  15. Das LibraryLab in der Zentralbibliothek der Stadtbüchereien Düsseldorf – vom Prototyp zum etablierten Angebot
  16. Diversität in Bibliotheken
  17. Professional Pathways: Strategies to Increase Workforce Diversity in the Australian Library and Information Sector
  18. Selbstverständlich vielfältig. Aus einem internen Diversity-Schulungsprozess entsteht eine Aktionsreihe zur Diversität in Kinderbüchern
  19. Diversitätsorientierte Öffnung in Öffentlichen Bibliotheken am Beispiel der Bücherhallen Hamburg
  20. Diversity-Anforderungen an das Bibliotheksmanagement im berufsbegleitenden Studium
  21. Wir sind ein Land mit Migrationshintergrund
  22. Citizen Science an der Zentralbibliothek Zürich. Ein Praxisbericht
  23. Auskunftsdienst in Bibliotheken
  24. Improvisationstheater Auskunft
  25. Stereotypen und Vorurteile – facettenreiche Elemente der interkulturellen Kommunikation im Auskunftsinterview
  26. Webformulare zweier Verbünde in der virtuellen Auskunft
  27. Beschwerdemanagement in Öffentlichen Bibliotheken
  28. Kompetenzen von Bibliothekar*innen im Auskunftsgespräch mit Grundschulkindern
  29. Mystery Shopping in der Chatauskunft: Entwicklung eines Kriterienkatalogs
  30. Rahmenbedingungen der digitalen Auskunft in den russischen Bibliotheken der Gegenwart
  31. Weitere Beiträge
  32. Personal Digital Archiving: Eine neue Aufgabe für Öffentliche und Wissenschaftliche Bibliotheken
  33. Ethik im Aufwind! Auch in Bibliotheken?
  34. Digital. Persönlich. Weiter – Veränderungen in der bibliothekarischen Weiterbildung seit 2016
  35. Podcasting für Bibliotheken – Hintergründe und Bericht zum Universitätslehrgangs-Abschlussprojekt „Research Library Podcast“ der Universitätsbibliothek Wien
  36. Organisations-IDs in Deutschland – Ergebnisse einer Bestandsaufnahme im Jahr 2020
  37. Worüber schreiben LIS-Studierende ihre Abschlussarbeiten? Eine empirische Untersuchung der Jahre 2010–2019
  38. Mit Machine Learning auf der Suche nach Provenienzen – ein Use Case der Bildklassifikation an der Österreichischen Nationalbibliothek
  39. Rezensionen
  40. Hermann Rösch: Informationsethik und Bibliotheksethik. Grundlagen und Praxis. Berlin, Boston: De Gruyter Saur, 2021 (Bibliotheks- und Informationspraxis: 68). XVI + 584 S., 10 Tabellen. ISBN 978-3-11-051959-4, 69,95 €
  41. Howell, David; Snijders, Ludo: Conservation Research in Libraries. Mit Beiträgen von Andrew Beeby, Kelly Domoney und Anita Quye. Berlin, Boston: De Gruyter, 2020 (Current Topics in Library and Information Practice). 247 S., ISBN 978-3-11-037525-1, 99,95 €
  42. Davidis, Michael: Schiller und die Seinen. Beiträge zur Familien- und Wirkungsgeschichte. Göttingen: Wallstein Verlag, 2021. 262 S., 96 farbige Abb., fest gebunden. ISBN 978-3-8353-3578-3, 34,90 €
  43. Canuel, Robin; Crichton, Chad (Hrsg.): Approaches to Liaison Librarianship: Innovations in Organization and Engagement. Chicago, Ill: Association of College and Research Libraries, 2021.
Downloaded on 8.9.2025 from https://www.degruyterbrill.com/document/doi/10.1515/bfp-2021-0090/html
Scroll to top button