Der Digital Turn in den Geisteswissenschaften und seine Implikationen für Gedächtniseinrichtungen

Simon Donig

doi:10.1515/bfp-2023-0046

Article Open Access

Der Digital Turn in den Geisteswissenschaften und seine Implikationen für Gedächtniseinrichtungen

Simon Donig
Dr. Simon Donig

Published/Copyright: November 9, 2023

Published by

Become an author with De Gruyter Brill

Submit Manuscript Author Information Explore this Subject

From the journal Bibliothek Forschung und Praxis Volume 47 Issue 3

Zusammenfassung

Der digitale Wandel hat in den letzten Jahrzehnten die Geisteswissenschaften transformiert. Jede Art von Tätigkeit in Forschung und Lehre hat zumindest einen digitalen Anteil und sei es, dass dieser nur in der Nutzung digitaler Informationsinfrastrukturen für die Recherche besteht. In den historisch arbeitenden Wissenschaften mag der Beharrungswille größer sein als in anderen Disziplinen, aber auch hier haben sich in den vergangenen Jahren zwei Tendenzen herauskristallisiert: Erstens nimmt die Arbeit mit digitalen Surrogaten analoger Quellen zu – und wird noch mehr an Bedeutung gewinnen, je mehr die Fächer mit digital geborenen Quellen arbeiten. Zweitens werden die historischen Fächer selbst zu Produzenten von Forschungsdaten. Der Beitrag zeichnet diese Veränderungen nach und zeigt exemplarisch aktuelle Verfahren, Workflows und deren Voraussetzungen. Für die Gedächtniseinrichtungen argumentiert er, dass diese die sich abzeichnende Entwicklung nicht nur nicht ignorieren dürfen, sondern dass sie bereits jetzt ein wichtiger Teil des digitalen Umbruchs sind, der sich durch eine Konvergenz von Datenkompetenzen, aber auch von Verfahren und Modellierungen über die Grenzen der Fächer hinweg auszeichnet. Abschließend reflektiert der Beitrag, auf welche Weise Gedächtniseinrichtungen den Anforderungen dieser Veränderung und neuer Gruppen von Nutzenden gerecht werden können und welche Herausforderungen auch epistemischer Art in den bestehenden Sammlungen ruhen.

Abstract

The digital turn has shaped the humanities in recent decades. Every kind of activity in research and teaching now has at least a digital component, even if this only implies using digital information infrastructures for research. In the historical scholarship, the will to persevere time honed approaches may be greater than in other disciplines, yet even here two trends have emerged in recent years: firstly, scholarship based on datafied surrogates of analogue sources is increasing–and will become even more important the more scholars work with digitally born sources. Secondly, the historical disciplines themselves are becoming producers of research data. This paper traces the transformation, illustrating current techniques, workflows, and their prerequisites arguing that memory institutions should not only not ignore the development, but that they form already an important part of the digital transformation. For memory institutions the digital turn is characterised by a convergence of data competencies as well as procedures and models across the traditional boundaries of the disciplines. Finally, the article reflects on how memory institutions can meet the requirements of this transformation and new groups of users and what challenges, of an epistemic nature as well, are inherent to the existing collections.

Schlüsselwörter: Bibliothek; Gedächtniseinrichtung; datenzentrierte Forschung; maschinelles Lernen; künstliche Intelligenz; historische Fächer

Keywords: Research library; memory institution; data-driven research; machine learning; artificial intelligence; historical studies

1 Einleitend

Die Bibliotheken, hat Aleida Assmann schon 2017 diagnostiziert, hätten die Aufgabe der „Erhaltung der Bibliosphäre in der Infosphäre, nicht als Enklave einer abgehängten Tradition, sondern als ausdauernde Quelle geistiger Bewegung und neuer Wissensproduktion“.^[1] Diese Beobachtung ließe sich mit Fug und Recht auf andere Gedächtnisinstitutionen übertragen, sei es das Museum, die Sammlung oder das Archiv. Alle bestandshaltenden Einrichtungen eint die grundlegende Herausforderung, dass sie den Grad, zu dem ihre Produkte digital erschlossen und gar auf Abruf verfügbar sind, mit traditionsbehafteten Formen des Zugangs und deren Eigenlogiken austarieren müssen.^[2] Zugleich steckt aber bereits im zugrundeliegenden Bild eine geradezu kulturpessimistische Vorannahme, die die „heile“ Welt der wissensgenerierenden „Bibliosphäre“ der entgrenzten, rapiden, algorithmisch getriebenen, faktoiden „Infosphäre“ gegenüber stellt.^[3] Es liegt ein gewisses Paradox darin, dass der besagte Aufsatz die Herausbildung beider Sphären durch mediale Umbrüche nachzeichnet, aber den Kontinuitätslinien zwischen ihnen vergleichsweise wenig Bedeutung beizumessen scheint.

Ich betone dies eingangs, weil ich in diesem Beitrag eine genau gegenteilige Argumentation führen möchte. Bibliotheken und allgemeiner, Gedächtnisinstitutionen, haben zu allen Zeiten als wissensbewahrende Einrichtungen Verfahren entwickelt, um mit Phänomenen der Komplexität wie der Informationsexplosion umzugehen – denkt man an Wissenspraktiken wie Klassifikation und Indexierung.^[4] Sie befanden sich dabei – legen wir etwa die Neuausprägung dieser Verfahren im 18. Jahrhundert zugrunde – in einem steten Wechselspiel mit der sich disziplinär ausdifferenzierenden Wissenschaft, aber auch der Administration.^[5] Ein Wechselspiel, das weitgehend auf Augenhöhe stattfand und durch den Austausch von Personen zwischen diesen verschiedenen Tätigkeitsfeldern geprägt war. Der Methodenkanon wurde in den Praktiken der Gedächtnisinstitutionen reflektiert, erprobt und weiterentwickelt. Trotz disziplinärer Verdichtung und funktionaler Differenzierung in den vergangenen Jahrhunderten, so scheint mir, besteht diese grundlegende Verflechtung fort.

In diesem Beitrag argumentiere ich, dass unter den Bedingungen der Digitalität eine Wiederbelebung der wechselseitigen Durchdringung stattfindet, die neue Praktiken der Zusammenarbeit zwischen Gedächtniseinrichtungen und Wissenschaft erfordert und dass dies nicht ohne grundlegende Auswirkungen für beide Seiten bleiben kann, bis dahin, wie Ausbildung und Kompetenzprofile für Karrieren in diesem Bereich gestaltet sein sollten.^[6]

Um dieses Argument nachvollziehbar zu machen, soll der Beitrag zunächst einen Einblick in die jüngsten Veränderungen in den historischen Fächern, allen voran der Geschichtswissenschaft, in der letzten Dekade vermitteln, wobei ich neben einer globalen Digitalisierung aller wissensgenerierenden Praktiken im Fach vor allem auf die fächerübergreifende Nutzung sogenannter datenzentrierter bzw. datengetriebener Verfahren abheben werde. Dieser Kulturwandel hin zu digitalen Methoden und digitalisiertem Quellenmaterial, der sicher zunächst nur einen Teil der Forschenden in diesen Fächern betrifft, schafft – so eine weitere These dieses Beitrags – dennoch neue Bedarfe, die sich zwischen verschiedenen Disziplinen nicht nur ähneln, sondern stellenweise sogar konvergieren. Gerade vor dem Hintergrund der nunmehr vier bewilligten, teils oder ganz geisteswissenschaftlich arbeitenden Konsortien in der Nationalen Forschungsdateninfrastruktur (NFDI),^[7] zu denen direkt über die Beteiligung der einzelnen Häuser oder indirekt über die Fachinformationsdienste (FID) der Bibliotheken enge Querverbindungen bestehen, sollten sich Gedächtniseinrichtungen neu Rechenschaft darüber ablegen, in welcher Form zukünftig das von ihnen bewahrte Material erschlossen und zugänglich gemacht werden soll, um angesichts wieder knapper werdender Ressourcen in Forschung und Gesellschaft maximalen Nutzen zu stiften. Neben der Frage nach höherschwellig aufbereitetem Material für datenzentrierte Arbeiten^[8] spielt die Frage nach der semantischen Erschließung ihrer Gegenstände eine bedeutende Rolle im Bereich der Massendigitalisierungsprogramme von Gedächtniseinrichtungen, die hier ebenfalls nicht unreflektiert bleiben darf,^[9] denn durch die Selektivität von Auswahl und Auffindbarmachen formen Gedächtnisinstitutionen nicht nur datenbasierte, sondern auch die klassisch-hermeneutische, „qualitative“ Forschung mit. Aus der Beobachtung neuer Forschungspraktiken und deren Anforderungen an bestandshaltende Einrichtungen speist sich so ein zweiter Strang dieses Beitrags. Hier soll danach gefragt werden, was Gedächtniseinrichtungen bereits tun und – durchaus normativ – tun sollten, um diese Formen der Forschung zu ermöglichen, und welche Herausforderungen, aber auch Entwicklungspotentiale sich dadurch ergeben.

2 Traditionsstränge

2.1 Der Digital Turn in den historischen Wissenschaften

Die Digitalisierung der Forschung ist in den historischen Fächern weitaus älter, als man zunächst annehmen mag. Bereits in den 1950er- und frühen 1960er-Jahren begann etwa in den USA eine Erfassung von aus Quellen abgeleiteten Merkmalen mittels Lochkarten, die dann mit elektromechanischen und elektrischen Rechenmaschinen ausgewertet werden konnten.^[10]

Die Geschichtswissenschaft orientierte sich seinerzeit vor allem am Ideal einer historischen Sozialwissenschaft, der sie methodisch durch Verfahren der statistischen Abbildungen und Aggregation individueller Merkmale aus vordigitalen Quellen gerecht zu werden suchte. Bevorzugte Gegenstände waren daher von ihrem Aufbau her latent bzw. semistrukturierte Quellen wie etwa Katasterbücher, die einfach zu identifizierende Entitäten wie Personen in verschiedenen Rollen (Käufer, Verkäufer, Zeugen), Orte, Daten und andere Merkmale (etwa Kaufbeträge) enthielten.^[11] Mit der sogenannten Kliometrie etablierte sich in den 1960er-Jahren zudem eine weitere Form der quantitativen Geschichtsschreibung, die explizit auf ökonomische Zusammenhänge abstellt.^[12] Die europäischen Länder entwickelten je eigene Spielarten dieses Zugangs, darunter etwa im Rahmen der französischen Annales-Schule, für die Emmanuel Le Roy Ladurie das vielzitierte Diktum formulierte: „L’historien de demain sera programmeur ou il ne sera pas“,^[13] oder auch im Rahmen des Programms der deutschen Sozialgeschichte. Im deutschsprachigen Raum entwickelte sich etwa das Supplement „Historical Software“ direkt aus der Zeitschrift für Historische Sozialforschung heraus.^[14] Vergleichsweise früh wurden in Deutschland auch die Ansätze der sozialen Netzwerkanalyse rezipiert,^[15] wenn es auch fast zwei Jahrzehnte seit den ersten theoretischen Grundlagen dauern sollte, bis sich Anfang der 2000er-Jahre eine eigene historische Netzwerkforschung ausprägte.^[16]

Neben diesem sozial- und wirtschaftsgeschichtlich-statistischen Zugang speist sich die heutige Digital History auch aus einer langen textwissenschaftlichen Tradition, die etwa an Fragen von Lexikografie, Textgenetik und Texthermeneutik anknüpft. Als erste bedeutende Forschungsleistung auf diesem Gebiet in den Digital Humanities gilt gemeinhin der Index Thomisticus des italienischen Theologen Roberto Busa, SJ,^[17] der einen corpuslinguistischen Zugang zum Gesamtwerk Thomas von Aquins und 61 weiteren Texten verschiedener Autoren bietet, die sich auf diesen beziehen. Die textwissenschaftlichen Zugänge haben ihr Echo insbesondere im Bereich der (digitalen) Editorik gefunden, die seit jeher einen Kernbereich des historischen Arbeitens darstellt.

Ein dritter Traditionsstrang, der in den vergangenen Jahren durch die fortschreitende Digitalisierung enorm an Bedeutung gewonnen hat, ist jener der historischen Raumwissenschaft, die neben dem expliziten Rückgriff auf Geoinformationen auch das der hermeneutischen Richtung sehr nahe stehende Feld der historischen Orts- und Territoriumsnamen mit einschließt.^[18]

Darüber hinaus speisen sich die historisch arbeitenden Disziplinen schließlich auch aus einer bildwissenschaftlichen Tradition. In der Kunstgeschichte fand sich früh ein großes Interesse an der Nutzung digitaler Medialität, die ganz neue Zugänge etwa zu Fragen der Ähnlichkeit und Serialität von Bildwerken und Artefakten zu versprechen schien.^[19] War lange Zeit die Funktion des Computers als Katalogisierungsinstrument bestimmend, als digitaler Guckkasten, der Forscherinnen und Forschern visuelle Komparatistik ermöglichte, erfuhr in den 2000er-Jahren – ganz ähnlich wie in anderen Fächern – die Befähigung des Computers, Muster in großen und sehr großen Datenbeständen zu finden, vermehrte Aufmerksamkeit.^[20] Diese Befähigung verdanken digitale Systeme heute vor allem Verfahren des maschinellen Lernens, auf die im Anschluss noch näher einzugehen sein wird.

2.2 Konvergenz im Bereich der Datenkompetenz

Diese einleitenden Beobachtungen, die ganz bewusst die verschiedenen historischen Disziplinen und Arbeitsfelder – in hoffentlich nicht allzu kruder Weise – auf der Ebene ihrer Wissenspraktiken parallelisieren, haben nicht allein rahmenden Charakter. Vielmehr soll hier ein Argument geführt werden, das meines Erachtens zentral für unser Verständnis der Digitalisierung in Gedächtniseinrichtungen ist. Ich argumentiere, dass (innerhalb gewisser Grenzen) Verfahrens- und, Datenkompetenzen sich in verschiedenen Fächern ähneln – ein Umstand, dessen sich die Digital Humanities – als Supra-Disziplin sozusagen – schon lange bewusst sind,^[21] weshalb sie Konzepte wie die Methodological Commons entworfen,^[22] oder auch Forschungsaktivitäten übergreifend durch Taxonomien wie TaDiRAH systematisier- und beschreibbar gemacht haben.^[23]

Für alle vier Traditionsstränge – dem sozial-, raum-, text- und bildwissenschaftlichen Strang – ist zu beobachten, dass sie letztlich vor allem Antworten auf Fragen der Klassifikation und Ordnung bzw. mit Mitteln der Klassifikation^[24] Ordnung zu geben suchen. Auf einer abstrakten Ebene geht es fast immer darum, Merkmale in bestimmten Medialitäten zu identifizieren und diese dann entweder durchsuch-, zuordnen- oder vergleichbar zu machen. Digitale Forschung liefert dabei in fast allen Fällen Antworten auf Fragen, die auch von der vordigitalen Forschung in der einen oder anderen Weise (wenn auch oft nicht in derselben Radikalität) gestellt worden sind. Ja allzu oft – siehe Index Thomisticus – war die Etablierung eines digitalen Forschungsinstruments eben die Antwort darauf, dass eine Forschungsfrage mit anderen Methoden überhaupt nicht zu beantworten war.

Damit tritt noch einmal hervor, dass die konzeptuellen Wurzeln digitaler Methoden weit in die vordigitale Zeit zurückreichen. Dies betrifft in besonderem Maße Kategorie- und Klassifizierungssysteme. Im Bereich der Sozialgeschichte gab es hier etwa Ansätze zu einer generalisierbaren Klassifikation historischer Berufsbezeichnungen (HISCO).^[25] Im Bereich der Bildwissenschaft ist ICONCLASS ein zuerst in analoger Form entwickelter Weg, um insbesondere die Ikonografie in Bilddarstellungen über numerische Merkmale und Regeln für deren Aneinanderreihung zu repräsentieren.^[26] Im Bereich der historischen Raumwissenschaften sind die vielfältigen Ortsnamensverzeichnisse und Gazetteers vergleichbare Bemühungen, Ordnung über Systematik herzustellen,^[27] die direkt an vordigitale Erfassungsformen anknüpfen können. Auch die formalen, mathematischen Modelle und ihre Übersetzung in Praktiken der Datenerfassung und Visualisierung, die heute etwa von der historischen Netzwerkforschung genutzt werden, sind Ende des 19. und in der ersten Hälfte des 20. Jahrhunderts erstmals auf soziale Gegenstände angewendet bzw. an ihnen weiterentwickelt worden.^[28] Auszeichnungssprachen wie TEI^[29] schließlich spiegeln in über einhundert Jahren entwickelte Best Practices und Konventionen bei der Repräsentation von Texten wider.

Die oben angestellte Beobachtung gilt im Übrigen nicht nur für die historischen Wissenschaften als „Kunden“ der Gedächtniseinrichtungen. Auch die Bibliotheks-, Museums- und Archivwissenschaften können im Zuge der Digitalisierung auf einen Erfahrungs- und Methodenschatz zurückgreifen, der mindestens mehrere Jahrhunderte zurückreicht – denken wir an die Methoden der Katalogisierung und der Klassifikation (Beispiel Dewey-Dezimalklassifikation (DDC)),^[30] die Eingang in moderne Informationssysteme gefunden haben.

Auch wenn die Rhetorik der Digitalisierung oft als eine Rhetorik des Bruchs, der „fundamentalen“ Umwälzung und des Revolutionären daherkommt, verweisen solche Beobachtungen auf die großen Kontinuitätslinien und brechen so aus einem Überwältigungsnarrativ der Digitalisierung des „Big Data“ aus, das allzu oft prägend für das Sprechen über die digitale Transformation ist.

Tatsächlich gibt es in der informations- und computerwissenschaftlichen Dimension eine beachtliche Überlappung zwischen den einzelnen Teildisziplinen, die oft als interdisziplinärer Kern der digitalen Geisteswissenschaften bzw. der digitalen Geschichte beschrieben worden ist.^[31] Die einzelnen Disziplinen, aber auch die kuratorische und bibliothekarische Praxis der Gedächtnisinstitutionen befinden sich in einem noch vor wenigen Jahrzehnten kaum denkbaren Prozess der Annäherung, ja der Konvergenz. Im geteilten informations- und computerwissenschaftlichen Kompetenzspektrum und in den geteilten Herausforderungen, zu deren Bewältigung die Kompetenzen erworben werden, liegt das Potential, um Bibliothekarinnen und Bibliothekare, Archivarinnen und Archivare oder Kuratorinnen und Kuratoren sowie Forscherinnen und Forscher übergreifend zusammenzubringen. Sichtbar wird diese Entwicklung bereits jetzt durch die Herausbildung einer neuen Gruppe von Fachexpertinnen und -experten, die neben ihrem spezifischen Rüstzeug auch Methoden und Verfahrenskenntnis sowie ein Verständnis für technische Infrastrukturen mitbringen.^[32]

Die Fachwissenschaften, Museen, Archive und Bibliotheken treten auch auf diese Weise in einen neuen Dialog, in dem sie scheinbar althergebrachte Aufgaben und Rollen neu aushandeln.^[33] Nicht nur Forschung und kuratorische Praxis bauen in zunehmendem Maße auf Daten auf, sondern die dabei zutage tretenden Herausforderungen etwa auf der Ebene der Wissensrepräsentation oder der Verfahren der Wissensgenerierung erfordern interoperable Lösungen, die in wachsendem Maße fächerübergreifend gesucht werden – etwa wenn das ursprünglich für die Objektwissenschaften entwickelte CIDOC Conceptual Reference Model (CRM) für die Bedarfe der Geschichts- oder Sozialwissenschaften (CRMsoc) weiterentwickelt wird.^[34]

Noch auffälliger ist diese Entwicklung, betrachtet man die großen Vernetzungsprojekte wie die Nationale Forschungsdateninfrastruktur (NFDI) in Deutschland, deren verschiedene Konsortien von den Natur- und Technikwissenschaften bis in die Geisteswissenschaften reichen, oder auch fachnähere, geförderte Datenräume wie den Common European Data Space for Cultural Heritage, oder die European Open Science Cloud (EOSC).^[35] In disziplingerechter Anwendung der FAIR-Prinzipien für Daten^[36] werden hier auf der Basis von Semantic-Web-Technologien im großen Maßstab fachrelevante Informationsbestände auffindbar gemacht. Deshalb ist es auch nicht überraschend, dass neben der universitären und außeruniversitären Forschung in Großprojekten wie der NFDI auch Forschungsmuseen und Forschungsbibliotheken sowie Archive eine zentrale Rolle spielen.

Verschiedentlich gehen Infrastrukturen sogar schon so weit, durch die wechselseitige Abbildung der zugrundeliegenden Schemata auch heterogene Datenbestände aufeinander abzubilden, sie streben so eine Vernetzung auf der Ebene der einzelnen Informationsobjekte an.^[37] Das Ausmaß, in dem in naher Zukunft Daten aus der Chemie auf Daten aus etwa der Geschichtswissenschaft sinnvoll und nicht-trivial abgebildet werden können, ist dabei aber sicher überschaubar. Wesentlich wichtiger scheint mir, dass dadurch auf der Ebene der Datenpraktiken – etwa über die Operationalisierung und formale Abbildungen des jeweiligen Verständnisses von Datenqualität – ein disziplinübergreifender Dialog und eine auf Interoperabilität abzielende Standardisierung angestoßen wird. Diese Prozesse betreffen auch – und vielleicht sogar an erster Stelle – die Gedächtnisinstitutionen, die wesentlich für die „Verdatung“ von Quellenmaterial und die Bereitstellung von digital geborenen Inhalten für die historisch arbeitenden Geisteswissenschaften sind. Vielfach sind gerade die Bibliotheken vorangegangen, virtuelle Nutzersäle, komplexe Forschungsumgebungen oder auch nur standardkonforme Schnittstellen zu den Systemen der Bestandserfassung bereitzustellen.^[38]

Gerade letztere zielen auf eine Forschungsrichtung, die im großen Umfang auf Bestandsdaten zurückgreifen möchte und die in den nächsten Jahren in wachsendem Maß an Bedeutung gewinnen wird: die Arbeit mit datenzentrierten Methoden aus dem Bereich des maschinellen Lernens. Nicht zuletzt haben die (Forschungs-)Bibliotheken in der Data Science eine neue Nutzergruppe entdeckt, auf die sie ihre Produkte und Prozesse abstimmen können.^[39]

3 Maschinen und Modalitäten

3.1 Von der „Verdatung der Welt“ zu kritischen Datenstudien

Die wachsende Relevanz der Data Science in den 2000er-Jahren war auch für die historisch arbeitenden Geisteswissenschaften ein wichtiges Moment. Als regelrechter Katalysator erwies sich dabei das Google-Books-Korpus, das unter anderem Anstoß zu einer Culturomics bzw. Cultural-Analytics genannten Bewegung bot, die mit datenzentrierten Methoden kulturelle Zusammenhänge zu erkunden suchte.^[40] Hier figurierte Kultur als ein Bereich der menschlichen Lebenswelt unter anderen – deren Merkmale nunmehr (manchmal unkritisch) quantitativ modellier- und visualisierbar erschienen (gelegentlich sogar mehr mit einem ästhetischen als mit einem analytischen Ziel). Die Rezeption solcher Zugänge half den geisteswissenschaftlichen Disziplinen dabei, ein eigenes Verständnis als kritische Disziplin auszubilden, und trug zur Fundierung der kritischen Datenstudien bei.^[41] Vielfach haben sich nicht nur Analyseverfahren, sondern auch Präsentationsformen wie „reiche“ bzw. „tiefe“ Kartendarstellungen oder Dashboards als Vermittlungswege in dieser Zeit als Kulturtechniken etabliert. Die digitalen Geisteswissenschaften haben als kritische Disziplin neue Wege der Instrumenten- und Interface-Kritik beschritten,^[42] die schließlich auch in die „digitale Hermeneutik“ der Geschichtswissenschaft als Prozessschritte Eingang gefunden haben.^[43]

3.2 Digitale Methoden und Workflows

3.2.1 Computergestützte Techniken und Verfahren

Die Vielfalt der datenzentrierten Techniken, die in den historisch arbeitenden digitalen Geisteswissenschaften zum Einsatz kommen, ist inzwischen so groß, dass sie sich einem komparatistischen Blick fast schon entzieht.^[44] Derartige Verfahren erweitern den Methodenapparat der historischen Wissenschaften dahin, dass es mit ihnen möglich ist, nach Mustern und Trends in Massendaten zu suchen, die bei einer rein hermeneutischen Betrachtung der Gegenstände nicht erkennbar sind, zumindest nicht begründbar nachgewiesen werden könnten. Neben der herkömmlichen statistischen Analyse, die primär auf Quantifizierung abzielt, haben in den letzten zwanzig Jahren vor allem Verfahren des maschinellen Lernens zentrale Bedeutung erlangt, die im Forschungsprozess oftmals und auf vielfältige Weise mit eher qualitativ-hermeneutischen Schritten verknüpft werden.

Solche Zugänge sind dabei unter anderem unter Schlagworten wie Macroanalysis oder auch des Distant Reading bzw. Viewing, also des Distanzlesens bzw. -betrachtens, verhandelt worden.^[45] Jeder dieser Begriffe beschreibt dabei im Grunde Evidenzpraktiken mit ihren je eigenen epistemischen Vorannahmen. Wichtig ist in allen drei Fällen, dass die Zugänge nicht auf der Ebene der Abbildung aggregierter Merkmale von Einzelobjekten stehen bleiben, sondern dass den oben angesprochenen Mustern, die über einen großen Datenbestand hinweg identifiziert werden, ein epistemischer Eigenwert und damit eigene Erkenntniskraft zugesprochen wird. Für Franco Moretti, dem allgemein das Konzept des Distant Reading zuerkannt wird, war es etwa ein Weg, den literaturwissenschaftlichen Kanon herauszufordern und damit „the Great Unread“ die „anderen 99,5 Prozent“ der Literaturproduktion endlich gemeinsam mit den 0,5 kanonisierten Prozent in den Blick nehmen zu können.^[46] Moretti verbindet dies mit einem stark formalistischen Zugang zur Literaturgeschichte – in seinem Aufsatz „Style, Inc.“ stützt sich die Untersuchung sogar nur auf die Titel von 7000 britischen Novellen, um an deren Beispiel strukturell prägende Veränderungen des Lesens zwischen 1740–1850 nachvollziehbar zu machen.^[47]

Abb. 1:

Minimalistisches Beispiel für eine Bildannotation in der Code-Ansicht

Der Bereich des maschinellen Lernens umschreibt ein Feld der Informatik, das technisch vielen der in den hier angeführten Zugängen verwandten Verfahren zugrunde liegt. Grundsätzlich kann dabei zwischen überwachtem und unüberwachtem maschinellen Lernen unterschieden werden.^[48] Vielfach können computergestützte Aufgaben heute allerdings sowohl mittels überwachter als auch unüberwachter Ansätze gelöst werden, die jeweils spezifische Vor- und Nachteile haben, weshalb häufig auch Kombinationen aus beiden Wegen zum Einsatz kommen.

Abb. 2:

Visualisierung einer Annotation auf einem Trainingsbild. In Blau die Polygonflächen, in Rot die jeweils damit verbundenen Textannotationen

Überwachtes maschinelles Lernen umfasst Verfahren, bei denen zunächst aus einem Set von annotierten Beispieldaten Merkmale erlernt werden, die vordefinierten Klassen zugeordnet sind. Häufig kommen solche Ansätze beispielsweise in der Bildanalyse zum Einsatz. Eine Objektsegmentierung in historischen Darstellungen von Interieurs zum Beispiel könnte so etwa alle Arten von Mobiliar (Stühle, Tische, Kommoden etc.) als Klassen begreifen. Die Trainingsdaten umfassen dann Bildmaterial mit einer Vielzahl von mit den Klassenbezeichnungen annotierten Objekten, die in diesen Bildwerken auf Basis der Pixelflächen angegeben werden (Abb. 2). Die Annotation (Code Beispiel: Abb. 1) wird normalerweise mit einer Annotationssoftware erzeugt und beschreibt mit einer Reihe von Punkten ein Polygon, das die Fläche abdeckt, in der sich das zu klassifizierende Objekt befindet. Mit dem „label“ wird die Bezeichnung übergeben, die die künstliche Intelligenz (KI) in Verbindung mit den Merkmalen innerhalb der Fläche lernen soll. Ganz am Ende der Datei erfolgt schließlich die Mitteilung der Bilddatei, auf der die Annotation vorgenommen worden ist. Auf dieser Grundlage wird ein Klassifikator trainiert, mit dem dann neues Quellenmaterial analysiert werden kann, mit welchem dieser zuvor nicht in Kontakt gekommen ist (zum Verfahren s. Abb. 3). Dadurch entsteht neues Wissen über Bildinhalte, über das wir zuvor nicht verfügt haben (Abb. 4).^[49] Solche Verfahren können natürlich nicht nur auf Bilddaten angewendet werden. Lange Zeit wurden so etwa Verfahren für die Sentiment-Analyse, die emotionale Befindlichkeiten in der Sprache aufdecken soll, anhand komplexer, von Menschen kuratierter Wörterbücher trainiert.^[50] Auch viele hilfswissenschaftlich genutzte Verfahren wie die weit verbreitete Erkennung benannter Entitäten in Texten (Named Entity Recognition, NER) werden häufig als überwachte Lernverfahren realisiert,^[51] weil dieser Zugang eine hohe Genauigkeit verspricht.

Abb. 3:

Ablauf des Trainingsprozesses für einen Bildklassifikator: Die annotierten Ausgangsdaten werden in zwei Gruppen, ein Trainings- und ein Testset, aufgespalten

Mit dem Trainingsset wird ein sogenanntes Neuronales Netz trainiert, das als Klassifikator dient. Durch Prozesse der Verdichtung lernt das Neuronale Netz Merkmale der Ausgangsrepräsentation, die dann mit dem Textlabel verbunden werden. Die Qualität dieses Lernergebnisses kann am Testset erprobt werden. Da dessen Annotation bekannt ist, können Metriken ermittelt werden, die beschreiben, wie erfolgreich der Lernprozess war, der so ggf. nachjustiert werden kann.

Ansätze des unüberwachten Lernens kommen dagegen vor allem da zum Tragen, wo keine vordefinierten Annotationen für Merkmale existieren und somit auch keine Klassen gebildet worden sind. Daher müssen die Modelle aus sich selbst heraus in der Lage sein, Merkmalsgemeinsamkeiten in dem Material aufzudecken, mit dem sie konfrontiert werden. Häufig kommen hier Verfahren der bayes’schen Statistik zum Beispiel zur Clusterbildung oder zur Detektion von Abweichungen (Outliers) zum Einsatz. Im Bereich der Textanalyse ist beispielsweise das sogenannte Topic Modelling ein beliebtes Verfahren, um latente Strukturen in Texten sichtbar zu machen.^[52] Eine Analyse eines Zeitungsjahrgangs könnte diesen zum Beispiel mit Topic-Modelling-Verfahren auf jene Gegenstände hin untersuchen, die mit einer gewissen Häufigkeit verhandelt worden sind. Dabei ist der Begriff des Themas (Topic) nur ein epistemisches Hilfskonstrukt,^[53] da das Ergebnis dieser Verfahren eigentlich eine Reihe von Wortlisten ist, die auf statistischer Analyse von Wortnachbarschaften beruht und die somit als charakteristisch für ein Topic betrachtet werden können. Die Wörter einer Liste müssen daher auch nicht notwendigerweise in jedem Text vollständig enthalten sein, damit diesem ein Topic zugeordnet werden kann – vielmehr werden die Texte nach der Wahrscheinlichkeit gruppiert, mit der sie mit einem Topic korrelieren. Dabei ist jede Wortliste selbst interpretationsbedürftig, was heißt, dass die Forschenden dem Topic seine Bedeutung zuweisen.

Abb. 4:

Ergebnis der Anwendung eines Klassifikators auf unbekanntem Material

Während Topic Models sehr stark auf die Gegenstandsebene eines Diskurses abheben, richten andere unüberwachte Verfahren ihre Aufmerksamkeit sehr viel stärker auf die Veränderung der Semantik selbst. In den letzten Jahren hat etwa die Nutzung von sogenannten Word-Embedding-Modellen (WEM) große Aufmerksamkeit erfahren. Diese enthalten semantische und syntaktische Informationen, die auf der Verteilung von Wörtern in Texten beruhen. WEMe werden durch Lernalgorithmen erstellt, die Beziehungen zwischen Wörtern aus großen Mengen von Texten extrahieren. Diese können zu einer Untersuchung der Kontexte von Wörtern herangezogen werden, was sie zu nützlichen Instrumenten einer digitalen Begriffsgeschichte machen kann.^[54] So sind WEMe bereits für die Analyse diskursiver Prozesse etwa zu Kriegsverbrechern in den Niederlanden nach 1945 oder zum Wandel von Wortfeldern zu Geschlecht und Ethnizität in den Vereinigten Staaten im 20. Jahrhundert angewendet worden.^[55]

Deutlich erkennbar sind die Flächen, in denen der Klassifikator Merkmale gefunden hat, die er einem Objekt zurechnet. Der farbige Rahmen dient der Verdeutlichung, im Bild eingetragen sind hier die jeweiligen Klassen (Label) und eine sogenannte Konfidenzrate, die beschreibt, wie „sicher“ sich der Klassifikator bei der Zuordnung des Objekts zu einer Klasse war.

Verfahren des überwachten und unüberwachten Lernens haben durchaus unterschiedliche Anforderungen an das Ausgangsmaterial. Während überwachte Ansätze umfassend annotierte Datensets voraussetzen, muss Material für unüberwachtes Lernen vor allem wohlgeformt sein, das heißt frei von möglicherweise störenden Einflüssen (Rauschen) wie zum Beispiel niedrige Textqualität durch schlechtes OCR, paratextuelle Fragmente wie Paginierung oder fortlaufende Seitenüberschriften oder auch Reste von HTML-Markup bei Webseiten.

3.2.2 Herausforderungen

Tatsächlich sind solche Einflüsse, die auf maschinelles Lernen einwirken, vergleichsweise einfach durch Reinigung und Aufbereitung des Datenmaterials zu korrigieren. In den letzten Jahren hat dagegen aus verschiedenen Gründen die Frage von Bias in Prozessen maschinellen Lernens große Aufmerksamkeit erlangt.

Eine grundsätzliche Herausforderung für die Geisteswissenschaften bleibt die Nachvollziehbarkeit dessen, was von einem Klassifikator gelernt worden ist. In den allermeisten Verfahren lassen sich die Prozesse, die zu einem bestimmten Klassifikationsergebnis geführt haben, nicht nachvollziehen, weil der Aufwand hierfür rechentechnisch viel zu kostspielig wäre. Der Klassifikator funktioniert folglich als eine Black Box, deren Funktionsweise nur abstrakt, nicht aber konkret am Einzelfall nachvollziehbar ist. Heute werden diese Modelle oft nicht länger von Grund auf trainiert, sondern sogenannte vortrainierte Modelle eingesetzt, die dann in einem Lernprozess nur an spezifische Merkmale der vorliegenden Daten angepasst werden. Dies wirft zusätzlich die Frage auf, welchen Einfluss dieses Vortraining auf die Fähigkeit der Modelle nimmt.

Derzeit werden solche Aspekte unter den Schlagworten von Trust und Explainable Artificial Intelligence (XAI) verhandelt.^[56] Gerade in Zeiten einer boomenden generativen AI mit Textgeneratoren wie ChatGPT oder Bildgeneratoren wie Midjourney, die zum ersten Mal auch die analytische Seite der Geisteswissenschaften herausfordern, erhalten diese Zugänge eine völlig neue Brisanz,^[57] kann generative AI doch durchaus z. B. zu einer Verbesserung der Leistung von Optical-Character-Recognition-Modellen eingesetzt werden und wird so zu einem Teil der wissenschaftlichen Erkenntniskette. Ihre eigentliche Brisanz gewinnen diese Herausforderungen meist in anderen gesellschaftlichen Bereichen als der Wissenschaft, etwa wenn maschinelles Lernen für Kreditvergabe, Predictive Policing, Transactional Fraud Detection im Bankwesen und viele weitere Gebiete zum Einsatz kommt, bei denen potentiell menschliche Vorurteile (Bias) Eingang in Machine-Learning-Modelle finden und diese zum Nachteil von Menschen angewendet werden können.^[58] In Folge der Skandale^[59] insbesondere um die Fehlklassifizierung schwarzer Menschen in Anwendungen wie Google Photos oder Facebook hat dieser Umstand beispielsweise dazu beigetragen, dass in den vergangenen Jahren eigentlich alle Trainingsdatenbanken, die für derartige Klassifizierungsaufgaben herangezogen werden können, Merkmalsverteilungen im Trainingsmaterial auszubalancieren versuchen, etwa in Bezug auf Hautfarbe oder Merkmale, die auf das Geschlecht einer Person bezogen werden könnten.^[60]

Der Klassifikationsleistung des Modells sind somit immer auch Formen von Macht eingeschrieben, die letzten Endes auch für die Wahrheitsspiele der Wissenschaft (im Foucault’schen Sinn) von Bedeutung sind. Für Gedächtnisinstitutionen ist dies besonders dann von Relevanz, wenn ihre Bestände Eingang in Prozesse des maschinellen Lernens finden. Dies betrifft gleichermaßen die Sammelpraxis, durch die das Vorhandensein, die Überbetonung oder auch das Fehlen ganzer Merkmalsgruppen bedingt ist,^[61] als auch die Erfassung der Bestände. Da eine Neuauszeichnung von Merkmalen extrem zeitaufwändig ist, liegt es nahe, auf bestehenden Klassifikationssystemen aufzubauen, die oftmals bereits als Metadaten etwa in Bestandskatalogen und Dokumentationssystemen erfasst sind. Damit setzen sich solche Zugänge der Gefahr aus, traditionelle Ordnungssysteme unkritisch in digitale Anwendungen einzuschreiben. So wurde etwa traditionellen Ordnungssystemen für Raum und Zeit oder auch Disziplinen die Gefahr des Eurozentrismus vorgehalten. Auch aus diesem Grund ist in den letzten Jahren eine verstärkte Debatte über den präskriptiven Charakter von Ordnungssystemen und darüber geführt worden, ob eine Dekolonialisierung der Wissensorganisationssysteme in Gedächtniseinrichtungen erforderlich ist.^[62]

4 Gedächtniseinrichtungen als Dienstleister für Forschung mit KI?

Die Frage, ob Gedächtniseinrichtungen und gerade Bibliotheken zu Dienstleistern für eine KI-unterstützte Forschung werden wollen, ist von außerhalb der Bibliosphäre natürlich nur eingeschränkt zu beantworten, und der Versuch kann sich angesichts des langen und erfolgreichen Wegs der Bibliotheken als forschungsunterstützende Einrichtungen^[63] leicht den Vorwurf der Vermessenheit zuziehen. Dennoch scheinen mir einige Entwicklungen geradezu unvermeidbar und vielfach sogar mit positiven Nebeneffekten für die Gedächtnisinstitutionen verbunden, die ich im Folgenden kurz thesenhaft anreißen möchte.

Erstens werden Gedächtnisinstitutionen in naher Zukunft an Fragen der computergestützten Forschung mit ihren Beständen überhaupt nicht vorbeikommen, ja vielfach tun sie es, wie oben ausgeführt, bereits jetzt schon nicht. Wenn die Definition einer Forschungsbibliothek also weiterhin sein soll: „Ich biete Dir eine langfristig verfügbare und permanent ausgebaute Arbeitsumgebung, die dein exploratives Forschen umfassend trägt – wohin Dich dieser Forschungsprozess auch immer führen mag“,^[64] dann impliziert dies, dass Forschungsbibliotheken auch im digitalen Raum, hinsichtlich der Bereitstellung dessen engagiert sein müssen, was beforscht werden kann.

Zweitens – und das scheint mir der weniger triviale Aspekt – wird sich für Gedächtniseinrichtungen, die forschungszugewandt arbeiten, automatisch die Frage stellen, was dieses „Beforschbare“ denn sein kann. Die Antwort auf diese Frage hat einen forschungspraktischen und einen juridischen Teil, steht neben Fragen des Open Access, den Gedächtniseinrichtungen zunehmend bejahen, doch vor allem der Schutz intellektuellen Eigentums im Mittelpunkt solcher Überlegungen.

4.1 Offenheit, Zugang und die Frage des Urheberrechts

Dass Gedächtniseinrichtungen sich zunehmend auf Open-Access-Modelle für ihre Bestandsmaterialien einlassen und dass Bibliotheken hier traditionell zur Speerspitze des Zugangs gehören, bedeutet in der Praxis leider keineswegs, dass der Forschung damit auch ausreichend Material zur Verfügung steht. Vor allem drei Faktoren schränken dies derzeit ein und führen dazu, dass sich ein „digitaler Rückstau“ bildet, bei dem die tatsächlich vorhandenen Digitalisate mit dem, was verfügbar gemacht wird, immer weiter auseinander gehen.

Erstens sind die Bestandsdigitalisierungsprogramme vieler Häuser noch gar nicht so weit, dass sie bereits im ganz großen Umfang Digitalisate erstellt hätten und in manchen Bereichen ist gar ein qualitätsorientiertes Fremdeln mit der Idee der Massendigitalisierung zu beobachten. In zahlreichen Fällen fehlt es gerade kleineren Häusern nach wie vor an Infrastrukturlösungen, um die entstehenden Digitalisate, einmal erschlossen, der Öffentlichkeit zugänglich zu machen. Zugleich mangelt es an Personal für die Erschließung und Verzeichnung, so dass auch eine Lieferung an große Verbundlösungen wie die Deutsche Digitale Bibliothek bzw. Archivportal-D nur bedingt infrage kommt.

Zweitens stehen der Veröffentlichung von Materialien oft urheberrechtliche Gesichtspunkte entgegen. Die Bibliotheken trifft dies in besonderem Maße, so dass etwa Zeitungssammlungen für das 20. Jahrhundert häufig hinter Anmeldebarrieren liegen müssen, wenn sie überhaupt anders als vor Ort zugänglich gemacht werden. Ähnliches lässt sich für Bildwerke, andere Printmedien und sogar Abbildungen von Objekten sagen. In manchen Fällen kommen noch Bildrechte der Fotografin bzw. des Fotografen hinzu, da die Vertragssituation hier in der Vergangenheit nicht immer zu Gunsten der Einrichtungen ausgestaltet war.

Auch im Bereich der digital geborenen Materialien bestehen Grenzen, die in oft unklarer Weise über die normalen zum Beispiel archivalischen Schutzfristen hinausgehen. Das ist spätestens dann der Fall, wenn Bibliotheken und Sammlungen potentiell persönlichkeitsrechtlich relevante Materialien wie Social-Media-Material oder auch Webseiten archivieren. Gerade diese Materialien bieten sich für Analysen mit datenzentrierten Werkzeugen in besonderem Maße an.

Derivative Formate wie die oben aufgeführten Word Embeddings sind seit geraumer Zeit als ein mögliches, urheber- und persönlichkeitsrechtlich weniger bedenkliches Format diskutiert worden, da sie in der Regel die Rekonstruktion der Ausgangstexte nicht zulassen.^[65] Während einige Fächer wie Computational Literary Studies und Computerlinguistik eine solche Lösung als durchaus befriedigend empfinden mögen, birgt die diesem Ansatz innewohnende Dekontextualisierung für die historisch arbeitenden Wissenschaften schwer lösbare Herausforderungen. Die historische Forschung lebt gerade auch von der Frage nach Kontext und Beteiligten eines Sprechakts. Abstrakte Verfahren des Distant Reading werden in der historischen Forschung deshalb oft als Teil einer „Blended“ oder „Scalable Reading“ genannten Vorgehensweise praktiziert, des Springens zwischen Mikro- und Makro-Beobachtungsebene.^[66] Auch die Beweisführung der historischen Argumentation ist vielfach zwingend auf das einzelne Beispiel als Evidenz angewiesen. Derivative Formate, die der historischen Forschung – zumindest da, wo ihre Erkenntnisse primär textbezogen sind, – nutzen sollen, bedürfen daher unbedingt der Wiederauflösbarkeit und Rückverfolgbarkeit. Hier muss die Forschung noch geeignete Modelle entwickeln.

Auch in anderen Bereichen wie den historisch arbeitenden Bildwissenschaften erscheint es schwer denkbar, allein mit derivativen Formaten zu arbeiten. Auch hier steht häufig das einzelne Bild als Erkenntnisgegenstand im Raum, und die Technik des Vergleichs setzt eine Betrachtbarkeit des Vergleichsgegenstands voraus, selbst wenn wie bei Peter Bell und Leonardo Impetts Arbeit zu Posen in Verkündigungsszenen auch Evidenz auf abgeleiteten Repräsentationen aufbaut.^[67]

Wünschenswert erscheint für die Zukunft ein großzügigeres Verständnis von „fair-use“ für akademische und bürgerwissenschaftliche Forschung, so dass zumindest einige Schranken des Urheberrechts verschoben werden können, die immer noch den Zugang zu weiten Teilen der Geschichte des 20. Jahrhunderts begrenzen. In anderen Bereichen – etwa bei potentiell persönlichkeitsrechtlich relevantem Material – ist auch die Forschung bzw. sind die Konsortien der Nationalen Forschungsdateninfrastruktur gefordert, Wege zu entwickeln, wie ein Schutz sensitiver Information und eine potentielle Beteiligung oder Ombudsvertretung betroffener Personen – analog zu den CARE-Prinzipien^[68] – gewährleistet werden kann, ohne zugleich Forschung zu verunmöglichen.

4.2 Arbeitsteilung zwischen Forschung und Infrastruktur

Auf der Ebene der Arbeitspraxis stellt sich schließlich die Frage, wofür in der Partnerschaft aus Infrastruktur und Forschung sich Gedächtnisinstitutionen zuständig fühlen sollen und wollen und wie weit Gedächtniseinrichtungen dann bei der Bereitstellung von annotiertem Ausgangsmaterial für die Forschung gehen sollten. Die Gedächtniseinrichtungen haben nach meinem Dafürhalten ein gehöriges Eigeninteresse daran, aufbereitete, qualitativ hochwertige Metadaten, Digitalisate und derivative Datensets bereitzustellen.

An den großen Initiativen zur Massendigitalisierung ist dabei in jüngerer Zeit zu Recht die Kritik geübt worden, dass die reine Bereitstellung von Digitalisaten noch nicht deren Nutzung bedeutet, was – so die weitere Diagnose – vor allem auf die fehlende Anreicherung der Digitalisate mit ergänzenden Metadaten zurückzuführen sei. Daher liegt es nahe, Verfahren des maschinellen Lernens zur Anreicherung in den bestehenden Informationssystemen zu nutzen^[69] und damit den Kernauftrag der Erschließung und Zugänglichmachung der Gedächtniseinrichtungen unterstützen – denn das Ausmaß von menschlicher Tiefenerschließung wird schon aus arbeitsökonomischen Gründen auf lange Zeit überschaubar bleiben.

Denkbar ist beispielsweise die Anfertigung zusätzlicher Markups zur komplexen Layoutsegmentierung, wie dies vielfach bei Zeitungen schon geschieht. Zusätzlichen Gewinn für die Erschließung versprechen auch hochwertige Verfahren aus dem Bereich der Named Entity Recognition (NER) – wobei hochwertig nicht notwendigerweise bedeutet, dass eine manuelle Endkontrolle aller erkannten Entitäten (neben etablierten Kategorien wie Orten, Personen und Organisationen perspektivisch auch Ereignisse^[70]) erfolgen muss. Vielmehr müssen Gedächtniseinrichtungen Wege entwickeln, um Fehlerraten von Verfahren (OCR, NER) zu bewerten und sinnvolle Baselines für das vereinbart werden, was Forschung und Infrastruktureinrichtungen für tolerable Fehlerraten erachten.^[71] Gleiches lässt sich für die Klassifizierung von Bildmaterial oder die automatisierte Generierung von Bildbeschreibungen sagen. So könnte die automatisierte Identifikation in multimodalen Verbünden (z. B. Bildern und Karten in anderen Druckwerken) oder eine Genreklassifizierung (etwa nach Art der Darstellung) die Auffindbarkeit entsprechender Ressourcen für die Forschung erheblich verbessern.

Helfen können dabei skalierende Datenmodelle, wie die Erfahrung des Deutschen Textarchivs zeigt, das neben einer Reihe von kostenintensiv auf höchstem Niveau annotierten Texten auch ein Basisformat^[72] entwickelt hat, mit dem die verfügbare Textmenge erheblich ausgeweitet werden konnte, ohne dafür die Komplexität des Gesamtdatenmodells zu opfern.

Wenn wir einmal davon absehen, dass bislang die wenigsten Erfassungs- und Katalogsysteme überhaupt in der Lage sind, Informationen abzubilden, die aus den oben beschriebenen Verfahren hervorgehen, liegt die nächste Herausforderung sicherlich darin, die Entstehung und Qualität solcher Anreicherungen standardisiert zu dokumentieren und für Nutzerinnen und Nutzer so auszuweisen, dass diese ein besseres Verständnis für die Verschiedenartigkeit^[73] dieser Informationen entwickeln können. Ein erster Schritt in diese Richtung könnte in einer Verständigung über Datenqualität, Best Practices und deren Repräsentation in existierenden Schemata liegen. Tatsächlich deuten die Arbeitsprogramme der geisteswissenschaftlichen Konsortien in der NFDI darauf hin, dass diese Relevanz auch wahrgenommen wird. So haben einige Initiativen wie die NFDI4Memory und die NFDI4Culture dezidierte Task Areas zum Gegenstand der Datenqualität gebildet, andere wie Text+ weisen diese als querliegende Schwerpunktthemen aus.

4.2.1 Offene Wissenschaft und Nachhaltigkeit in der Datenkultur

Mit der Adaption neuer Verfahren und Workflows in den historischen Fächern wird sich zwangsläufig auch die Wissenschaftskultur ein Stück weit den Erfordernissen und Möglichkeiten, die die neuen Evidenzwege mit sich bringen, anpassen müssen.

Ein erstes und eher unproblematisches Moment dürfte die Anerkennung der unterschiedlichen Beiträge aller beteiligten Personen zu den Produkten dieser Verfahren sein. Auch wenn etwa die Geschichtswissenschaft die große Monografie der forschenden Einzelperson nach wie vor als Königsdisziplin betrachtet, ist es nun nicht eben so, dass gerade in Bereichen wie der Wirtschafts- und Sozialgeschichte nicht schon lange Vorerfahrungen mit kollaborativen Arbeitsweisen bestehen. Interessant wird die Anerkennung der Leistung jedoch,^[74] wenn Datenbestände – und damit auch solche, die in Gedächtniseinrichtungen im Rahmen normaler Bestandserfassung entstehen, – zum signifikanten Bestandteil von Forschungsarbeiten werden, was dann die Frage aufwirft, ob auch die Personen oder Häuser damit eine Mitautorschaft am neuen wissenschaftlichen Produkt erwerben (und wenn ja, wer von beiden?). Mit dem aktuellen Fokus auf das „Upcycling“ von Daten hat die damit verbundene Diskussion gerade erst an Fahrt aufgenommen.^[75]

Ein zweiter und deutlich umfassenderer Transformationsprozess in der Wissenschaft, der ebenfalls unmittelbar auf die Gedächtnisinstitutionen rückwirkt, ist die Transformation hin zu einer offenen und nachhaltigen Datenkultur. Die wenigsten Modelle und Datensets, die für geisteswissenschaftliche Experimente genutzt wurden, stehen heute ohne weiteres für eine Nachnutzung zur Verfügung.

In der reinen Zurverfügungstellung von grunderschlossenem Material allein wird sich die zukünftige Rolle von Gedächtnisinstitutionen in einer offenen Datenkultur möglicherweise nicht erschöpfen. Der oben angedeutete Wandel impliziert, dass seitens der Forschung Datenextrakte (derivative Datenformate, oftmals angereichert und transformiert und damit mehr als nur eine „Kopie“ des Quellenmaterials der Gedächtniseinrichtungen), Workflowbeschreibungen, eventuell Machine-Learning-Modelle, Software oder gar ganze virtuelle Maschinen mit Arbeitsumgebungen, alle Arten von projekt- und verfahrensbezogener Dokumentation und einiges mehr als Forschungsdaten zugänglich gemacht werden. Während in den Natur- und Sozialwissenschaften oftmals vor allem die Frage der Reproduzierbarkeit bzw. Replizierbarkeit von Experimenten im Vordergrund steht (Stichwort Replikationskrise), ist es in den Geisteswissenschaften eher die enorme Arbeit, die in digitalen Surrogaten und Informationsbeständen steckt und die nicht verloren gehen sollte.^[76] Der gesamte Bereich des Forschungsdatenmanagements entwickelt sich auch deshalb gerade hochdynamisch. Hochschulen haben in vielen Fällen nicht die Kapazitäten und die Erfahrung, um solche Daten langfristig vorzuhalten, weshalb fachspezifische Repositorien ein naheliegender Ort für Forschungsdatenpublikationen sind. Nicht nur, dass Gedächtniseinrichtungen zusammen mit Forschungsinstituten und Akademien hier als Betreiber auftreten können – für sie stellt sich zudem die Frage, ob sie solche Datenpublikationen nicht aus ihren Erfassungssystemen heraus referenzieren möchten. Auch hier sind die Bibliotheken in einer vergleichsweise komfortablen Ausgangslage, da die meisten Forschungsdatenpublikationen über Systeme publiziert werden, die bibliothekarische Metadatenstandards unterstützen.

5 Zusammenfassend

Für die Gedächtniseinrichtungen eröffnet der Digital Turn in zahlreichen Wissenschaften neue Möglichkeiten, aber auch neue Herausforderungen. Insbesondere im Bereich der Datenkompetenz zeichnet sich eine Konvergenz von Anforderungen über die historischen Fächer und die verschiedenen Gedächtniseinrichtungen hinweg ab, die sich leicht als ähnlich transformativ erweisen könnte, wie die großen Umbrüche des 18 Jahrhunderts, die letztlich Bibliotheken und Archive in ihrer modernen Form mit hervorgebracht haben. Forschung und Kuration verschränken sich dabei und in den Gedächtniseinrichtungen entstehen Tätigkeitsfelder, die starke Bezüge und Parallelen zum wissenschaftlichen Arbeiten aufweisen. Während von der Forschung in wachsendem Maße ein Zugang zu Kulturdaten über standardisierte Schnittstellen und offene Formate angefragt wird, stellt sich für die Gedächtniseinrichtungen die Frage, wie sie diesen Bedarfen sinnvoll – und das heißt vor allem auch nachhaltig – nachkommen können. Dieser Beitrag hat dafür argumentiert, dass Gedächtniseinrichtungen vor allem in die Breite gehen, Massendigitalisierung mit flachen Auszeichnungsschemata und reichen Metadaten sowie hoher Datenqualität zur Verfügung stellen, die eine kritische Einordnung des Bereitgestellten und damit eine Abschätzung möglicher Bias erlauben. Von diesem Vorgehen können nicht allein datenzentriert arbeitende, sondern auch alle primär hermeneutisch arbeitenden Forscherinnen und Forscher profitieren. Für die Gedächtniseinrichtungen eröffnet dies nicht nur Vorteile im Sinn der Weiterentwicklung der Beziehung zu ihren Nutzerinnen und Nutzern. Vielmehr gewinnen sie etwa bei der Erstellung derivativer Datensammlungen Mitautorschaft, die sich im entsprechenden Referenzieren niederschlagen muss und werden so auf neue Weise in den Forschungskosmos eingebunden.

About the author

Dr. Simon Donig

Literaturverzeichnis

Aiden, Erez; Michel, Jean-Baptiste (2013): Uncharted: Big Data as a Lens on Human Culture. 1st edition. New York: Riverhead Books.Search in Google Scholar

Alamercery, Vincent; Beretta, Francesco; Bruseker, George; Doerr, Martin; Sanderson, Robert; Velios, Athanasios (2019): Definition of the CRMsoc. An Extension of CIDOC CRM to support social documentation. Proposal for approval by CIDOC CRM – SIG. Verfügbar unter https://cidoc-crm.org/sites/default/files/CRMsoc_20190326.pdf.Search in Google Scholar

Alex, Heidrun (2018): Die Dewey-Dezimalklassifikation (DDC). In: Klassifikationen in Bibliotheken, hg. von Heidrun Alex, Guido Bee und Ulrike Junger, 65–110. Berlin, Boston: De Gruyter. DOI:10.1515/9783110299250-003.Search in Google Scholar

Altenhöner, Reinhard (2022): Studium und Ausbildung als Projekt: Zur Zukunft des bibliothekarischen Berufsfeldes. In: BIBLIOTHEK – Forschung und Praxis, 46 (3), 479–86. DOI:10.1515/bfp-2022-0054.Search in Google Scholar

Althage, Melanie (2022): Potenziale und Grenzen der Topic-Modellierung mit Latent Dirichlet Allocation für die Digital History. In: Digital History, hg. von Karoline Dominika Döring, Stefan Haas, Mareike König und Jörg Wettlaufer, 255–78. Berlin, Boston: De Gruyter. DOI:10.1515/9783110757101-014.Search in Google Scholar

Ames, Sarah (2021): Transparency, provenance and collections as data: The National Library of Scotland’s Data Foundry. In: LIBER Quarterly: The Journal of the Association of European Research Libraries, 31 (1), 1–13. DOI:10.18352/lq.10371.Search in Google Scholar

Arnold, Taylor; Tilton, Lauren (2019): Distant viewing: analyzing large visual corpora. In: Digital Scholarship in the Humanities, (3). DOI:10.1093/llc/fqz013.Search in Google Scholar

Assmann, Aleida (2017): Das kulturelle Gedächtnis zwischen materiellem Speicher und digitaler Diffusion. In: Bibliothek und Wissenschaft, 50, 1–18.Search in Google Scholar

Baierer, Konstantin; Boenig, Matthias; Engl, Elisabeth; Neudecker, Clemens et al. (2020): OCR-D kompakt: Ergebnisse und Stand der Forschung in der Förderinitiative. DOI:10.18452/21548.Search in Google Scholar

Barredo Arrieta, Alejandro; Díaz-Rodríguez, Natalia; Del Ser, Javier; Bennetot, Adrien et al. (2020): Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI. In: Information Fusion, (58), 82–115. DOI:10.1016/j.inffus.2019.12.012.Search in Google Scholar

Bassett, Caroline; Berry, David M; Fazi, M Beatrice; Pay, Jack; Roberts, Ben (2017): Critical Digital Humanities and Machine Learning. In: Digital Humanities 2017. Montréal, Canada: ADHO (ADHO (12). Verfügbar unter https://dh2017.adho.org/abstracts/509/509.pdf.Search in Google Scholar

BBC New Team (2015): Google apologises for Photos app’s racist blunder. In: BBC News, 1. Juli 2015, Abschn. Technology. Verfügbar unter https://web.archive.org/web/20150701222251/http://www.bbc.com/news/technology-33347866, zugegriffen am 21.05.2023.Search in Google Scholar

Beelen, Kaspar; Chambers, Sally; Düring, Marten; Hollink, Laura et al. (2023): Fairness and Transparency throughout a Digital Humanities Workflow: Challenges and Recommendations. In: Computational Approaches to Digitised Historical Newspapers – Report from Dagstuhl Seminar 22 292, hg. von Maud Ehrmann, Marten Düring, Clemens Neudecker und Antoine Doucet, 12 (7), 144–74. Schloss Dagstuhl: Schloss Dagstuhl – Leibniz-Zentrum für Informatik (Dagstuhl Reports). DOI:10.4230/DagRep.12.7.112.Search in Google Scholar

Beelen, Kaspar; Lawrence, Jon; Wilson, Daniel C. S.; Beavan, David (2022): Bias and representativeness in digitized newspaper collections: Introducing the environmental scan. In: Digital Scholarship in the Humanities, 38 (1), 1–22. DOI:10.1093/llc/fqac037.Search in Google Scholar

Bell, Peter; Impett, Leonardo (2019): Ikonographie und Interaktion. Computergestützte Analyse von Posen in Bildern der Heilsgeschichte. In: Das Mittelalter, 24 (1), 31–53. DOI:10.1515/mial-2019-0004.Search in Google Scholar

Bell, Peter; Ommer, Björn (2018): Computer Vision und Kunstgeschichte – Dialog zweier Bildwissenschaften: Computer Vision, automatisches Sehen, Bildverarbeitung, Image Processing, Erschließung, Annotation, Bildverstehen, Bildwissenschaft, Machine Learning. In: Computing Art Reader, hg. von Piotr Kuroczyński, Peter Bell und Lisa Diekman. Heidelberg: University Library Heidelberg. Verfügbar unter https://books.ub.uni-heidelberg.de/index.php/arthistoricum/catalog/book/413/c5769, zugegriffen am 27.05.2020.Search in Google Scholar

Berry, David M.; Fagerjord, Anders (2017): Digital Humanities: Knowledge and Critique in a Digital Age. Cambridge, Malden, MA: John Wiley & Sons.Search in Google Scholar

Berry, David Michael (2020): The explainability turn: Critical digital humanities and explanation. In: 15th annual international conference of the Alliance of Digital Humanities Organizations, DH 2020, Ottawa, Canada, July 20–25, 2020, conference abstracts, hg. von Laura Estill und Jennifer Guiliano. Verfügbar unter https://dh2020.adho.org/wp-content/uploads/2020/07/603_TheExplainabilityTurnCriticalDigitalHumanitiesandExplanation.html.Search in Google Scholar

Bischoff, Frank M.; Patel, Kiran Klaus (2020): Was auf dem Spiel steht. Über den Preis des Schweigens zwischen Geschichtswissenschaft und Archiven im digitalen Zeitalter. In: Zeithistorische Forschungen, (1), 145–56. DOI:10.14765/ZZF.DOK-1766.Search in Google Scholar

Borek, Luise; Dombrowski, Quinn; Perkins, Jody; Schöch, Christof (2016): TaDiRAH: a Case Study in Pragmatic Classification. In: Digital Humanities Quarterly, 10 (1).Search in Google Scholar

Boros, Emanuela; Cabrera-Diego, Luis Adrián; Doucet, Antoine (2022): Experimenting with Unsupervised Multilingual Event Detection in Historical Newspapers. In: From Born-Physical to Born-Virtual: Augmenting Intelligence in Digital Libraries, hg. von Yuen-Hsien Tseng, Marie Katsurai und Hoa N. Nguyen, 182–93. Cham: Springer International Publishing (Lecture Notes in Computer Science). DOI:10.1007/978-3-031-21756-2_15.Search in Google Scholar

Brookes, Gavin; McEnery, Tony (2019): The utility of topic modelling for discourse studies: A critical evaluation. In: Discourse Studies, 21 (1), 3–21. DOI:10.1177/1461445618814032.Search in Google Scholar

Browndorf, Megan; Pappas, Erin; Arays, Anna (2021): The collector and the collected decolonizing area studies librarianship. Sacramento, CA: Library Juice Press.Search in Google Scholar

Budroni, Paolo; Claude-Burgelman, Jean; Schouppe, Michel (2019): Architectures of Knowledge: The European Open Science Cloud. In: ABI-Technik, 39 (2), 130–41. DOI:10.1515/abitech-2019-2006.Search in Google Scholar

Bundesbeauftragte für Kultur und Medien (2021): Kulturen im digitalen Wandel – Perspektiven des Bundes für Vermittlung, Vernetzung und Verständigung. Berlin: Die Beauftragte der Bundesregierung für Kultur und Medien (BKM). Verfügbar unter https://www.bundesregierung.de/resource/blob/974430/1951046/a208dc4a4f80d5a78029eeb78198bc91/2021-08-16-bkm-kulturen-im-digitalen-wandel-data.pdf.Search in Google Scholar

Burckhardt, Daniel; Geyken, Alexander; Saupe, Achim; Werneke, Thomas (2019): Distant Reading in der Zeitgeschichte. Möglichkeiten und Grenzen einer computergestützten Historischen Semantik am Beispiel der DDR-Presse. In: Zeithistorische Forschungen/Studies in Contemporary History, 16 (1), 177–96. DOI:10.14765/ZZF.DOK-1345.Search in Google Scholar

Busa, Roberto (1980): The annals of humanities computing: The Index Thomisticus. In: Computers and the Humanities, 14 (2), 83–90. DOI:10.1007/BF02403798.Search in Google Scholar

bw2FDM (2022): NFDI-Konsortien | Geisteswissenschaften | Wissenschaftsbereiche | Forschungsdaten und Forschungsdatenmanagement. Verfügbar unter https://forschungsdaten.info/wissenschaftsbereiche/geisteswissenschaften/nfdi-konsortien/, zugegriffen am 11.05.2023.Search in Google Scholar

Carroll, Stephanie Russo; Garba, Ibrahim; Figueroa-Rodríguez, Oscar L.; Holbrook, Jarita; Lovett, Raymond; Materechera, Simeon; Parsons, Mark; et al. (2020): The CARE Principles for Indigenous Data Governance. In: Data Science Journal, 19 (43), 1–12. DOI:10.5334/dsj-2020-043.Search in Google Scholar

Ceynowa, Klaus (2018): Research Library Reloaded? Überlegungen zur Zukunft der geisteswissenschaftlichen Forschungsbibliothek. In: Zeitschrift für Bibliothekswesen und Bibliographie, 65 (1), 3–7. DOI:10.3196/186429501865112.Search in Google Scholar

Chander, Anupam (2017): The Racist Algorithm? In: Michigan Law Review, 115 (6), 1023–45.Search in Google Scholar

CRediT Team (2023): CRediT (Contributor Roles Taxonomy). Verfügbar unter https://credit.niso.org/, zugegriffen am 30.05.2023.Search in Google Scholar

Dalbello, Marija (2004): Institutional Shaping of Cultural Memory: Digital Library as Environment for Textual Transmission1. In: The Library, 74 (3). Verfügbar unter http://www.jstor.org/stable/10.1086/422774, zugegriffen am 25.02.2014.Search in Google Scholar

Deutsche Forschungsgemeinschaft (2020): Digitaler Wandel in den Wissenschaften. Impulspapier. Zenodo. DOI:10.5281/zenodo.4191345.Search in Google Scholar

Donig, Simon; Christoforaki, Maria; Bermeitinger, Bernhard; Handschuh, Siegfried (2020): Towards a Classification of Neoclassical Objects in Interior Scenes. In: Bilddaten in den digitalen Geisteswissenschaften, hg. von Canan Hastik und Philipp Hegel, 150–67. Wiesbaden: Harrassowitz (Episteme).Search in Google Scholar

Donig, Simon; Eckl, Markus; Gassner, Sebastian; Rehbein, Malte (2023): Web archive analytics: Blind spots and silences in distant readings of the archived web. In: Digital Scholarship in the Humanities, (4), 1–16. DOI:10.1093/llc/fqad014.Search in Google Scholar

Donig, Simon; Rehbein, Malte (2022): Für eine „gemeinsame digitale Zukunft“: Eine kritische Verortung der Digital History. In: Geschichte in Wissenschaft und Unterricht, 73 (9/10), 527–45.Search in Google Scholar

Drucker, Johanna (2011): Humanities approaches to graphical display. In: Digital Humanities Quarterly, 5 (1), 1–21.Search in Google Scholar

Drucker, Johanna (2013): Is There a “Digital” Art History? In: Visual Resources, 29 (1/2), 5–13. DOI:10.1080/01973762.2013.761106.Search in Google Scholar

Drucker, Johanna (2020): Visualization and interpretation. Cambridge, Ma., London: MIT Press.Search in Google Scholar

Drucker, Johanna; Helmreich, Anne; Lincoln, Matthew; Rose, Francesca (2015): Digital art history: the American scene. In: Perspective. Actualité en histoire de l’art (2 Dezember). DOI:10.4000/perspective.6021.Search in Google Scholar

Düring, Marten (2015): Verdeckte soziale Netzwerke im Nationalsozialismus: Die Entstehung und Arbeitsweise von Berliner Hilfsnetzwerken für verfolgte Juden. Berlin: De Gruyter.Search in Google Scholar

Düring, Marten; Eumann, Ulrich; Stark, Martin; Keyserlingk-Rehbein, Linda von (Hrsg.) (2016): Handbuch historische Netzwerkforschung – Grundlagen und Anwendungen. Berlin u. a.: LIT-Verlag (Schriften des Kulturwissenschaftlichen Instituts Essen (KWI) zur Methodenforschung: 1).Search in Google Scholar

Engl, Elisabeth (2020): OCR-D kompakt: Ergebnisse und Stand der Forschung in der Förderinitiative. In: BIBLIOTHEK – Forschung und Praxis, 44 (2), 218–30. DOI:10.1515/bfp-2020-0024.Search in Google Scholar

European Commission (2021): Commission recommendation (EU) 2021/1970 of 10 November 2021 on a common European data space for cultural heritage. Verfügbar unter https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32021H1970&from=EN.Search in Google Scholar

Fickers, Andreas; Clavert, Frédéric (2021): On pyramids, prisms, and scalable reading. In: Journal of Digital history, (Oktober). Verfügbar unter https://journalofdigitalhistory.org/en/article/jXupS3QAeNgb, zugegriffen am 28.04.2023.Search in Google Scholar

Fickers, Andreas; Tatarinov, Juliane; Heijden, Tim van der (2022): Digital history and hermeneutics – between theory and practice: An introduction. Digital History and Hermeneutics. Berlin: De Gruyter Oldenbourg. Verfügbar unter https://www.degruyter.com/document/doi/10.1515/9783110723991-001/html, zugegriffen am 24.06.2022.Search in Google Scholar

Förschler, Silke; Mariss, Anne (2017): Akteure, Tiere, Dinge: Verfahrensweisen der Naturgeschichte in der Frühen Neuzeit. Köln, Weimar: Böhlau.Search in Google Scholar

Freese, Jeremy; Peterson, David (2017): Replication in Social Science. In: Annual Review of Sociology, 43 (1), 147–65. DOI:10.1146/annurev-soc-060116-053450.Search in Google Scholar

Garg, Nikhil; Schiebinger, Londa; Jurafsky, Dan; Zou, James (2018): Word embeddings quantify 100 years of gender and ethnic stereotypes. In: Proceedings of the National Academy of Sciences of the United States of America, 115 (16), E3635–44. DOI:10.1073/pnas.1720347115.Search in Google Scholar

Gazetteer Research Project (2023): Gazetteers.net. Verfügbar unter https://gazetteers.net/, zugegriffen am 20.05.2023.Search in Google Scholar

Geovistory Team (2022): Geovistory. Verfügbar unter https://www.geovistory.org/, zugegriffen am 20.05.2023.Search in Google Scholar

GO FAIR initiative (2022): GO FAIR initiative: Make your data & services FAIR. GO FAIR. Verfügbar unter https://www.go-fair.org/, zugegriffen am 20.05.2023.Search in Google Scholar

Goldberg, Jan Michael; Moeller, Katrin (2022): Automatisierte Identifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften, (7). DOI:10.17175/2022_002.Search in Google Scholar

Gregory, Ian N.; Kemp, Karen K.; Mostern, Ruth (2001): Geographical information and historical research: current progress and future directions. In: History and Computing, 13 (1), 7–23. DOI:10.3366/hac.2001.13.1.7.Search in Google Scholar

Haaf, Susanne; Geyken, Alexander; Wiegand, Frank (2014): The DTA “Base Format”: A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sources. In: Journal of the Text Encoding Initiative, (8), 1–36. DOI:10.4000/jtei.1114.Search in Google Scholar

Harpring, Patricia (2022): Getty Vocabularies: Issues Surrounding Diversity and Inclusion. Vortrag, Los Angeles, CA, 2022. Verfügbar unter https://www.getty.edu/research/tools/vocabularies/Vocabs_unbiased_terminology.pdf, zugegriffen am 12.09.2022.Search in Google Scholar

Herlihy, David; Klapisch-Zuber, Christiane; Litchfield, R. Burr; Molho, Anthony (2002): Online Catasto of 1427. [Machine Readable Data File Based on D. Herlihy and C. Klapisch-Zuber, Census and Property Survey of Florentine Domains in the Province of Tuscany, 1427–1480]. Florentine Renaissance Resources. Verfügbar unter https://cds.library.brown.edu/projects/catasto/overview.html.Search in Google Scholar

Herndon, Joel (Hrsg.) (2022): Data Science in the Library: Tools and Strategies for Supporting Data-Driven Research and Instruction. 1. Aufl. Cambridge: Cambridge University Press. DOI:10.29085/9781783304615.Search in Google Scholar

Hodel, Tobias (2022): Die Maschine und die Geschichtswissenschaft: Der Einfluss von deep learning auf eine Disziplin. In: Digital History, hg. von Karoline Dominika Döring, Stefan Haas, Mareike König und Jörg Wettlaufer, 65–80. Berlin, Boston: De Gruyter. DOI:10.1515/9783110757101-004.Search in Google Scholar

Holzer, Boris (Hrsg.) (2019): Schlüsselwerke der Netzwerkforschung. Wiesbaden: Springer VS (Netzwerkforschung).Search in Google Scholar

Horstkemper, Gregor (2008): Informationsbündelung, Literaturversorgung, Publikationsunterstützung – bibliothekarische Dienstleistungen für die Geschichtswissenschaften im Umbruch. In: Information – Innovation – Inspiration, 437–56. DOI:10.1515/9783598440892.6.437.Search in Google Scholar

Hosseini, Mohammad; Gordijn, Bert; Wafford, Q. Eileen; Holmes, Kristi L. (2023): A systematic scoping review of the ethics of Contributor Role Ontologies and Taxonomies. In: Accountability in Research, 1–28. DOI:10.1080/08989621.2022.2161049.Search in Google Scholar

Hughes, Lorna; Constantopoulos, Panos; Dallas, Costis (2015): Digital Methods in the Humanities: Understanding and Describing their Use across the Disciplines. In: A New Companion to Digital Humanities, 150–70. London: Wiley-Blackwell. DOI:10.1002/9781118680605.ch11.Search in Google Scholar

Huijnen, Pim; Huistra, Pieter (2022): On the Use of Replications in History. Zenodo. DOI:10.5281/zenodo.7037401.Search in Google Scholar

Hutson, Matthew (2018): Artificial intelligence faces reproducibility crisis. In: Science, 359 (6377), 725–26. DOI:10.1126/science.359.6377.725.Search in Google Scholar

Ide, Nancy M.; Sperberg-McQueen, C. M. (1995): The TEI: History, Goals, and Future. In: Text Encoding Initiative: Background and Context, hg. von Nancy Ide und Jean Véronis, 5–15. Dordrecht: Springer Netherlands. DOI:10.1007/978-94-011-0325-1_2.Search in Google Scholar

IISH/Antenna (2020): History of Work Information System – HISCO Tree Of Occupational Groups. History Of Work Information System. Verfügbar unter https://historyofwork.iisg.nl/major.php, zugegriffen am 21.07.2020.Search in Google Scholar

Iliadis, Andrew; Russo, Federica (2016): Critical data studies: An introduction. In: Big Data & Society, 3 (2), 1–7. DOI:10.1177/2053951716674238.Search in Google Scholar

Jansen, Dorothea (2006): Einführung in die Netzwerkanalyse: Grundlagen, Methoden, Forschungsbeispiele. 3., überarb. Aufl. Wiesbaden: VS.Search in Google Scholar

Jockers, Matthew Lee (2013): Macroanalysis: Digital Methods and Literary History. Urbana: University of Illinois Press.Search in Google Scholar

Jones, Steven E. (2016): Roberto Busa, S.J., and the Emergence of Humanities Computing: The Priest and the Punched Cards. 1. Aufl. London: Routledge. DOI:10.4324/9781315643618.Search in Google Scholar

Kerschbaumer, Florian; Keyserlingk-Rehbein, Linda von; Stark, Martin; Düring, Marten (Hrsg.) (2020): The power of networks: prospects of historical network research. Abingdon, Oxon, New York, NY: Routledge.Search in Google Scholar

Klaproth, Frank (2022): Digitalisierung und Digitale Bibliotheken – 25 Jahre Digitalisierung im Kontext der Deutschen Universitätsbibliotheken. In: BIBLIOTHEK – Forschung und Praxis, 46 (2), 289–93. DOI:10.1515/bfp-2022-0014.Search in Google Scholar

Knowles, Anne Kelly (2000): Introduction. In: Social Science History, 24 (3), 451–70. DOI:10.1017/S0145553200010269.Search in Google Scholar

Kohle, Hubertus (2013): Digitale Bildwissenschaft. Boizenberg: Hülsbusch (E-Humanities).Search in Google Scholar

Krajewski, Markus (2020): Wie ordnet sich Habsburg? Stillstellung und Beweglichkeit um 1780. In: Schöne Wissenschaften – Sammeln, Ordnen und Präsentieren im josephinischen Wien, hg. von Nora Fischer und Anna Mader-Kratky, 169–81. Wien: Akademie der Wissenschaften.Search in Google Scholar

Lange, Milan van; Futselaar, Ralf (2019): Debating Evil: Using Word Embeddings to Analyse Parliamentary Debates on War Criminals in the Netherlands. In: Contributions to Contemporary History, 59 (1), 147–53.Search in Google Scholar

Lauer, Gerhard (2021): Gelehrte Forschungspraxis und digitale Bibliothek. In: 027.7 Zeitschrift für Bibliothekskultur/Journal for Library Culture, 8 (1). DOI:10.21428/1bfadeb6.aa98ba23.Search in Google Scholar

Le Roy Ladurie, Emmanuel (1968): La fin des érudits. L’historien de demain sera programmeur ou il ne sera pas. In: Le Nouvel Observateur, 38–39.Search in Google Scholar

Liu, Allan (2012): Where is Cultural Criticism in the Digital Humanities? In: Debates in the digital humanities, hg. von Matthew K Gold, 490–509. Minneapolis u. a.: University of Minnesota Press. Verfügbar unter http://dhdebates.gc.cuny.edu/debates/text/20.Search in Google Scholar

Mac, Ryan (2021): Facebook Apologizes After A.I. Puts ‘Primates’ Label on Video of Black Men. In: The New York Times, 3. September 2021, Abschn. Technology. Verfügbar unter https://web.archive.org/web/20210903233506/https://www.nytimes.com/2021/09/03/technology/facebook-ai-race-primates.html, zugegriffen am 21.05.2023.Search in Google Scholar

Manovich, Lev (2009): Cultural analytics: visualising cultural patterns in the era of “more media”. In: Domus March. Verfügbar unter http://manovich.net/content/04-projects/063-cultural-analytics-visualizing-cultural-patterns/60_article_2009.pdf, zugegriffen am 22.06.2017.Search in Google Scholar

McCarty, Willard; Short, Harold (2002): Mapping the field. Pisa. Verfügbar unter https://web.archive.org/web/20101204071932/http://www.allc.org/content/pubs/map.html, zugegriffen am 27.02.2023.Search in Google Scholar

Michel, Jean-Baptiste; Shen, Yuan Kui; Aiden, Aviva Presser; Veres, Adrian et al. (2011): Quantitative Analysis of Culture Using Millions of Digitized Books. In: Science, 331 (6014), 176–82. DOI:10.1126/science.1199644.Search in Google Scholar

Midjourney Team (2023): Midjourney. Midjourney.com. Verfügbar unter https://www.midjourney.com/home/, zugegriffen am 02.05.2023.Search in Google Scholar

Miller, Persephone (2021): An Ethic of Care: Interrogating the Need for Care in the Archives. In: The iJournal: Graduate Student Journal of the Faculty of Information, 6 (2), 1–6. DOI:10.33137/ijournal.v6i2.36454.Search in Google Scholar

Moretti, Franco (2005): Graphs, Maps, Trees: Abstract Models for a Literary History. London: Verso.Search in Google Scholar

Moretti, Franco (2013a): Conjectures on world literature [2000]. In: Distant Reading, 43–62. New York, London: Verso.Search in Google Scholar

Moretti, Franco (2013b): Style, Inc.: Reflections on 7,000 Titles (British Novels, 1740–1850) [2009]. In: Distant Reading, 179–211. New York, London: Verso.Search in Google Scholar

Murakami, Akira; Thompson, Paul; Hunston, Susan; Vajn, Dominik (2017): ‘What is this corpus about?’: using topic modelling to explore a specialised corpus. In: Corpora, 12 (2), 243–77. DOI:10.3366/cor.2017.0118.Search in Google Scholar

Nasarek, Robert (2020): Virtuelle Forschungsumgebungen und Sammlungsräume: Objekte digital modellieren und miteinander vernetzen. In: Digitale Gesellschaft, hg. von Udo Andraschke und Sarah Wagner, 33: 131–46. Bielefeld: transcript. DOI:10.14361/9783839455715-010.Search in Google Scholar

Newman, Mark E. J. (2010): Networks: an introduction. Oxford, New York: Oxford University Press.Search in Google Scholar

NFDI e.V. (2022): NFDI | Nationale Forschungsdateninfrastruktur e. V. Verfügbar unter https://www.nfdi.de/, zugegriffen am 11.05.2023.Search in Google Scholar

OpenAI (2022): Introducing ChatGPT. OpenAI. Verfügbar unter https://openai.com/blog/chatgpt, veröffentlicht am 30.11.2022, zugegriffen am 02.05.2023.Search in Google Scholar

Ourednik, André; Koller, Guido; Fleer, Peter; Nellen, Stefan (2018): Feeling like a State. The Sentiments Tide of Swiss Diplomacy through the Eye of the Algorithm. In: Administory, 3 (1), 112–46. DOI:10.2478/ADHI-2018-0044.Search in Google Scholar

Präsident der Leibniz-Gemeinschaft (Hrsg.) (2021): Karrieremodelle in den Forschungsinfrastrukturen. Leibniz Geschäftsstelle. Verfügbar unter https://www.leibniz-gemeinschaft.de/fileadmin/user_upload/Bilder_und_Downloads/%C3%9Cber_uns/Karriere/Karrieremodelle_Forschungsinfrastrukturen.pdf.Search in Google Scholar

Rehbein, Malte (2018): „L‘historien de demain sera programmeur ou il ne sera pas.“ (Digitale) Geschichtswissenschaften heute und morgen. In: Digital Classics Online, 23–43. DOI:10.11588/dco.2017.0.48491.Search in Google Scholar

Rehbein, Malte (2020): Über Historik im Digitalen. In: Geisteswissenschaft – was bleibt? Zwischen Theorie, Tradition und Transformation, hg. von Hans Joas und Jörg Noller, 183–223. Freiburg, München: Alber (Geist und Geisteswissenschaft).Search in Google Scholar

Reiche, Ruth; Becker, Rainer; Bender, Michael; Munson, Matthew; Schmunck, Stefan; Schöch, Christof (2014): Verfahren der Digital Humanities in den Geistes- und Kulturwissenschaften. Göttingen: Niedersächsische Staats- und Universitätsbibliothek Göttingen. Verfügbar unter http://nbn-resolving.de/urn:nbn:de:gbv:7-dariah-2014-2-6.Search in Google Scholar

Reinhard, Wolfgang (1979): Freunde und Kreaturen: „Verflechtung“ als Konzept zur Erforschung historischer Führungsgruppen. Römische Oligarchie um 1600. München: E. Vögel (Schriften der Philosophischen Fachbereiche der Universität Augsburg: 14).Search in Google Scholar

Rosnay, Joël de (2000): The Symbiotic man – a new understanding of the organization of life and a vision of the future. New York: McGraw-Hill.Search in Google Scholar

Schäfer, Mirko Tobias; van Es, Karin (Hrsg.) (2017): The Datafied Society. Studying Culture through Data. Amsterdam: Amsterdam University Press. DOI:10.5117/9789462981362.Search in Google Scholar

Scheltjens, Werner (2023): Upcycling historical data collections. A paradigm for digital history? In: Journal of Documentation. DOI:10.1108/JD-12-2022-0271.Search in Google Scholar

Schöch, Christof; Döhl, Frédéric; Rettinger, Achim; Gius, Evelyn; Trilcke, Peer; Leinen, Peter; Jannidis, Fotis; Hinzmann, Maria; Röpke, Jörg (2020): Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten Textbeständen. Html, PDF, Xml. DOI:10.17175/2020_006.Search in Google Scholar

Sperberg-McQueen, C. M. (2015): Classification and its Structures. In: A New Companion to Digital Humanities, hg. von Susan Schreibman, Ray Siemens und John Unsworth, 377–93. Chichester: Wiley & Sons. DOI:10.1002/9781118680605.ch26.Search in Google Scholar

Sprugnoli, Rachele; Tonelli, Sara; Marchetti, Alessandro; Moretti, Giovanni (2016): Towards sentiment analysis for historical texts. In: Digital Scholarship in the Humanities, 31 (4), 762–72. DOI:10.1093/llc/fqv027.Search in Google Scholar

Stulpe, Alexander; Lemke, Matthias (2016): Blended Reading. In: Text Mining in den Sozialwissenschaften, hg. von Matthias Lemke und Gregor Wiedemann, 17–61. Wiesbaden: Springer Fachmedien Wiesbaden. DOI:10.1007/978-3-658-07224-7_2.Search in Google Scholar

Thaller, Manfred (1981): Historical Software (1): Introduction. In: Historical Social Research/Historische Sozialforschung, 6 (3), 75–82.Search in Google Scholar

Thylstrup, Nanna Bonde (2018): The politics of mass digitization. Cambridge, Mass.: MIT Press.Search in Google Scholar

Tilly, Charles (1973): Computers in historical analysis. In: Computers and the Humanities, 7 (6), 323–35. DOI:10.1007/BF02395106.Search in Google Scholar

Unsworth, John (2000): Scholarly Primitives: what methods do humanities researchers have in common, and how might our tools reflect this? Gehalten auf Humanities Computing: formal methods, experimental practice, King’s College, London, 13.05.2000. Verfügbar unter http://www.people.virginia.edu/~jmu2m/Kings.5-00/primitives.html, zugegriffen am 15.11.2018.Search in Google Scholar

Viola, Lorella (2023): The Humanities in the Digital: Beyond Critical Digital Humanities. Cham: Springer International Publishing. DOI:10.1007/978-3-031-16950-2.Search in Google Scholar

Waal, Henri van de (1973–1985): Iconclass – an iconographic classification system. Amsterdam, Oxford, New York: North-Holland Publishing Company.Search in Google Scholar

Wetherell, Charles (1998): Historical Social Network Analysis. In: International Review of Social History, 43 (S6), 125–44. DOI:10.1017/S0020859000115123.Search in Google Scholar

Wevers, Melvin; Koolen, Marijn (2020): Digital begriffsgeschichte: Tracing semantic change using word embeddings. In: Historical Methods: A Journal of Quantitative and Interdisciplinary History, 53 (4), 1–18. DOI:10.1080/01615440.2020.1760157.Search in Google Scholar

Wevers, Melvin; Smits, Thomas (2019): The visual digital turn: Using neural networks to study historical images. In: Digital Scholarship in the Humanities, 35 (1), 194–207. DOI:10.1093/llc/fqy085.Search in Google Scholar

Wilkinson, Mark D.; Dumontier, Michel; Aalbersberg, IJsbrand Jan; Appleton, Gabrielle; Axton, Myles; Baak, Arie; Blomberg, Niklas; et al. (2016): The FAIR Guiding Principles for scientific data management and stewardship. In: Scientific Data, 3 (1), 160018. DOI:10.1038/sdata.2016.18.Search in Google Scholar

Yang, Kaiyu (2019): Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy. Imagenet. Verfügbar unter http://image-net.org/update-sep-17-2019, veröffentlicht am 17.09.2019.Search in Google Scholar

Zhang, Maggie (2015): Google Photos Tags Two African Americans as Gorillas Through Facial Recognition Software. In: Forbes, 1. Juli 2015. Verfügbar unter https://web.archive.org/web/20150702044556/https://www.forbes.com/sites/mzhang/2015/07/01/google-photos-tags-two-african-americans-as-gorillas-through-facial-recognition-software/, zugegriffen am 21.05.2023.Search in Google Scholar

Zorich, Diane M.; Waibel, Günter; Ricky Erway (2008): Beyond the Silos of the LAMs: Collaboration among Libraries, Archives and Museums. Dublin, OH, USA: OCLC-Research. Verfügbar unter DOI:10.25333/x187-3w53.Search in Google Scholar

Published Online: 2023-11-09

Published in Print: 2023-11-28

Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Articles in the same Issue

https://doi.org/10.1515/bfp-2023-0046

Keywords for this article

Research library; memory institution; data-driven research; machine learning; artificial intelligence; historical studies

Creative Commons

BY 4.0