Zusammenfassung
Künstliche Intelligenz sieht Muster, die dem Menschen verborgen bleiben, und die Beschäftigung damit fasziniert ihn. Der Artikel untersucht, in welchem Maß diese Mustererkennung auf die Literatursuche umgesetzt werden kann. Für ein allgemeines Verständnis wird der Fokus auf die technisch-mathematischen Grundlagen gelegt, aus denen sich wichtige Überlegungen für die Recherche ableiten lassen. Es wird gezeigt, dass sich Large Language Models für eine direkte Literatursuche nicht eignen, diese aber indirekt unterstützen können. Auf Grundlage eines veröffentlichten systematischen Reviews wird versucht, einen Vergleich zwischen KI-basierter Suche und menschlich optimierter Suchanfrage herauszuarbeiten. Dabei zeigt sich, dass der Einsatz Künstlicher Intelligenz wenig zweckmäßig ist, um hierüber allein eine erschöpfende Literaturrecherche durchzuführen. KI kann jedoch produktiv eingesetzt werden zur Unterstützung des eigentlichen Rechercheprozesses. Gleichwohl gibt es limitierende Faktoren, bei deren Vermittlung den Bibliotheken eine wichtige Rolle zukommt.
Abstract
Artificial intelligence is trained to see patterns that humans can overlook. The article examines to what extent this advantage can be adopted in literature searches. The paper starts by exploring the technical and mathematical background to provide a general understanding, from which necessary implications for the search are deduced. It is shown that large language models are not suitable for a direct literature search but can support it indirectly. Based on a published systematic review, an attempt is made to compare AI-based searches with human-optimized search queries. This shows that artificial intelligence is of little use in conducting an exhaustive literature search. However, it is more productive to support the search process with AI, considering limiting factors, which should be addressed by libraries.
1 Einleitung
Stehen wir an einer Zeitenwende? Wird die Einführung von ChatGPT später rückblickend das neue Jahr Null zur Einteilung einer Zeitrechnung in „vor KI“ und „nach KI“ sein? Auch wenn Maschinenlernen, Künstliche Intelligenz und deren Anwendungen wie Gesichtserkennung, Routenplanung, personalisierte Werbung etc. bereits Eingang in unseren Alltag gefunden haben, stellte die Veröffentlichung von ChatGPT 3.5 alles auf den Kopf. Über Nacht wurde eine bis dahin nicht greifbare Technologie für die breite Gesellschaft erfahrbar, alle konnten plötzlich ein Tool ausprobieren, das natürliche Sprachen verstand und auf scheinbar magische Art und Weise auch Antworten auf die eingegebenen Fragen liefern konnte. Sofort war offensichtlich, dass diese Technologie das Potenzial hat, die Arbeitswelt nachhaltig und disruptiv zu verändern. Das gilt auch für die Bibliotheken: KI wird sich über ein großes Spektrum an Einsatzgebieten und Tätigkeiten in der Bibliothekspraxis auswirken, von der KI-unterstützten Sacherschließung bis hin zur Vermittlung von Informationen. Die Frage, ob und inwieweit KI in diesem Zusammenhang bei der Literaturrecherche eingesetzt werden kann, soll Gegenstand der nachfolgenden Ausführungen sein. Bevor wir uns einer Antwort annähern, soll zunächst betrachtet werden, was KI macht, was sie ist und auf welchen mathematisch-technischen Grundlagen sie basiert. Es soll versucht werden, rudimentär in die Grundlagen einzuführen, manch wichtigen Begriff zu bestimmen und einige weiterführende Überlegungen anzustellen, welche Faktoren den Einsatz von KI limitieren können. Im Fokus stehen dabei Fragestellungen, die sich insbesondere auf die Literatursuche übertragen lassen. Anschließend werden bestimmte KI-Tools praktisch auf ihre Tauglichkeit hinsichtlich einer umfassenden Literaturrecherche getestet. Dabei wurde bewusst auf die jeweils kostenfreie Version zurückgegriffen, um niemanden aus monetären Gründen auszuschließen. In einem kurzen Fazit werden sowohl die theoretischen Überlegungen als auch die praktischen Erkenntnisse zusammengefasst. Für den deskriptiven Teil hinsichtlich der technischen Grundlagen wurde als Beleg ein umfangreicherer Literaturkorpus verwendet als vielleicht notwendig gewesen wäre. Denn Ziel des Autors war, ein möglichst vielseitiges Angebot an unterschiedlicher Überblicksliteratur anzubieten.
2 Einführung in die KI, Begriffsbestimmung, technische Grundlagen
Künstliche Intelligenz ist als Begriff schwierig zu fassen, da sich bisher keine allgemeingültige Terminologie durchgesetzt hat.[1] Das scheint auch für einzelne Technologien und mitunter einhergehende Phänomene zu gelten. Beispielsweise werden KI-generierte, objektiv falsche Behauptungen verbreitet als „Halluzinationen“ bezeichnet. Dies würde der KI Ansätze von Erkenntnisvermögen verleihen, weshalb Bridges et al. lieber von „fabrications“[2] – „Erfindungen“ sprechen; der Autor schließt sich dieser Ansicht an. Für eine allgemeine Definition von KI bietet sich die Begriffsbestimmung des sog. AI Acts an, der am 12. Juli 2024 im Amtsblatt der Europäischen Union veröffentlicht wurde:
Für die Zwecke dieser Verordnung bezeichnet der Ausdruck 1. „KI-System“ ein maschinengestütztes System, das für einen in unterschiedlichem Grade autonomen Betrieb ausgelegt ist und das nach seiner Betriebsaufnahme anpassungsfähig sein kann und das aus den erhaltenen Eingaben für explizite oder implizite Ziele ableitet, wie Ausgaben wie etwa Vorhersagen, Inhalte, Empfehlungen oder Entscheidungen erstellt werden, die physische oder virtuelle Umgebungen beeinflussen können.[3]
Wir wollen im Folgenden einzelne Formulierungen näher anschauen. Der Begriff „KI-System“ subsumiert beide Arten Künstlicher Intelligenz, die derzeit postuliert sind, die „Starke KI“ und die „Schwache KI“, der sich alle derzeitig in Verwendung befindlichen Anwendungen zuordnen lassen, weil es Maschinen sind, die zum Erfüllen einer einzigen Aufgabe konzipiert wurden. Dies funktioniert meist ausgezeichnet, teilweise werden sogar menschliche Leistungen überboten. Allerdings lässt sich das in einem Bereich gewonnene Können nicht auf einen anderen übertragen, das ist (noch) uns Menschen vorbehalten. Hingegen soll eine „Starke KI“, die bislang nur theoretisch existiert, dazu befähigt werden, ein eigenes Bewusstsein auszuformen.[4]
Um ein Computersystem „anpassungsfähig“ zu machen, werden verschiedene Formen maschinellen Lernens repetitiv angewendet. Dazu wird die Maschine mithilfe prozessautomatisierter Algorithmen mit Trainingsdaten gefüttert. Die Struktur dieser Daten kann sich unterscheiden, je nachdem, welche Methode zur Anwendung kommt. Beim „Überwachten Lernen“ wird mit den Merkmalen gleichzeitig ein Label geliefert, das der Maschine einen Zielwert mitteilt. So soll erreicht werden, dass sie die richtigen Zielwerte allein aufgrund der Merkmale aus Datensätzen ohne Kennzeichnung ermitteln kann. Anwendungen derart trainierter Maschinen können unbekannten Datensätzen die Zugehörigkeit zu einer bekannten Auswahl von Kategorien zuweisen. Beispielsweise wurde die Maschine mit den Labeln „Tomate“ und „Gurke“ trainiert und sie kann aufgrund der Eigenschaften „unbekanntes Fruchtgemüse“ zuordnen. Hingegen sollen beim „Unüberwachten Lernen“ zunächst Gemeinsamkeiten der Trainingsdaten entdeckt werden, die dann das menschliche Eingreifen qualifiziert, um eine Verbesserung der Datenaggregation und -clusterung zu erreichen. So können Muster erkannt oder Normabweichungen festgestellt werden, was z. B. beim Erkennen von Fake News angewendet wird. Beim „Überwachten“ bzw. „Unüberwachten Lernen“ stehen die Trainingsdaten im Mittelpunkt des Trainingsprozesses, bei der dritten Methode, dem „Verstärkenden Lernen“ ist das nicht der Fall. Dieses Konzept stammt aus der Psychologie und versucht das Prinzip Trial and Error auf Maschinen umzulegen. Entscheidend dabei ist die Reaktion der Umwelt. Durch Wiederholung lernt die Maschine, welche Aktion höchstmöglichen Gewinn verspricht. Ein auf maximale Belohnung programmiertes System soll auf diese Art Strategien entwickeln, wie aus jedem bekannten Zustand die wahrscheinlichste Verbesserung erzielt werden kann. Die verstärkende Lernmethode kommt immer dann zum Einsatz, wenn entweder die Datenlage beschränkt oder zu komplex ist, sodass nicht alle Merkmale vordefiniert werden können.[5] Allen Lernarten gemeinsam ist, dass Optimierungsverfahren angewendet werden, die aber meistens nicht vollständig gelöst werden können, in anderen Worten, es werden Lösungen gefunden, die gut sind, aber nicht zwangsläufig die besten sind. Genaugenommen werden für fast alle maschinellen Lernverfahren Heuristiken verwendet.[6] Der Begriff bezeichnet laut dem Psychologen und Entscheidungsforscher Gerd Gigerenzer „die Kunst, gute Lösungen in Situationen von Ungewissheit zu finden“.[7] Dieser Umstand ist bedeutend für den Umgang mit KI und wird weiter unten nochmals zu diskutieren sein.
Ziel der oben genannten Lernmethoden ist es, die Maschine so weit zu konfigurieren, um aus unbekannten Daten „Vorhersagen“ etc. erstellen zu können. Zunächst werden anwendungsspezifische Modellierungsentscheidungen getroffen, die mit den zu verarbeitenden Daten vereinbar sein müssen. Das bedeutet, dass Modell und Daten durch den Lernprozess zusammengeführt werden, wodurch letztlich eine statistische Schablone entsteht.[8] Allgemein kann gesagt werden, dass KI-Anwendungen gigantische statistische Berechnungsmaschinen sind. Das hat Folgen für die Aussagekraft von Ergebnissen, die durch KI gewonnen werden.
Wie funktioniert nun Maschinenlernen konkret, welche Mittel stehen zur Verfügung? Die bekanntesten Modelle sind die Künstlichen Neuronalen Netzwerke (KNN), die sich an der Funktionsweise des Gehirns höherer Lebewesen orientieren. Basis eines KNN ist das künstliche Neuron, das sämtliche Eingaben mit einem Gewichtungsfaktor multipliziert und aufsummiert, auf die Summe eine Aktivierungsfunktion anwendet und schließlich den Funktionswert als Output aus- oder weitergibt.[9] Das künstliche Neuron übermittelt sein Signal nach dem Alles-oder-nichts-Prinzip, ein vordefinierter Schwellenwert bestimmt, ab wann das geschieht.[10] Analog zum biologischen Vorbild werden mehrere Grundeinheiten, einzelnen Neuronen, hinter- und nebeneinander zu einem Netz zusammengeschaltet, das aus mehreren Schichten bestehen kann. Dabei wird jede einzelne Einheit auch Knoten genannt. Neuronen, die Eingaben erhalten, bilden die Eingabeschicht (I), während diejenigen, die berechnete Ergebnisse liefern, die Ausgabeschicht (O) darstellen. Zwischen diesen können eine oder mehrere sog. verborgene Schichten (H) liegen. Wichtig ist, dass die Anzahl der Eingabeneuronen der Anzahl der eingegebenen Merkmale entspricht und die Anzahl der Ausgabeneuronen der Anzahl der erwarteten Ergebnisse.[11] Beispielsweise sollen mittels OCR-Erkennung die Ziffern 0–9 auf Bildern der Maße 28 mal 28 Pixel erkannt werden. Die Eingabeschicht muss also 784 Knoten für die insgesamt 784 Pixel der Bilder haben, die Ausgabeschicht 10 Knoten für die Ziffern 0–9.[12] Wie viele verborgene Schichten vorliegen, hängt allgemein von zuvor getroffenen Modellierungsentscheidungen und empirischen Ergebnissen während der Entwicklung des KI-Modells ab.[13] In diesem Beispiel wurden 100 Knoten für die verborgene Schicht gewählt. Üblicherweise liegt diese Anzahl zwischen der der Eingabeknoten (784) und der der Ausgabeknoten (10). Mit diesen Angaben können nun die Verbindungen des Gesamtnetzwerks berechnet werden, es sind 79 400[14] Verbindungen.[15] Im Vergleich dazu verfügte Chat-GPT 3 über 175 Milliarden Verbindungen und Chat-GPT 4 sprengte im März 2023 die Billionengrenze.[16] Diese Zahlen sind bedeutsam, da die Verbindungen die zu optimierenden Variablen darstellen. Diese sog. Gewichtungsfaktoren oder Parameter werden während des Trainings mit Daten angepasst. Der Betrag eines Gewichtungsfaktors ist ein Maß für die Stärke der Verbindungen zwischen den einzelnen Neuronen oder anders ausgedrückt, ein Maß dafür, wie stark ein Neuron ein dahinterliegendes Neuron beeinflusst.[17] Die Architektur eines KNN kann so zusammengefasst werden: Die Knoten fungieren als Operationseinheiten, die Eingabe, Verarbeitung und Ausgabe berechnen, die Anordnung der Verbindungen bestimmt die Abfolge der Operationen, die zur Gesamtberechnung führen.
Diese Gesamtberechnung enthält einen Gesamtfehler, der nach der Ausgabeschicht beobachtet wird und sich aus den Fehlern der Ausgabeschicht und der vorgelagerten verborgenen Schicht(en) zusammensetzt. Ziel des Trainings ist, diesen Fehler zu minimieren, indem die einzigen Variablen im System, die Gewichtungsfaktoren, wie Stellschrauben angepasst werden. Die Herausforderung besteht darin, den Fehleranteil der verborgenen Schichten zu identifizieren und zu korrigieren. Da sich die Auswirkungen der Fehler proportional zu den Gewichtungsfaktoren ausbreiten, besteht die Idee darin, die Parameter von der Ausgabeschicht rückwärts bis zur ersten verborgenen Schicht anzupassen. Diese Methode, bekannt als Fehlerrückführung oder Backpropagation, verwendet das Gradientenverfahren. Dabei wird eine Fehlerfunktion, die den Gesamtfehler des KNN beschreibt, partiell abgeleitet. Jeder Knoten trägt zum Gesamtfehler bei, weshalb die Abweichungen vom Sollwert der Trainingsdaten an jedem Ausgabepunkt quadriert und summiert werden. Die partiellen Ableitungen ergeben mathematische Funktionen, die zur Anpassung der einzelnen Gewichtungsfaktoren verwendet werden können. Die Auswahl der partiellen Differentialquotienten in den einzelnen Formeln richtet sich nach der Architektur des KNN, also den Verbindungen zwischen den Neuronen. Der Trainingsprozess beginnt mit zufällig festgelegten Anfangswerten für die Gewichtungsfaktoren, die während des Trainings angepasst werden.[18] Sobald der Trainingsprozess beendet ist und die Fehler minimiert wurden, werden die Gewichtungsfaktoren „eingefroren“ und das KNN gilt als trainiert.
Künstliche Neuronale Netzwerke sind die Grundlage für Deep Learning, zu dessen beeindruckendsten Anwendungen ChatGPT und DALL-E zählen.[19] Die verborgenen Schichten sind entscheidend, da sie Abstraktion ermöglichen. Dadurch können Eingabemuster in diesen Schichten gruppiert werden, was eine Generalisierung während des Lernens fördert.[20] Diese Möglichkeit führt auch zu Anwendungen, bei denen nicht mehr jedes Neuron mit jedem Neuron der folgenden Schicht verbunden ist. Es kommen andere Netzwerkarchitekturen zum Einsatz. Beispiele dafür sind Faltungsnetze (CNN, v. a. für visuelle Daten), Autoencoder (v. a. Datenkompression, Dimensionsreduktion), Generative Adversarial Networks (GAN, v. a. nachahmen von Trainingsdaten) und Deep Q-Learning (DQL, Erweiterung des Q-Learnings um KNN).[21] Transformer sind ganz speziell und sehr komplex geformte Netzwerke, die aus mehreren Bestandteilen bestehen, und v. a. dazu da sind, Texte zu verarbeiten.[22] Dazu müssen Wörter erst einmal in Zahlen umgewandelt werden; das passiert in Form von Vektoren.[23] Gleichzeitig werden die Wörter nach ihren Bedeutungen angeordnet. Dieser Prozess lässt sich mit der Einordnung in ein Koordinatensystem vergleichen, in dem ähnliche Wortbedeutungen nah beieinander liegen. Die Beziehungen zwischen den Wörtern werden als Vektoren dargestellt, dasselbe passiert mit grammatischen Formen. Vektoren, die all diese Beziehungen repräsentieren, können nicht mehr zweidimensional sein, sie müssen mehrere Dimensionen einnehmen. Schlussendlich werden die Wörter, und das gilt in weiterer Folge auch für Wortsequenzen, in einem mehrdimensionalen „Einbettungsraum“ geordnet. Innerhalb dieses Raums können sog. Beziehungsvektoren übertragen werden. Beispielsweise kann der Vektor, der die Beziehung König-Königin repräsentiert, auf das Wort Fußballer übertragen werden. Das Ergebnis, das von dem Startpunkt „Fußballer“ ausgeht, soll durch die Addition des Vektors „König-Königin“ zu „Fußballerin“ führen. In diesem Zusammenhang spricht man von der Verwendung von Einbettungen oder Embeddings. Die genaue Gestaltung dieser Embeddings wird durch das Training mit großen Textmengen festgelegt. Eine Hauptschwierigkeit beim maschinellen Umgang mit Sprache besteht darin, dass die Bedeutung von Wörtern oft kontextabhängig ist. Zur Lösung dieses Problems wurde das Prinzip der Aufmerksamkeit eingeführt. Dabei werden Gewichtungsfaktoren nicht nur aufgrund ihrer Lage im Einbettungsraum, sondern auch abhängig vom Kontext angepasst.[24] Genau genommen wendet ChatGPT dieses Konzept nicht auf Wörter, sondern auf „Tokens“ an, die auch Silben umfassen. Dies erleichtert die Verarbeitung von Komposita, kann jedoch auch zu erfundenen Zusammensetzungen führen.[25] Letztlich wird auf diese Weise berechnet, wie hoch die Wahrscheinlichkeit ist, dass ein bestimmtes Wort bzw. Token auf eine Eingabe folgt. Im Grunde basieren alle Large Language Models LLMs[26] auf der Transformerarchitektur, die diese Wahrscheinlichkeiten berechnen kann.[27]
KNN sind jedoch nicht die einzigen Werkzeuge, die im maschinellen Lernen eingesetzt werden. Entscheidungsbäume sind ebenfalls leistungsstarke Methoden, die in jeder Ebene auf Ja-Nein-Entscheidungen basieren. Darüber hinaus können mehrere, manchmal sogar tausende von Entscheidungsbäumen hintereinander geschaltet oder kombiniert werden.[28] Es gibt verschiedene Baumverfahren, die für unterschiedliche Zwecke eingesetzt werden können, jedoch basieren sie alle auf denselben grundlegenden Prinzipien. Entscheidungsbäume sind Anwendungen der Aussagen- und Prädikatenlogik.[29] Bei KNN ist zwar bekannt, wie die Gewichtungsfaktoren angepasst werden, jedoch lässt sich nach dem Training nicht mehr nachvollziehen, warum sie auf diese Weise eingestellt wurden. Entscheidungsbäume bieten in dieser Hinsicht eine höhere Transparenz für Menschen, da die getroffenen Entscheidungen verständlich sind.[30] Besonders geeignet sind Entscheidungsbaumverfahren, wenn es gilt, aus Daten Regeln abzuleiten, insofern kommen sie häufig beim Data Mining zum Einsatz.[31] Interessant dabei ist, dass sie für manche Anwendungen weitaus einfacher und effizienter handhabbar sind und weniger Rechenpower benötigen als KNN.[32]
Wie wir gesehen haben, können verschiedene mathematische Methoden mit unterschiedlichen Modellen verarbeitet werden. Wichtig dabei ist zu wissen, welche Kombination am besten geeignet ist, einen bestimmten Zweck zu erfüllen, der auch zu den Daten passt. Dies muss laufend evaluiert werden, indem ein geeignetes Qualitätsmaß angewendet wird.[33] Getestet wird danach, wie oft richtige Entscheidungen getroffen wurden oder wie sensitiv bzw. spezifisch das System je nach Aufgabenstellung Ergebnisse generiert.[34]
Um die technische Einführung abzuschließen, sei auf zwei wichtige Aspekte hingewiesen, die für alle Modelle relevant sind. Erstens werden Anwendungsmodelle der KI niemals auf ein hundertprozentiges Gütemaß (z. B. Korrektklassifizierungsrate, Varianz usw.) trainiert. Bei einer hundertprozentigen Übereinstimmung würde es zu „Overfitting“ kommen; die Maschine wäre „überangepasst“ und würde die Trainingsdatensätze quasi auswendig lernen. Parameter, die auf diese Weise eingestellt sind, würden die Anwendung unbrauchbar machen, da sie zu unflexibel wäre, um unbekannte Daten sinnvoll zu verarbeiten.[35] Zweitens handelt es sich bei KI aufgrund des Zusammenwirkens von Daten und Methode um ein emergentes System. Dieses Zusammenspiel verfestigt sich im Gesamtmodell. Emergente Systeme können nicht verstanden werden, indem nur die einzelnen Komponenten untersucht werden, auch die Wechselwirkung der Bestandteile muss betrachtet werden. Dabei spielt nicht nur die Zusammensetzung der Daten eine Rolle, sondern auch die Reihenfolge, wie sie im Training verwendet wurden.[36]
3 Einsatzmöglichkeiten von KI und ihre Grenzen
Warum haben wir uns so intensiv mit mathematisch-technischen Erklärungen beschäftigt? Weil die einzelnen Komponenten, aus denen KI-Anwendungen modelliert werden, wichtige Hinweise liefern, die Verwendung von KI zu limitieren. Diese eingrenzenden Faktoren lassen sich aus zwei Hauptquellen ableiten: zum einen aus den zugrunde liegenden mathematischen Modellen und zum anderen aus den für das Training eingesetzten Datensätzen. Betrachten wir zunächst die Erkenntnisse, die sich aus der Mathematik und Informatik ergeben. Alle zugrundeliegenden Methoden entstammen den Bereichen Statistik und Stochastik. Daher sind auch die Ergebnisse statistischer Natur und repräsentieren Wahrscheinlichkeiten. Dies ist von entscheidender Bedeutung für die Interpretation der Ergebnisse. Immer dann, wenn Gewissheiten gefragt sind, oder ein exaktes Resultat benötigt wird, muss die Frage gestellt werden, ob die Wahrscheinlichkeit des Ergebnisses ausreichend hoch ist. In diesem Zusammenhang darf nicht vergessen werden, dass KI grundsätzlich auf Heuristiken basiert; Heuristiken finden im Regelfall eine gute Lösung, die aber nicht die bestmögliche sein muss. Obwohl im Kontext von KI oft von Algorithmen die Rede ist, muss bedacht werden, dass sie zwar zur Automatisierung von Prozessen verwendet werden, das Gesamtergebnis aber nicht die charakteristische Eigenschaft eines algorithmisch produzierten Ergebnisses hat.
Algorithmen sind Arbeitsvorschriften mit eindeutig definierten Einzelschritten, die ein Problem in endlicher Zeit lösen. Es werden aus Inputdaten Resultate erzeugt.[37] Das heißt, dass Algorithmen determiniert sind und bei gleichen Eingaben immer dieselben Ergebnisse produziert werden. KI-Anwendungen besitzen diese Eigenschaften nicht. Das können alle ersehen, die schon einmal denselben Prompt mehrmals verwendet und unterschiedliche Antworten erhalten haben. Mit anderen Worten können wir sagen, dass die Reproduzierbarkeit nicht gegeben ist, was eine Reihe von Konsequenzen nach sich zieht. Es eröffnen sich Fragen nach der Dokumentation von Ergebnissen, der Vollständigkeit etc. Überhaupt muss hinterfragt werden, wie die Einhaltung wissenschaftlicher Standards erfüllt werden kann. KI-generierte Ergebnisse müssen immer überprüft werden. Anwendenden muss bewusst sein, dass die KI Wahrscheinlichkeiten oder darauf basierende Ergebnisse erzeugt. Es besteht durchaus ein Unterschied darin, ob exakte oder wahrscheinliche Werte ausgegeben werden. Beispielsweise ist mathematisch bewiesen, dass Eins plus Eins exakt Zwei ergibt; eine KI-Anwendung würde zum Schluss kommen, dass es „wahrscheinlich Zwei“ ist. Diese Unterscheidung ist nicht nur semantischer Natur. Die grundlegende Betrachtung dieses Umstands liefert wichtige Erkenntnisse darüber, in welchen Situationen der Einsatz eines KI-Systems sinnvoll sein kann und in welchen nicht.
Der zweite wesentliche Faktor für die Einsatzgrenzen sind die Daten, die zum Training verwendet werden. Bei der Auswahl spielen neben der Struktur auch ethische und rechtliche Überlegungen eine Rolle, insbesondere hinsichtlich Datenschutz und Urheberrecht.[38] Gehen wir aber für die folgende Betrachtung davon aus, dass die Trainingsdaten grundsätzlich geeignet sind, also keine ethischen, rechtlichen oder interoperablen[39] Einsprüche bestehen. Sowohl die Zusammensetzung der Daten als auch die Reihenfolge, in der sie der KI während des Trainings präsentiert werden, können signifikante Auswirkungen auf das Endergebnis haben. Daten können verzerrt sein, also verschiedene Bias beinhalten, auch wenn das nicht beabsichtigt ist. Beim Trainieren von LLMs (ChatGPT etc.) können Verzerrungen darauf zurückzuführen sein, dass der Großteil des Trainingsmaterials in englischer Sprache vorliegt. Bei medizinischen Daten sind Frauen häufig unterrepräsentiert. Im Bereich wissenschaftlicher Literatur überwiegen oftmals naturwissenschaftliche, technische und medizinische Dokumente gegenüber Inhalten der Geistes-, Kultur- oder Rechtswissenschaften etc. Hierbei kann auch die sprachliche Verzerrung zusätzlich zum Tragen kommen, da zwischen den Disziplinen Unterschiede in der Publikationstradition herrschen, ob in Englisch oder der Landessprache veröffentlicht wird. In den Trainingsdaten können Wertvorstellungen versteckt sein. Welchen Output würde wohl eine KI produzieren, die in den USA der 1960er-Jahre entwickelt worden wäre, noch vor dem Inkrafttreten des Civil Rights Acts von 1964? Selbst wenn keine Diskriminierungsabsicht besteht, kann die Zusammensetzung der Daten diskriminierend wirken, wie Katharina Zweig in einem Beispiel zur automatischen Gesichtserkennung zeigt. Fehlentscheidungen passierten aufgrund von inhomogenen Trainingsdatensätzen in Bezug auf die Hautfarben. Gleichzeitig spricht Zweig ein Grundproblem beim Erstellen von Trainingsdaten an. Die Daten müssen digital vorliegen und zugänglich sein. Somit werden diese oft aus dem Internet gezogen, wo Weiße überrepräsentiert sind.[40] Besonders im wissenschaftlichen Kontext muss bei den Datensätzen darauf geachtet werden, dass kein Bias von „Western, Educated, Industrialized, Rich, and Democratic (WEIRD)“[41] vorliegt. Auch die Frage nach der Aktualität der Trainingsdaten muss gestellt werden, z. B. wurde ChatGPT 3.5 mit Ereignissen bis 2021 trainiert.[42] Die Liste ließe sich weiter fortsetzen, der springende Punkt ist aber, dass wir nicht wissen (können), mit welchen Daten KI-Anwendungen wie ChatGPT etc. trainiert wurden und welche Verzerrungen darin möglicherweise enthalten sind. Letztlich sind wir darauf angewiesen, den Angaben der Anbieter, die allesamt privatwirtschaftliche Großkonzerne sind, zu vertrauen.
Mit diesen Überlegungen ist der Rahmen für Einsatzmöglichkeiten von KI-Anwendungen gezogen. Was die Nutzung von Künstlicher Intelligenz in der Recherche anbelangt, müssen noch weitere Überlegungen angestellt werden. Erstens darf KI nicht mit LLMs à la ChatGPT etc. gleichgesetzt werden und zweitens muss der Zweck der Suche beleuchtet werden.
Grundsätzlich lassen sich Recherchefragen von LLMs beantworten, da mit dem Training auch Kenntnisse erworben werden konnten, auf die das Modell eigentlich nicht trainiert wurde.[43] ChatGPTs Antworten basieren auf Inhalten, denen das Modell während des Trainings ausgesetzt war. Es ruft Wahrscheinlichkeiten ab, in welchen Kontexten bestimmte Informationen vorkommen, und generiert daraus Antworten auf die eingegebenen Fragen. Nebenbei bemerkt ist dies ein technisches Argument gegen das Vorhaben, Texte aus lizensierten Ressourcen von einem KI-Modell zusammenfassen zu lassen. Offenbar können LLMs beim Training, ob beabsichtigt oder nicht, zumindest Textfragmente mitspeichern. Da wir nicht wissen, ob die Interaktion mit dem Chatbot ebenfalls zum Lernen verwendet wird, ist Vorsicht geboten. Abgesehen davon wird der Text ohnehin ins Netz hochgeladen, was rechtlich schwierig oder sogar unzulässig ist. Zurück zur Recherche mit ChatGPT. Das Modell wurde als LLM dazu entwickelt, um natürliche Sprache zu erzeugen, es wurde nicht zu Recherchezwecken konzipiert. Zudem verhindert der fehlende Zugriff auf proprietäre Inhalte und Daten eine tiefergehende Recherche durch die Modelle. Damit ließe sich schon von vornherein sagen, dass ChatGPT etc. für eine direkte Recherche nicht geeignet ist. Diese Annahme lässt sich durch praktische Tests bestätigen. So wurde an der Bibliothek der Vanderbilt University eine Unterrichtsstrategie entwickelt, um LLMs in die Vermittlung von Informationskompetenz zu integrieren. Im ersten Schritt wurden Studierende naturwissenschaftlicher und technischer Disziplinen in Recherchestrategien und die Funktionsweise von KI-Tools unterrichtet. Anschließend lösten sie eigenständig Aufgaben und abschließend wurden ihre Erfahrungen und Eindrücke mittels Fragebogen erhoben. Aus dieser Untersuchung ergaben sich fünf Kriterien, die die direkte Recherche mit einem LLM limitieren: Unvollständigkeit (kein Zugriff auf proprietäre Inhalte), Inkonsistenz (kann Ergebnisse nicht reproduzieren), Inkohärenz (Quellen können nicht nachgewiesen werden), Unlogik (scheitert teilweise an einfachen Problemstellungen) und unkritisches Verhalten (gegenüber Pfadabhängigkeit und Bestätigungsfehler). Es wurde aber festgestellt, dass sich LLMs sehr wohl dazu eignen, die Recherche, auch tiefergehende zu unterstützen, im Besonderen, um Themengebiete abzustecken, Brainstorming zu betreiben sowie Unterstützung bei der Searchstringerstellung zur Verwendung in Fachdatenbanken zu erhalten. Außerdem kommen die Kolleg:innen von der Vanderbilt University zum Ergebnis, dass der Einsatz von LLMs die traditionelle Vermittlung von Informationskompetenz erweitern und vereinfachen kann, sodass Bibliothekar:innen den Fokus ihres Unterrichts vermehrt auf theoretisches Verständnis und kritische Bewertung richten können.[44]
LLMs eignen sich aus mehreren Gründen nicht für eine direkte Literaturrecherche. Dennoch kann KI, unter Berücksichtigung ihrer Grenzen, die Recherche indirekt unterstützen. KI erleichtert das Identifizieren von Themen sowie das Finden von Synonymen und Übersetzungen für die Erstellung von Suchbegriffen in fachspezifischen Datenbanken. In diesem Zusammenhang sollten auch der Zweck sowie die Ansprüche oder Ziele der Recherche berücksichtigt werden. Der Umfang der Literaturrecherche variiert je nach Anforderungen: Eine Dissertation oder Forschungsarbeit erfordert ein anderes Niveau als das Verfassen einer Proseminar- bzw. Hausarbeit. Das bedeutet, dass das Maß, in dem und an welchem Punkt der Recherche eine KI Unterstützung bieten kann, variieren wird. Für Erstsemestrige kann die Hilfe bei der Themenfindung von großer Bedeutung sein, während auch erfahrene Studierende beim Einarbeiten in neue Forschungsgebiete profitieren. Das Erstellen von Suchbegriffen wird hingegen zu Beginn oft weniger relevant sein. Die Einsatzmöglichkeiten von KI zur Unterstützung der Recherche unterscheiden sich wahrscheinlich von Disziplin zu Disziplin. Besonderen Nutzen ziehen Fächer, die hauptsächlich auf aktuelle Forschungsliteratur zurückgreifen, die elektronisch in englischer Sprache verfügbar und in Datenbanken erfasst ist. Copy & Paste eines mit KI-Unterstützung erstellten Searchstrings ist hier sicher eine vielversprechende Strategie. An dieser Stelle muss jedoch noch unterschieden werden, ob das Ziel der Suche einfach eine offene Themenrecherche ist oder ob ein möglichst vollständiges Ergebnis angestrebt wird, z. B. mit dem Ziel, ein systematisches Review zu erstellen. Dies wird im nächsten Abschnitt untersucht. Fachbereiche, für die ältere, mitunter noch analog vorliegende Literatur in Regionalsprache relevant ist, werden nicht im gleichen Ausmaß profitieren können. Vielleicht kann ein anderes Vorgehen förderlich sein. Spitzer schreibt, dass eine der großen Stärken der KI u. a. darin besteht, Suchräume zu verkleinern, wodurch interessante Bereiche für eine menschliche Suche identifiziert werden können.[45] Ob ein solches Verfahren bei der Literaturrecherche umgesetzt werden kann, wird sich weisen, weil dies voraussetzen würde, dass alle Dokumentationseinheiten analoger Quellen vernetzt und durchsuchbar sein müssten. Dann könnte eine KI in dieser riesigen Datenmenge den Suchraum eingrenzen. Umgekehrt führt dieser Gedankengang aber zu interessanten Anwendungen, der Retrieval Augmented Generation (RAG). Bisher haben wir von einer direkten bzw. indirekten Literaturrecherche mithilfe von KI-Modellen wie ChatGPT etc. gesprochen, die allesamt als Browseranwendungen über das Internet betrieben werden und nur im Surfaceweb suchen. Der Mensch könnte aber selbst den Suchraum auf Kataloge, Datenbanken etc. eingrenzen und darin eine KI-unterstützte Recherche einbinden, also das Information Retrieval mit einem LLM verknüpfen. Das hätte den Vorteil, dass innerhalb eines Pools von tatsächlich vorhandenen Quellen gesucht werden kann, wodurch „erfundene“ Quellen ausgeschlossen wären. Weiterhin sind aber bisher beschriebene Einschränkungen mutatis mutandis zu berücksichtigen. Hinsichtlich einer denkbaren verbund- oder katalogübergreifenden Lösung würde sich als nächstes die Frage stellen, inwieweit unterschiedliche Systeme und Regelwerke unter einen Hut gebracht werden könnten. Wahrscheinlich stellen selbst innerhalb eines Verbunds die historisch unterschiedlichen Regelwerke schon einen begrenzenden Faktor für die KI-unterstützte Suche dar. Nach derzeitigem Stand ist auf jeden Fall bekannt, dass einzelne Datenbankbetreiber sowie Anbieter von Bibliothekssystemen bereits an KI-unterstütztem Information Retrieval arbeiten. Zwar sind derartige RAGs von Natur aus hochkomplexe und herausfordernde Systeme, aber sollten die zu erwartenden Probleme, die sich aus der Unterschiedlichkeit der Datenpools ergeben würden, behoben werden können, wäre dies sicher ein interessanter und zukunftsweisender Ansatz. Damit könnten auch analoge Quellen durch KI-Unterstützung (mittels ihrer Metadaten) recherchierbar gemacht werden.
Bei all diesen Überlegungen sollte ein weiterer Punkt berücksichtigt werden: Es gibt KI-Systeme, die auf Belohnung programmiert sind. Das bedeutet, dass die Maschine Strategien entwickelt, um die Wahrscheinlichkeit eines zukünftigen Gewinns zu maximieren.[46] Das bedeutet jedoch auch, die KI lernt, dass es zielführender ist, eine Antwort zu generieren, als keine zu geben. Das erklärt teilweise, warum Ergebnisse, wie z. B. Referenzen, einfach „erfunden“ werden. Katharina Zweig zeigt dieses Phänomen am Beispiel Wikipedia. Einträge in dieser Onlineenzyklopädie sind immer gleich aufgebaut, die URL besteht aus einem fixen und einem variablen Teil, die Variable entspricht dabei dem Stichwort des Eintrages. Ein KI-Modell kann diesen Aufbau erlernen, allerdings ohne den Kontext, dass hinter einer URL eine Seite real existieren muss.[47] Demselben Aufbau folgen viele Datenbanken, Journals und Verlage, wo der variable Teil oft aus einer Identifikationsnummer oder dem Titel des Artikels bzw. des DOI als Parameter besteht.[48] Übrigens sind DOIs ebenfalls nach einem ähnlichen Prinzip aufgebaut. Für eine auf Belohnung programmierte Maschine ist es unerheblich, ob die Seite bzw. das Dokument existiert, sie kann eine Referenz liefern. Dabei entgeht der KI vollkommen, dass auch der Nichtbefund ein Befund sein kann. Es gilt weiter: In allen Fällen müssen KI-generierte Ergebnisse auf Plausibilität geprüft werden. Trotzdem kann KI die menschliche Literaturrecherche ergänzen.
Voraussetzung für einen erfolgreichen Einsatz von ChatGPT etc. ist u. a. eine präzise Anweisung an die Maschine, ein passender Prompt. Dabei gibt es einige Prinzipien zu beachten, die da Silva Cardoso et al. zusammengetragen haben: „Klarheit und Präzision“, „Kontextbezogenheit“, „Zielfokussierung“, „Sprachliche Feinheiten“ und „Feedbackschleifen“.[49] Das hat zur Folge, dass es durchaus zeitintensiv sein kann, bis ein geeigneter Prompt formuliert ist. In diesem Zusammenhang stellt sich die Frage nach Kosten und Nutzen. Es sollte überlegt werden, wann es sinnvoll ist, Zeit in das Prompting zu investieren und wann nicht. Für bestimmte Fälle ist sicher eine herkömmliche Recherche schneller und zielführender. Auf der anderen Seite hat KI das Potenzial, in einem Datensatz Muster bzw. Zusammenhänge zu sehen, die einem Menschen möglicherweise entgehen. Das muss abgewogen werden.
4 Vom Versuch, ein systematisches Review mit KI zu erstellen
Zweifelsfrei hat KI das Potenzial, eine tiefergehende Themenrecherche zu ergänzen, sofern es darum geht, das Thema einzugrenzen und die Suche in fachspezifischen Datenbanken vorzubereiten und zu erleichtern. Wie aber schlagen sich KI-basierte Suchsysteme, wenn es darum geht, eine möglichst vollständige Suche durchzuführen, in der Absicht ein Systematisches Review zu schreiben? Sind sie überhaupt die richtigen Werkzeuge bzw. gibt es überhaupt ein geeignetes KI-Tool zu diesem Zweck? Bei einem systematischen Review muss über mindestens eine facheinschlägige Literaturdatenbank gesucht werden, es können auch weitere verwendet werden. Alle verwendeten Datenbanken sowie verwendete Suchbegriffe und deren Kombinationen sind zu dokumentieren.[50] Bereits an dieser Stelle sind hinsichtlich der Verwendung von KI-Tools Einwände zu erheben. Wir haben gesehen, dass sich KI-generierte Ergebnisse schwer reproduzieren und deshalb schlecht dokumentieren lassen. Darüber hinaus muss mindestens eine der verwendeten Datenbanken facheinschlägig sein, diese sind aber im Regelfall proprietär, die Daten häufig kostenpflichtig, weshalb KI-Systeme gegebenenfalls derzeit keinen Zugriff haben. Damit bleiben nur frei zugängliche Datenbanken für einen Vergleich zwischen menschlicher Recherche und KI-unterstützter Suche übrig, wie z. B. die Datenbank PubMed, die von mehreren KIs genutzt wird. So baut Open Knowledge Maps zwar wahlweise auf PubMed oder BASE[51] auf, allerdings werden nur die 100 relevantesten Papers, die das Tool auf Basis der Suche auswählt und zum Erstellen einer Mindmap verwendet, ausgegeben.[52] Somit wird keine vollständige Liste an relevanten Treffern erzielt. Ein anderes Tool, Semantic Scholar, gibt neben verschiedenen Verlagen u. a. auch PubMed als Partner an, somit kann damit gerechnet werden, dass relevante Treffer einschlägiger Fachrecherchen sowohl in PubMed als auch in Semantic Scholar aufscheinen sollten.[53] Die Anwendung zielt zwar v. a. darauf ab, KI-generierte Empfehlungen auf Basis gespeicherter Suchergebnisse zu geben, also in sogenannten „Research Feeds“[54] das Forschungsinteresse widerzuspiegeln, allerdings ist es durchaus spannend, ob Suchergebnisse aus PubMed und Semantic Scholar vergleichbar sind. Das Tool wird nicht über einen Prompt gesteuert, wie übrigens auch Open Knowledge Maps, sondern ähnlich wie bei Fachdatenbanken durch Eingabe einer formalen Suchanfrage, dabei können beide Tools grundsätzlich Boole’sche Operatoren verarbeiten. Notwendig wäre ein Vergleich mit KI-Anwendungen, die über einen Prompt gesteuert werden. In diese Kategorie fallen SciSpace und Consensus, allerdings ist bei beiden nicht erwähnt, ob PubMed in der Suche einbezogen wird. Dennoch dürfte ein Vergleich von Interesse sein.
Es ist davon auszugehen, dass in einem bereits veröffentlichten Systematic Review Paper ein von Menschen auf den Untersuchungsgegenstand hin optimierter Searchstring verwendet wurde. Im Folgenden sollen die Ergebnisse in PubMed reproduziert und eine geeignete Strategie gefunden werden, denselben Fall mit verschiedenen KI-Tools abzufragen. Basis der Analyse ist eine Arbeit von Schnelli et al. aus dem Jahr 2020 zu den Themen Demenz, aggressives Verhalten und häusliche Pflege.[55] Das Erscheinungsjahr 2020 wurde mit der Absicht gewählt, ein Beispiel zur Hand zu haben, das vor der Veröffentlichung von ChatGPT publiziert wurde. In PubMed wurde der Searchstring aus Schnelli et al. verwendet und die Treffer auf den Zeitraum bis 2019 begrenzt, da dieses Jahr dem Untersuchungsjahr der zugrundeliegenden Arbeit vorausgeht. So wurden 290 Ergebnisse in PubMed erzielt, die wie auch die Ergebnisse der KI-Anwendungen zu Vergleichszwecken ins Literaturverwaltungsprogramm EndNote 21 exportiert und ggf. eingeschränkt wurden.
In Semantic Scholar konnte der gesamte Searchstring aus Schnelli et al. nicht verwendet werden, die Fehlermeldung gab keinen Aufschluss über einen Grund, ob etwa z. B. zu viele Suchoperatoren gesetzt wurden, also wurde der Searchstring auf die Hauptthemen in Kombination mit den MeSH-Terms des Vergleichsstrings vereinfacht und wie folgt abgefragt: „(dementia OR Dementia[MeSH] OR "ALZHEIMER DISEASE"[MeSH] OR "MEMORY DISORDERS"[MeSH]) AND (home care setting OR Home nursing[MeSH] OR Agency, home care[MeSH]) AND (aggressive behaviour OR Aggression[MeSH] OR Violence[MeSH])“. Die Resultate konnten in Semantic Scholar nicht weiter verfeinert werden, auch gestaltete sich der Export in die Literaturverwaltung wenig benutzerfreundlich. Die insgesamt 250 Treffer konnten nicht in cumulo exportiert werden. Nach dem Einschränken (bis 2019) blieben 191 Referenzen übrig. Es wäre zu erwarten gewesen, dass sich die Treffermengen aus PubMed und Semantic Scholar überlappen, was aber nicht der Fall war. Es gab kein einziges (!) Duplikat, hingegen kamen in der Treffermenge aus Semantic Scholar selbst drei Referenzen doppelt vor, während die Treffer aus PubMed einzigartig waren. Zu Vergleichszwecken wurde in PubMed ebenfalls mit dem vereinfachten Searchstring gesucht. In den 160 Ergebnissen (bis 2019) waren immerhin 37 Überschneidungen mit der Suche nach Schnelli et al. zu finden, hingegen gab es auch hier keine Überschneidung mit der Treffermenge aus Semantic Scholar, obwohl PubMed explizit unter den Partnern der Anwendung aufgeführt ist. Darüber hinaus stellt sich die Frage, auf welche Weise Semantic Scholar Suchergebnisse als relevant einstuft. In der Ergebnismenge waren viele Treffer, die mit der abgesetzten Suche inhaltlich nichts zu tun hatten, u. a. eine Rezension zu einer Aufführung von Shakespeares King Lear[56] oder ein Paper über die Fortpflanzung bei der Hummelart Bombus terrestris.[57] Eine tiefergehende Untersuchung mittels Suchfunktion in EndNote 21 ergab, dass aus den 191 Treffern aus Semantic Scholar lediglich bei einem Resultat der Suchbegriff „dementia“ entweder in Titel, Abstract oder Keywords enthalten war; bei der Vergleichsmenge aus PubMed waren es 264 aus 290 bzw. 139 aus 160! Um auszuschließen, dass der verwendete, wenn auch vereinfachte Searchstring ursächlich war, wurde die Suchanfrage mittels Aneinanderreihen der Worte („dementia home care setting aggressive behaviour“) wiederholt. Für den Vergleich wurden von den 4 960 Treffern bis 2019 die ersten 100 (es waren 7 Duplikate enthalten) als Stichprobe ebenfalls untersucht. Von den nunmehr 93 Ergebnisse enthielten immerhin 59 „dementia“ im Titel, Abstract oder den Keywords, allerdings ergab auch diese Stichprobe keine Überschneidungen mit den Ergebnissen aus der Suche nach Schnelli et al. in PubMed. Nun könnte argumentiert werden, dass potenzielle Überschneidungen nicht zwangsläufig in den ersten 100 Treffern vorkommen müssten. Dem ist entgegenzuhalten, dass die ersten Treffer bei einer Sortierung nach Relevanz den höchsten Übereinstimmungsgrad haben sollten. Da nun kein einziges Duplikat herausgekommen ist, darf die Wahrscheinlichkeit, dass überhaupt Schnittmengen existieren, als gering angenommen werden. Sicher ist Semantic Scholar nicht als herkömmliche Suchmaschine bzw. Datenbank konzipiert worden und soll auf Basis des jeweiligen Forschungsinteresses KI-unterstütze Vorschläge bringen, dennoch ist es verblüffend, dass die laut Einschätzung des Systems relevantesten Treffer so überhaupt keine Übereinstimmung mit einem von Menschen optimierten Suchergebnis haben.
Lassen Sie uns im Vergleich dazu das Tool Open Knowledge Maps mit einer anderen Fragestellung aufgreifen: Gibt es Überschneidungen aus der menschlichen Recherche mit den 100 Dokumenten, die das Tool als am relevantesten für seine Features einstuft? Erstaunlicherweise konnte der gesamte Searchstring verarbeitet werden; zudem konnte bereits im Vorfeld der zu durchsuchende Zeitraum eingegrenzt werden (bis 2019). Aus Open Knowledge Maps können bibliografischen Daten ebenfalls nicht in cumulo, sondern nur einzeln exportiert werden. Von den 100 aus Open Knowledge Maps gelieferten Dokumenten stimmten 88 mit der Suche in PubMed nach Schnelli et al. überein, ein sehr gutes Ergebnis, allerdings muss bedacht werden, dass der Searchstring bereits von Menschen optimiert war. Wie verhält es sich, wenn einfach die aneinandergereihten Worte („dementia home care setting aggressive behaviour“) abgefragt werden? Diese Suche ergab zwei Duplikate aus 100 Referenzen. Daraus kann geschlossen werden, dass ein bereits verbesserter Searchstring verwendet werden sollte, um das volle Potenzial der Anwendung auszuschöpfen, die KI-Komponente hilft weniger bei der Interpretation der eingegebenen Suchworte, sondern bereitet die daraus resultierenden Dokumente in Form von Clusterbildung auf.
Bisher wurden mit Semantic Scholar und Open Knowledge Maps Anwendungen betrachtet, denen eine formale Suchanfrage eingegeben werden soll. Mit SciSpace steht ein Tool zur Verfügung, das über einen Prompt gesteuert wird. Eine tiefergehende Untersuchung war nicht möglich, da es in der kostenfreien Version keine Möglichkeit gibt, Referenzen in ein Literaturverwaltungsprogramm zu exportieren. Zweimal wurde an verschiedenen Tagen derselbe Prompt[58] eingegeben. Wie zu erwarten waren die Ergebnisse unterschiedlich, einmal wurden 230, beim zweiten Mal 140 Ergebnisse erzielt, die manuell auf Duplikate untersucht wurden. Beide Male kamen sehr viele Ergebnisse doppelt, sogar mehrfach vor, sodass zum Vergleich mit den Resultaten aus PubMed nach Schnelli et al. 20 aus 230 bzw. 54 aus 140 eigenständige Referenzen übrig blieben. Diese ergaben keine Übereinstimmung mit der herkömmlichen Suche. Dieses Ergebnis bedeutet nicht, dass die mit SciSpace gefundenen Referenzen unbrauchbar sind, sie können ja als Ergebnisse einer weiteren Datenbank bei der Erstellung eines systematischen Reviews behandelt werden, allerdings muss bedacht werden, dass man bei der Dokumentation in Erklärungsnot kommt, da die Ergebnisse nicht reproduzierbar sind. Zum Umgang mit SciSpace muss noch bemerkt werden, dass nach dem Absetzen des Prompts erst einmal 10 Treffer präsentiert werden. Wenn auf der Seite nach unten gescrollt wird, kommen weitere Ergebnisse hinzu, bis die „Trefferliste“ erschöpft ist. Dabei war zu beobachten, dass je weiter nach unten gescrollt wurde, desto mehr Einträge gedoppelt waren. Interessant ist, dass jeder Eintrag kommentiert wurde, um die Aufnahme in die Liste zu begründen. Die Anwendung SciSpace soll es ermöglichen, einzelne Referenzen auszuwählen und mithilfe von KI ähnliche Artikel zu finden. Für eine umfassende Literaturrecherche ist sie jedoch unbrauchbar.
Es ist festzuhalten, dass KI-Anwendungen insgesamt für umfassende Literaturrecherchen weniger geeignet zu sein scheinen. Es ist jedoch interessant zu untersuchen, wie KI-generierte oder als relevant eingestufte Dokumente mit den Ergebnissen herkömmlicher, manueller Suchen übereinstimmen. Bei Tests mit Consensus wurden zunächst zehn Referenzen präsentiert, mit der Option, weitere in Zehnerschritten zu laden, bis das System nach etwa 200 Referenzen wegen Überlastung abbrach. Um die Qualität der Ergebnisse zu beurteilen, wurde eine Stichprobe der von Consensus als am relevantesten eingestuften Dokumente näher untersucht. Immerhin verfügt Consensus über Exportmöglichkeiten im RIS bzw. CSV Format, sodass die Referenzen ohne größeren Aufwand weitergenutzt werden konnten. Bei Consensus kann ein Copilot optional zugeschaltet werden, für die weiteren Betrachtungen wurden die beiden Fälle unterschieden. Bei ausgeschaltetem Copilot wurde der Prompt aus der Verwendung von SciSpace wiederverwendet, das Ergebnis war ein einziger Treffer, interessanterweise das Original von Schnelli et al. Das war erwartbar, da Consensus angibt, dass die Fragen am besten u. a. als Entscheidungsfragen oder Fragen zu Beziehungen zwischen Konzepten abgefragt werden.[59] Also wurde der Prompt auf einen Satz reduziert, der eher einer formalen Suchanfrage gleicht.[60] Aus den 84 relevantesten Ergebnisse blieben 68 (bis 2019) übrig, dabei gab es sechs Überschneidungen. Im zweiten Fall wurde zunächst gleich vorgegangen, allerdings bei eingeschaltetem Copilot. Als Ergebnis erschien: „Not enough relevant results. Try asking a well-researched question in the format ‘Does x cause y?’ Try: Does dementia increase aggressive behavior in home care settings?“[61] Der Vorschlag des Copilots wurde für die Suche übernommen. Von den 78 relevantesten Ergebnisse blieben 62 (bis 2019) übrig, es kam ebenfalls zu sechs Überschneidungen. Innerhalb der beiden Stichproben gab es insgesamt 63 Duplikate.
Nach der Analyse verschiedener KI-Anwendungen zeigt sich, dass diese derzeit für eine umfassende Literaturrecherche ungeeignet sind. Sie können jedoch als Ergänzung dienen, wobei die Fachcommunity die Relevanz KI-generierter Vorschläge prüfen sollte. Die geringen Überschneidungen zwischen KI und menschlicher Suche sind nicht zwangsläufig negativ, da KI möglicherweise verborgene Muster erkennen kann. Ein Manko sollte explizit erwähnt werden: Alle betrachteten KI-Anwendungen weisen Mängel beim Export bibliografischer Daten auf. Zudem sind viele nützliche Funktionen oft kostenpflichtig.
5 Fazit
Die theoretischen Schlussfolgerungen, die wir aus den technisch-mathematischen Grundlagen gezogen haben, fanden auch in der praktischen Anwendung Bestätigung. Zusammenfassend lässt sich sagen, dass KI-Unterstützung bei der Literaturrecherche sinnvoll eingesetzt werden kann, jedoch in einem begrenzten Umfang und als Ergänzung. Es hat sich gezeigt, dass die betrachteten Beispiele für eine umfassende Literatursuche nicht geeignet sind. Sie können jedoch für andere Fragestellungen genutzt werden, beispielsweise indem eine Literaturübersicht in Clustern gruppiert oder auf Basis interessanter Dokumente Literaturempfehlungen ausgegeben werden. Dabei darf man nicht dem Zauber der KI verfallen und aus dem Auge verlieren, dass es eine mögliche, aber nicht zwangsläufig die beste Antwort auf die Fragestellung ist. Das gilt natürlich auch für eine menschengemachte Suche, aber wir sind uns bewusst, dass es verschiedene Referenzquellen nebeneinander gibt, die konsultiert werden können. Die Gefahr, bei der Literatursuche in einer Blase zu landen, ist durchaus real, wenn der KI zu viel Vertrauen geschenkt wird. Ein wesentlicher Faktor zur Güte der Ergebnisse ist immer die Datenbasis, auf die KI-Anwendungen aufbauen bzw. Zugriff haben. Wichtig in der Verwendung sind v. a. zwei Dinge: Erstens müssen KI-generierte Ergebnisse immer vom Menschen noch einmal überprüft werden und zweitens muss das richtige Werkzeug für den richtigen Zweck gefunden werden. Deshalb ist es notwendig, zumindest rudimentär ein allgemeines Wissen über die technische Funktionsweise von KI aufzubauen. In der Vermittlung dieses Wissens können Bibliothekar:innen im Rahmen ihrer Kurse in Bezug auf Recherche und Informationskompetenz punkten. Sie können z. B. zeigen, dass ein LLM für eine direkte Literatursuche nicht geeignet ist, aber indirekt helfen kann, etwa passende Synonyme zu finden oder aus einer Fragestellung einen Searchstring für die Recherche in einer Fachdatenbank zu entwickeln. Zudem können sie aus ihrem Fachwissen heraus einen kritischen Umgang mit KI und den Quellen fördern und auf diese Weise dazu beitragen, die Informationskompetenz um den kompetenten Einsatz von KI zu erweitern. Um das zu erreichen, ist die eigene fachliche Weiterbildung ebenso unerlässlich wie der Erwerb praktischer Fertigkeiten im Umgang mit KI-Anwendungen.
Kritisch zu sehen ist, dass viele Anwendungen nur in der Basisversion kostenlos sind. Das beschwört durchaus die Gefahr herauf, dass die, die es sich leisten können, einen Vorteil haben. Für Bibliotheken ist es aber wichtig, einen möglichst niedrigschwelligen Zugang zu bieten. Umso wichtiger ist die Vermittlung allgemeingültiger Prinzipien zu einem reflektierten Umgang mit KI, da die limitierenden Faktoren bei allen Anwendungen die Gleichen sind. Die rasante Entwicklung ist sicher ein Problem, da gerade gewonnene Erkenntnisse gleichzeitig von Neuerungen überholt werden können. Grundlegende Überlegungen können ebenso Abhilfe schaffen wie ein pragmatischer Umgang mit der Materie. Bei näherer Betrachtung ist es oft alter Wein in neuen Schläuchen, weshalb bereits etablierte Vorgangsweisen bzw. Normen erneut aufgegriffen werden können. Als Beispiel für diesen Gedankengang könnte das Ghostwriting dienen. Ob nun eine andere Person oder ein LLM dahinter steckt, rüttelt nicht an der Tatsache, dass in beiden Fällen, eine Leistung nicht selbst erbracht wird.
Die Künstliche Intelligenz ist gekommen, um zu bleiben. Ein reflektierter Umgang damit, ohne sich dabei in der Faszination, was alles möglich ist, zu verlieren, ist eine willkommene Ergänzung zu bereits bewährten Recherchemethoden. Für die Bibliotheken kann dies zu einer großen Chance werden.
Über den Autor / die Autorin

Anton Walder
Literaturverzeichnis
Ait Si Abbou, Kenza (2023): Menschenversteher: wie emotionale künstliche Intelligenz unseren Alltag erobert. München: Droemer.Search in Google Scholar
Bielecki, Andrzej (2019): Models of Neurons and Perceptrons: Selected Problems and Challenges. Cham: Springer International Publishing. DOI:10.1007/978-3-319-90140-4.10.1007/978-3-319-90140-4Search in Google Scholar
Bridges, Laurie M.; McElroy, Kelly; Welhouse, Zach (2024): Generative Artificial Intelligence: 8 Critical Questions for Libraries. In: Journal of Library Administration, 64 (1), 66–79. DOI:10.1080/01930826.2024.2292484.10.1080/01930826.2024.2292484Search in Google Scholar
Carroll, Alexander J.; Borycz, Joshua (2024): Integrating large language models and generative artificial intelligence tools into information literacy instruction. In: The Journal of Academic Librarianship, 50 (4). DOI:10.1016/j.acalib.2024.102899.10.1016/j.acalib.2024.102899Search in Google Scholar
Cave, Stephen; Dihal, Kanta (Hrsg.) (2023): Imagining AI: How the World Sees Intelligent Machines. Oxford: Oxford University Press. DOI:10.1093/oso/9780192865366.001.0001.10.1093/oso/9780192865366.001.0001Search in Google Scholar
Döring, Nicola; Bortz, Jürgen (2016): Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften. 5. vollst. überarb., aktual. und erw. Aufl. Berlin, Heidelberg: Springer. DOI:10.1007/978-3-642-41089-5.10.1007/978-3-642-41089-5Search in Google Scholar
Ertel, Wolfgang (2021): Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung. Wiesbaden: Springer Fachmedien. DOI:10.1007/978-3-658-32075-1.10.1007/978-3-658-32075-1Search in Google Scholar
Europäisches Parlament und Europäischer Rat (2024): VERORDNUNG (EU) 2024/1689 DES EUROPÄISCHEN PARLAMENTS UND DES RATES vom 13. Juni 2024 zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz und zur Änderung der Verordnungen (EG) Nr. 300/2008, (EU) Nr. 167/2013, (EU) Nr. 168/2013, (EU) 2018/858, (EU) 2018/1139 und (EU) 2019/2144 sowie der Richtlinien 2014/90/EU, (EU) 2016/797 und (EU) 2020/1828 (Verordnung über künstliche Intelligenz).Search in Google Scholar
Gigerenzer, Gerd (2022): Homo Heuristicus: Entscheidungen unter Ungewissheit. In: Heuristiken des politischen Entscheidens, hg. von Karl-Rudolf Korte, Gert Scobel und Taylan Yildiz, 25–43. Berlin: Suhrkamp.Search in Google Scholar
Hattenhauer, Rainer (2024): ChatGPT & Co: wie du KI richtig nutzt – schreiben, recherchieren, Bilder erstellen, programmieren. Bonn: Rheinwerk Verlag.Search in Google Scholar
Henrich, Joseph; Heine, Steven J.; Norenzayan, Ara (2010): The weirdest people in the world? In: Behavioral and Brain Sciences, 33 (2–3), 61–83. DOI:10.1017/S0140525X0999152X.10.1017/S0140525X0999152XSearch in Google Scholar
Hoeren, Thomas (2023): Rechtsgutachten zum Umgang mit KI-Software im Hochschulkontext. Application/pdf. In: Didaktische und rechtliche Perspektiven auf KI-gestütztes Schreiben in der Hochschulbildung, hg. von Jonas Leschke und Peter Salden, 22–40. Bochum: Ruhr-Universität Bochum. DOI:10.13154/294-9734.Search in Google Scholar
Karatas, Metin (2024): Eigene KI-Anwendungen programmieren. Bonn: Rheinwerk Verlag.Search in Google Scholar
Lopez-Vaamonde, Carlos; Brown, Ruth M.; Lucas, Eric R. et al. (2007): Effect of the queen on worker reproduction and new queen production in the bumble bee Bombus terrestris. In: Apidologie, 38 (2), 171–80. DOI:10.1051/apido:2006070.10.1051/apido:2006070Search in Google Scholar
Noack, Pit; Sanner, Sophia (2023): Künstliche Intelligenz verstehen: eine spielerische Einführung. 2. aktual. Aufl. Bonn: Rheinwerk Verlag.Search in Google Scholar
Oertner, Monika (2024): ChatGPT als Recherchetool? Fehlertypologie, technische Ursachenanalyse und hochschuldidaktische Implikationen. In: Bibliotheksdienst, 58 (5), 259–97. DOI:10.1515/bd-2024-0042.10.1515/bd-2024-0042Search in Google Scholar
Otte, Ralf (2023): Künstliche Intelligenz für Dummies. 2. Aufl. Weinheim: Wiley.Search in Google Scholar
Pangburn, Alaina Jobe (2011): King Lear (review). In: Shakespeare Bulletin, 29 (1), 68–73. DOI:10.1353/shb.2011.0009.10.1353/shb.2011.0009Search in Google Scholar
Schnelli, Angela; Karrer, Melanie; Mayer, Hanna; Zeller, Adelheid (2023): Aggressive behaviour of persons with dementia towards professional caregivers in the home care setting—A scoping review. In: Journal of Clinical Nursing, 32 (15–16), 4541–58. DOI:10.1111/jocn.15363.10.1111/jocn.15363Search in Google Scholar
Silva Cardoso, Heike da; Kusser, Nicolas; Kieselstein, Jana (2024): Einsatz von Künstlicher Intelligenz bei der wissenschaftlichen Literaturrecherche: ein Überblick. Verfügbar unter https://opus.bibliothek.uni-augsburg.de/opus4/frontdoor/index/index/docId/113159.Search in Google Scholar
Spitzer, Manfred (2023): Künstliche Intelligenz: dem Menschen überlegen – wie KI uns rettet und bedroht. München: Droemer.Search in Google Scholar
Vylomova, Ekaterina; Rimell, Laura; Cohn, Trevor; Baldwin, Timothy (2015): Take and Took, Gaggle and Goose, Book and Read: Evaluating the Utility of Vector Differences for Lexical Relation Learning. DOI:10.48550/ARXIV.1509.01692.10.18653/v1/P16-1158Search in Google Scholar
Weigend, Michael (2023): Künstliche Intelligenz kapieren und programmieren: visuell lernen und verstehen mit Illustrationen und Projekten zum Experimentieren. Frechen: mitp.Search in Google Scholar
Wolfram, Stephen (2023): Das Geheimnis hinter ChatGPT: wie die KI arbeitet und warum sie funktioniert. Übersetzt von Kathrin Lichtenberg. Frechen: mitp.Search in Google Scholar
Zweig, Katharina A. (2019): Ein Algorithmus hat kein Taktgefühl: wo künstliche Intelligenz sich irrt, warum uns das betrifft und was wir dagegen tun können. München: Heyne.Search in Google Scholar
Zweig, Katharina A. (2023): Die KI war’s! von absurd bis tödlich: die Tücken der künstlichen Intelligenz. München: Heyne.Search in Google Scholar
© 2025 bei den Autorinnen und Autoren, publiziert von Walter de Gruyter GmbH, Berlin/Boston
Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.
Articles in the same Issue
- Titelseiten
- Editorial
- Teaching Library und die Vermittlung von Informationskompetenz
- Theoretische Konzepte der Teaching Library
- 30 Jahre Teaching Library (D-A-CH): Von der Katalogschulung zum Lernort Bibliothek?
- Das Framework for Information Literacy for Higher Education der ACRL: Sein Potenzial für die Vermittlung von Informationskompetenz und seine Auswirkungen auf die Vermittlungspraxis der Teaching Librarians im deutschen Sprachraum
- Und ja, IK soll auch Spaß machen: Meine Kurse sind keine Vorlesungen, sondern Infotainment
- Von Forschenden oft unterschätzt: Erfolgreicher forschen mit Informationskompetenz
- Good Practices
- Medienbildung in Öffentlichen Bibliotheken
- Desinformation auf der Spur: Konzept einer Bibliotheksschulung
- Praxisbericht: Das Konzept des neuen Centers für Informations- und Medienkompetenz der Österreichischen Nationalbibliothek
- Demokratiepädagogisch Agieren in (Öffentlichen) Bibliotheken
- PISA, IGLU, IQB & Co – Einsatz von aktuellen Studien und Untersuchungen in der bildungspolitischen Arbeit von Bibliotheken
- Gestaltung von E-Learning-Angeboten in Bibliotheken zur Förderung der Medien- und Informationskompetenz
- Vision und Realität: Liaison Librarians und Informationskompetenz an der Universitäts- und Zentralbibliothek Zürich
- KI in der Informationskompetenz
- Künstliche Intelligenz in der Literaturrecherche
- Forschungsperspektiven zu KI, Informationsverhalten und Informationskompetenz
- Professionalisierung durch Kollaboration: OER im Verbund
- Didaktische Ansätze und Ausbildung
- Erstellung eines Moodle-Selbstlernkurses zur Recherche- und Informationskompetenz an der Universitätsbibliothek Wien: ein Werkstattbericht
- Das Bibliothekspraktikum „Studierende beraten Studierende“
- Der neue Zertifikatskurs „Teaching Librarian“ am Postgraduate Center der Universität Wien
- Zukunftsgestalter
- Multimediale Lernangebote und physischer Lernraum zur Förderung von Informations- und Medienkompetenz in den Geowissenschaften – hybrid, kreativ, nachhaltig
- Weitere Beiträge
- Weiterbildung in wissenschaftlichen Bibliotheken: Status quo und Perspektiven
- Stand und Perspektive von ORCID in Deutschland
- Agiles Service Engineering für digitale forschungsunterstützende Dienste in Hochschulbibliotheken
- Rezensionen
- Fachkonferenz der Bibliotheksfachstellen in Deutschland (Hrsg.): Handreichung zu Bau und Ausstattung Öffentlicher Bibliotheken, 2024. 105 S., aktual. und erw. Fassung. Zum Download verfügbar unter https://bibliotheksportal.de/ressourcen/management/strategie-und-planung/planungsgrundlagen/
- Barbian, Jan-Pieter: Literaturpolitik im NS-Staat. Von der „Gleichschaltung“ bis zum Ruin. Überarbeitete und aktualisierte Neuausgabe. Frankfurt/M.: S. Fischer, 2024. 511 S., ISBN 978-3-10-397583-3. Hardcover € 36,-
- Die Bibliothek für alle. Der Büchereientwicklungsplan des Bundes. Wien: Büchereiverband Österreichs, 2024 (= Büchereiperspektiven Sonderausgabe 2024). 56 S., ISSN 1607-7172
- Am Anfang waren die Bücher. 250 Jahre bibliotheca publica. 25 Jahre Oö. Landesbibliothek. Hrsg. von der Oberösterreichischen Landesbibliothek und dem Oberösterreichischen Landesarchiv. Redaktion: Renate Plöchl, Julian Sagmeister, Martin Vejvar. Linz: Oö.Landesarchiv, 2024. 192 S., 223 Abb. ISBN 978-3-902801-51-7. Hardcover, € 28,60
- Call for Papers
- Call for Papers
Articles in the same Issue
- Titelseiten
- Editorial
- Teaching Library und die Vermittlung von Informationskompetenz
- Theoretische Konzepte der Teaching Library
- 30 Jahre Teaching Library (D-A-CH): Von der Katalogschulung zum Lernort Bibliothek?
- Das Framework for Information Literacy for Higher Education der ACRL: Sein Potenzial für die Vermittlung von Informationskompetenz und seine Auswirkungen auf die Vermittlungspraxis der Teaching Librarians im deutschen Sprachraum
- Und ja, IK soll auch Spaß machen: Meine Kurse sind keine Vorlesungen, sondern Infotainment
- Von Forschenden oft unterschätzt: Erfolgreicher forschen mit Informationskompetenz
- Good Practices
- Medienbildung in Öffentlichen Bibliotheken
- Desinformation auf der Spur: Konzept einer Bibliotheksschulung
- Praxisbericht: Das Konzept des neuen Centers für Informations- und Medienkompetenz der Österreichischen Nationalbibliothek
- Demokratiepädagogisch Agieren in (Öffentlichen) Bibliotheken
- PISA, IGLU, IQB & Co – Einsatz von aktuellen Studien und Untersuchungen in der bildungspolitischen Arbeit von Bibliotheken
- Gestaltung von E-Learning-Angeboten in Bibliotheken zur Förderung der Medien- und Informationskompetenz
- Vision und Realität: Liaison Librarians und Informationskompetenz an der Universitäts- und Zentralbibliothek Zürich
- KI in der Informationskompetenz
- Künstliche Intelligenz in der Literaturrecherche
- Forschungsperspektiven zu KI, Informationsverhalten und Informationskompetenz
- Professionalisierung durch Kollaboration: OER im Verbund
- Didaktische Ansätze und Ausbildung
- Erstellung eines Moodle-Selbstlernkurses zur Recherche- und Informationskompetenz an der Universitätsbibliothek Wien: ein Werkstattbericht
- Das Bibliothekspraktikum „Studierende beraten Studierende“
- Der neue Zertifikatskurs „Teaching Librarian“ am Postgraduate Center der Universität Wien
- Zukunftsgestalter
- Multimediale Lernangebote und physischer Lernraum zur Förderung von Informations- und Medienkompetenz in den Geowissenschaften – hybrid, kreativ, nachhaltig
- Weitere Beiträge
- Weiterbildung in wissenschaftlichen Bibliotheken: Status quo und Perspektiven
- Stand und Perspektive von ORCID in Deutschland
- Agiles Service Engineering für digitale forschungsunterstützende Dienste in Hochschulbibliotheken
- Rezensionen
- Fachkonferenz der Bibliotheksfachstellen in Deutschland (Hrsg.): Handreichung zu Bau und Ausstattung Öffentlicher Bibliotheken, 2024. 105 S., aktual. und erw. Fassung. Zum Download verfügbar unter https://bibliotheksportal.de/ressourcen/management/strategie-und-planung/planungsgrundlagen/
- Barbian, Jan-Pieter: Literaturpolitik im NS-Staat. Von der „Gleichschaltung“ bis zum Ruin. Überarbeitete und aktualisierte Neuausgabe. Frankfurt/M.: S. Fischer, 2024. 511 S., ISBN 978-3-10-397583-3. Hardcover € 36,-
- Die Bibliothek für alle. Der Büchereientwicklungsplan des Bundes. Wien: Büchereiverband Österreichs, 2024 (= Büchereiperspektiven Sonderausgabe 2024). 56 S., ISSN 1607-7172
- Am Anfang waren die Bücher. 250 Jahre bibliotheca publica. 25 Jahre Oö. Landesbibliothek. Hrsg. von der Oberösterreichischen Landesbibliothek und dem Oberösterreichischen Landesarchiv. Redaktion: Renate Plöchl, Julian Sagmeister, Martin Vejvar. Linz: Oö.Landesarchiv, 2024. 192 S., 223 Abb. ISBN 978-3-902801-51-7. Hardcover, € 28,60
- Call for Papers
- Call for Papers