Finden ohne Suchen: Automatische Benachrichtigungen über relevante wissenschaftliche Publikationen mit regelbasierter KI

Hermann Bense

doi:10.1515/iwp-2021-2173

Article Publicly Available

Finden ohne Suchen: Automatische Benachrichtigungen über relevante wissenschaftliche Publikationen mit regelbasierter KI

Hermann Bense

Published/Copyright: October 9, 2021

Published by

Become an author with De Gruyter Brill

Author Information Explore this Subject

From the journal Information - Wissenschaft & Praxis Volume 72 Issue 5-6

Zusammenfassung

Jeden Tag erscheint eine Flut neuer wissenschaftlichen Publikationen. Für Forscher ist es schwierig, dabei den Überblick zu behalten. Aktualität und Relevanz der Ergebnislisten von Suchmaschinen wie Google, scholar.google.com und wissenschaftlichen Suchportalen entsprechen oft nicht den Erwartungen der Forscher. Vorgestellt wird eine Methode, die als Finden ohne Suchen (FwS = finding without searching) bezeichnet wird. Diese Methode nutzt künstliche Intelligenz in Kombination mit ausdrucksstarken benutzerdefinierten Regeln für Benachrichtigungen über neue Publikationen über eine App.

Abstract

Every day, a flood of new scientific publications appears. It is difficult for researchers to keep track of them all. The timeliness and relevance of the search results of search engines such as Google, scholar.google.com and scientific search portals often do not meet researchers’ expectations. A method called finding without searching (FwS) is presented. This method uses artificial intelligence in combination with expressive user-defined rules for notifications about publications by an app.

Resumé

De nombreuses nouvelles publications scientifiques paraissent quotidiennement. Il est difficile pour les chercheurs de conserver une vue d’ensemble. L’actualité et la pertinence des résultats des moteurs de recherche tels que Google, scholar.google.com et les portails de recherche scientifique ne répondent souvent pas aux attentes des chercheurs. Une méthode appelée „Trouver sans rechercher“ („Finding without Searching“ – FwS) est présentée. Cette méthode utilise l’intelligence artificielle en combinaison avec des règles expressives définies par l’utilisateur pour les notifications de publications dans une application.

Deskriptoren: SDI; maschinelles Lernen; Verarbeitung natürlicher Sprache; Wissenschaft und Technik; Veröffentlichung; Maschinelle Übersetzung; Maschinelle Indexierung; Finding without Searching (FwS); Key Value Store (KVS); Semantische Suche

Descriptors: Selective Dissemination of Information; Machine learning; Natural language processing (NLP); Science and technology; Publication; Automatic translation; Automatic indexing; Finding without Searching (FwS); Key Value Store (KVS); Semantic search

Descripteurs : Diffusion sélective de l’information; Apprentissage automatique; Traitement du langage naturel (NLP); Science et technologie; Publication; Traduction automatique; Indexation automatique Finding without Searching (FwS); Key Value Store (KVS); Recherche sémantique

1 Das News Alert System NAS und die rOb.by-App

Jeden Tag erscheint eine Flut neuer wissenschaftlichen Publikationen. Für wissenschaftlich Tätige ist es eine mühsame und zeitraubende Aufgabe, den Überblick darüber zu behalten. Ein zentrales Problem von Suchmaschinen wie Google, scholar.google.com und wissenschaftlichen Suchportalen wie z. B. TIB [1] und SpringerProfessional.de ist, dass die Suchergebnisse oft nicht den Erwartungen der Forscher in Bezug auf Aktualität und Relevanz entsprechen. Mit einer Methode, die als Finden ohne Suchen (FwS = finding without searching) bezeichnet wird, können Forschende aus angewandter und experimenteller Sicht effizient unterstützt werden. Diese Methode nutzt künstliche Intelligenz in Kombination mit ausdrucksstarken benutzerdefinierten Regeln für Benachrichtigungen zu Publikationen.

Das News Alert System NAS [2] und seine Benutzeroberfläche, die rOb.by-App [3], nutzen einen Korpus von mehr als drei Millionen Publikationen aus nahezu allen Teildisziplinen. Mehr als 290 Millionen Tripel von Daten und Metadaten sind im Repository gespeichert. Crawler scannen permanent das Web nach neuen Publikationen und fügen neue Informationen in den Korpus ein. Die Identifizierung der Autoren erfolgt effektiv über die Autorennamen, mit Ausnahme bestimmter asiatischer Autorennamen, wie unten erläutert. Die vorherrschenden Dokumentensprachen, um die es hier geht, sind Englisch und Deutsch. Die Titel der Dokumente aus mehr als 25 Sprachen werden mit Hilfe der deepl.com-API [4] automatisch ins Englische und Deutsche übersetzt. Neben den Schlagwörtern, die den Dokumenten von den Autoren zugewiesen wurden, werden zusätzliche Schlagwörter aus den Titeln und deren Übersetzungen mit Stanza [5] für Englisch und TreeTager [6] für Deutsch ermittelt.

1.1 Wörterbücher und Verschlagwortung

Zur Optimierung der Antwortzeiten fügt das Indexierungstool des NAS alle erfassten Schlagwörter, Autorennamen und zusätzliche Lemmata in den Key-Value-Store KVS des Systems ein. Derzeit enthält der KVS ca. 90 Millionen Tripel. Rund 2.300 englische und deutsche Schlagwörter werden als Stoppwörter verwendet und von der Indexierung ausgeschlossen. Stoppwörter und sprachübergreifende Synonymbeziehungen (Synsets, Synonymringe) [7] sind Teil des 3dna.news-Wörterbuchs. Das 3dna-Wörterbuch wurde im Rahmen des von Google geförderten DNI-Projekts 3dna.news [8] für den Zweck der groß angelegten Nachrichtengenerierung entwickelt [9].

Jedes Schlagwort im Key-Value-Store hat ein Meta-Attribut KWF (KeyWord Frequency), das angibt, wie viele Dokumente von den Schlagworten referenziert werden. Die Liste der Schlüsselworthäufigkeiten zeigt, dass das Top-Schlüsselwort Engineering ca. 130.000 Dokumenten zugeordnet ist. Es folgen die Schlagwörter Systems, Intelligence, Analysis, Management, based, System, Theory, computational und Information, mit denen jeweils mehr als 60.000 Dokumente indexiert sind. Mit den 55 häufigsten Schlagwörtern sind 2,7 Millionen Dokumente indexiert, was fast der Größe des gesamten Korpus entspricht. Schlüsselwörter, die mehr als 10.000 Dokumente indexieren, werden als sehr hochfrequente Schlüsselwörter (VHFK) bezeichnet. Etwa 340 Schlüsselwörter erfüllen dieses Kriterium. Die Schlüsselwörter, die weniger als 100 Dokumente indexieren, werden als very low-frequency keywords (VLFK) bezeichnet, die mit weniger als 1000 Dokumenten als low-frequency keywords (LFK). Etwa 57.000 Keywords indexieren zwischen 50 und 100 Dokumente.

1.2 Benutzerdefinierte Regeln für die automatische Recherche

Eine Schlüsselfrage für das Auffinden relevanter Publikationen ist die Zuordnung von Schlüsselwortkombinationen zu der beabsichtigten lexikalischen Semantik. Die Menge der Dokumente, die in eine Klasse von semantischen Konzepten fallen, könnte durch eine oder mehrere Regeln beschrieben werden, die als Query-Strings wie "Named, Entity, Recognition" oder "Sentiment, Analysis" oder "human, intelligence, ~machine, ~artificial" definiert sind. Ein Query-String ist also de facto eine Definition eines lexikalischen Konzepts. Ein Regelname wie "Menschliche Intelligenz" könnte dann die beabsichtigte Semantik der Regel/Abfrage als Regelname zusammenfassen.

In Abbildung 1 wird gezeigt, wie der Benutzer eine Regel in der rOb.by-App definiert. Jede Zeile unter Suchbegriffe kann ein einzelnes Suchwort oder mehrere mit ODER verknüpfte Suchwörter enthalten.

1.3 Benachrichtigung über Neuerscheinungen am selben Tag:

Was bedeutet Finden ohne Suchen? Das NAS-System arbeitet wie ein Wachhund. Für jede neue Publikation, die in den Korpus aufgenommen wird, werden alle benutzerdefinierten Regeln auf Übereinstimmung mit den Suchbedingungen geprüft. Trifft eine Regel zu, wird der Rechercheur noch am selben Tag per Push-Benachrichtigung oder per E-Mail über die neue Publikation informiert. Die Komplexität der Abfragen spielt in diesen Fällen keine große Rolle, weil jeder Publikation im KVS das Datum der Veröffentlichung zugeordnet ist. Damit entlastet das NAS-System den Anwender von der regelmäßigen Suche nach relevanten Dokumenten.

Abbildung 1

Regel für das Auffinden von Dokumenten zur Schlagwort-Kombination „Named, Entity, Recognition“ in der rOb.by-App.

Zentrale Komponente im NAS-System dafür ist der Rule-Processor. Dieser überprüft kontinuierlich alle Regeln aller Benutzer. Es wird ebenfalls protokolliert, welche und wie viele Benachrichtigungen ein Benutzer bereits erhalten hat. Dadurch wird sichergestellt, dass er keine doppelten Benachrichtigungen erhält und die vom Benutzer vorgegebenen maximale Anzahl von Benachrichtigungen pro Regel nicht überschritten wird.

Das Beispiel in Abbildung 2 zeigt, dass mit der Suchfrage "Named, Entity, Recognition" eine neue Publikation gefunden wurde und dass es insgesamt 317 Publikationen zu dieser Schlagwort-Kombination gibt. Ebenso werden die weiteren Schlagwörter wie „deep, learning, Multi“ etc. angezeigt, die der Publikation von den Autoren oder durch die Verschlagwortungsfunktion des NAS-System zugewiesen wurden. Durch Klicken auf den [mehr]-Button gelangt der Benutzer in die web-basierte rObby-Suchmaschine und zur Liste aller gefundenen Dokumente. Dort kann er dann weitergehende Recherchen durchführen.

Abbildung 2

Beispiel für eine automatische Benachrichtigung in der rOb.by-App.

1.4 Die rOb.by-Suchmaschine

Der Benutzer kann die rOb.by-Suchmaschine [3] für die Vor- und Nachrecherche verwenden. Im Unterschied zu anderen Suchmaschinen für wissenschaftliche Publikationen werden zu den Suchbegriffen die Schlagwort-Häufigkeiten angezeigt (Abbildung 3). Außerdem kann der Benutzer auf intuitive Weise eine neue Suche starten, indem er auf einen orangenen Schlagwort- oder Autoren-Link klickt. Alternativ kann er die vorhandenen Suche mit einem Klick auf ein + Symbol um ein weiteres Schlagwort ergänzen.

2 Unterstützung von Forschern bei der Suche nach relevanteren Publikationen

Es mag trivial erscheinen, aber hochfrequente Schlüsselwörter (HFK) wie z. B. Engineering haben eine deutlich geringere Selektivität, während niedrigfrequente Schlüsselwörter (LFK) eine effektive Einschränkung der Ergebnismengen ermöglichen.

Namen von Autoren gehören im Allgemeinen zu den LFK, weil es sehr unwahrscheinlich ist, dass Autoren mehr als 1000 Publikationen haben. Es gibt bemerkenswerte Ausnahmen, weil asiatische Autorennamen wie Huang, Kim, Lee, Liu, Yang, Zhao, Zhang und Zhou und indische Autoren wie Kumar und Singh zu den VHFK gehören.

2.1 Erweiterte Suche: Geeignete Schlagwörter für Publikationen finden

Das logische ODER kann verwendet werden, um Suchwörter mit unterschiedlichen Schreibweisen oder Floskeln oder Homonymen zu verbergen. Das Pipe-Symbol | kann dafür in Suchanfragen wie in system|systems, oder deep|machine,learning verwendet werden. Das logische NOT kann verwendet werden, um die Ergebnismengen zu verkleinern, indem Dokumente ausgeschlossen werden, die mit Wörtern indexiert wurden, die nicht bereits in der Menge der Stoppwörter enthalten sind. Die Formulierung Mensch,Intelligenz,~Maschine liefert beispielsweise alle Dokumente, die mit Mensch UND Intelligenz indexiert sind, ohne Dokumente, die mit Maschine indexiert sind. Es gibt spezifische Wortformen und Beziehungen zwischen Wörtern und Begriffen, die eine weitere Diskussion verdienen, nämlich die Homonyme.

2.2 Homonyme

Sehr hochfrequente Homonyme (VHFK) wie can (Verb und Substantiv), not/Not (englische Negation und deutsches Substantiv für Notwendigkeit), may (Verb und Monatsname), second (Zahl und Substantiv) , set (Verb und Substantiv), state/s (Substantiv für Status und Substantiv für Land) und use (Verb und Substantiv) erfordern eine besondere Behandlung. Probleme treten auch bei benannten Entitäten auf. Beispiele: Schade (Nachname eines Autors und deutsches Adjektiv für Bedauern) und Siegel (Nachname eines Autors und deutsches Substantiv für Siegel/Signum).

Abbildung 3: rOb.by-Suchportal.

3 Zusammenfassung und Ausblick

3.1 Synsets und semantische Ringe

Eine offene Forschungsfrage ist es, herauszufinden, welche Schlüsselwortkombinationen sinnvoll sind und zu relevanten Suchergebnissen und Dokumentenclustern führen. Der Artikel zeigt, wie Forscher bei dieser Aufgabe durch die Methode „Finden ohne Suchen“ unterstützt werden. Ein weiterer Fortschritt könnte jedoch dadurch erreicht werden, dass die Schlüsselwörter durch eine semantische Nachbarschaftsbeziehung miteinander in Beziehung gesetzt werden, z. B. durch die Verwendung von Word-Net-Synsets [7] und mehrsprachigen Synonymringen wie Employment (EN), job (EN/DE), Anstellung (DE), Arbeitsplatz (DE), travail (FR).

3.2 Domänen-Ontologien

In der Semantic-Web-Community werden Domänen-Ontologien erstellt, um Begriffe (Konzepte) und ihre Semantik zu modellieren. Insbesondere Hypernym-, Hyponym-, Holonym- und Kausalbeziehungen erlauben es, formale Taxonomien und Klassenhierarchien zu modellieren. Die EnArgus-Ontologie [10] ist ein Beispiel für eine Ontologie im Bereich der Energieforschungsprojekte, die etwa 12.000 Begriffe wie Windenergie oder Solarkraftwerke modelliert. Die innerhalb der Domainen-Ontologien gewonnenen Begriffsdefinitionen können durch Anwendung von Inferenzregeln zur Erweiterung der Suchergebnisse mit herangezogen. Die dazu verwendete Suchmethode SbM (Search by Meaning) wurde ursprünglich innerhalb des EnArgus-Projekts [10, 11] entwickelt. Grundlegend hier ist die Idee, Begriffe aus anderen Begriffen zusammenzusetzen, z. B. Kondensator = Speicher (Energie (elektrisch)). Publikationen, die über Kondensatoren berichten, könnten also auch mit der Schlagwort-Kombination „elektrisch, Energie, Speicher“ oder auch über ontologische Beziehungen und Definitionen inferiert und gefunden werden.

Nach Kenntnis des Autors verfügt keine der anderen Suchmaschinen und Portale für wissenschaftliche Publikationen über Angaben zu Keyword-Häufigkeiten. Bei der Suchmaschine GENIOS [12] wird z. B. für die Suchwort-Kombination „natural language generation“ angezeigt, wie viele Dokumente in welchen Branchen, Firmen, Personen, Regionen und Themen diese Suchbegriffe enthalten. Wenn in der Regel die Stichwörter im Text weit voneinander entfernt stehen, sind die Ergebnisse in Folge recht irrelevant. Angaben darüber, wie oft jedes einzelne Stichwort in Dokumenten vorkommt, gibt es nicht. Ähnliche Dokumentenhäufigkeiten werden auch von der Suchmaschine zbMATH Open [13] angezeigt. Dort ist möglich, durch Anklicken eines Begriffs unter „Filter Results by ...“ die Suchanfrage mit einem Klick zu erweitern. Allerdings gilt hier die gleiche Einschränkung bezüglich der Anzahl von Keyword-Frequenzen wie auch bei GENIOS. Demgegenüber erlaubt es die rOb.by-Suchmaschine die Suche mit einem Klick um beliebige Schlüsselwörter eines Dokuments zu erweitern und ist nicht eingeschränkt auf die Wörter, die als Suchbegriffe verwendet wurden.

Der Artikel hat gezeigt, wie wertvoll die Kenntnis der Schlüsselwort-Frequenzen für die Optimierung von Suchanfragen für wissenschaftliche Publikationen und für die Definition von lexikalischen Begriffen mit Regeln sein kann. Keyword-Häufigkeiten helfen Autoren bei der Auswahl der richtigen Keywords für die Verschlagwortung ihrer Publikationen. Auch die Möglichkeit, die Publikationen mit Suchbegriffen in mehreren Sprachen aufzufinden dürfte einzigartig sein. Als zusätzliche Funktion ermöglicht es die rOb.by-App, die Benachrichtigungen in Form der Titel und Zusammenfassungen in mehr als 25 Sprachen zu erhalten.

Für die Zukunft ist geplant, weitere Bibliotheksbestände zu erschließen, insbesondere in den Bereichen Bio-Medizin und Patente.

Referenzen

1. TIB–The Leibniz Information Center for Technology and Natural Sciences and University Library, https://www.tib.eu/de/ [17.07.2021].Search in Google Scholar

2. NAS–News-Alert-System: https://rob.by/en/NAS/System/ [11.07.2021].Search in Google Scholar

3. rOb.by – News-Alert-App (https://rob.by/en/App/ [11.07.2021].Search in Google Scholar

4. deepl, https://www.deepl.com/docs-api [11.07.2021].Search in Google Scholar

5. Stanza: Python NLP Library for Many Human Languages – formerly StandfordNLP, https://github.com/stanfordnlp/stanza/ [17.07.2021].Search in Google Scholar

6. TreeTagger, https://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger/ [17.06.2021].Search in Google Scholar

7. Christiane Fellbaum (Editors): WordNet: An Electronical Lexical Database, 1998, Mass.: MIT Press, Cambridge, https://books.google.de/books/about/WordNet.html?id=Rehu8OOzMIMC&redir_esc=y [17.06.2021].Search in Google Scholar

8. 3dna.news, data-driven-digital news agency, https://3dna.news/en/ [11.07.2021].Search in Google Scholar

9. Hermann Bense: Using Very Large Scale Ontologies for Natural Language Generation (NLG), 2017, in Stefano Borgo, Oliver Kutz, Frank Loebe, Fabian Neuhaus (Editors): Jowo 2017 – The Joint Ontology Workshops, Episode 3: The Tyrolean Autumn of Ontology, Bozen-Bolzano, Italy, Sept. 21–23, 2017, http://ceur-ws.org/Vol-2050/DAO_paper_1.pdf [11.07.2021].Search in Google Scholar

10. Hermann Bense, Ulrich Schade, Frederike Ohrem, Lukas Sikorski: Recherche-Unterstützung durch Ontologie Visualisierung im EnArgus2-Projekt, 2014, https://www.enargus.de/, [11.07.2021].Search in Google Scholar

11. CNS–Concept Numbering System, https://www.taoke.de/ke/CNS/ [11.07.2021].Search in Google Scholar

12. Genios, https://www.genios.de/ [17.07.2021].Search in Google Scholar

13. zbMAT, https://www.zbmath.org/about/ [17.07.2021]Search in Google Scholar

Online erschienen: 2021-10-09

Erschienen im Druck: 2021-10-05

Articles in the same Issue

Frontmatter
Frontmatter
Akademische Integrität
Regeln zur Sicherung guter wissenschaftlicher Praxis reloaded und die Rolle von Bibliotheken bei der Wahrung wissenschaftlicher Berufsethik
Portale und Suchmaschinen
Finden ohne Suchen: Automatische Benachrichtigungen über relevante wissenschaftliche Publikationen mit regelbasierter KI
Informationsrecht
Informationsfreiheit für alle – Dokumente, die darauf warten, veröffentlicht zu werden
Berufsbild
20 Jahre FaMI
Inhaltliche Erschließung
Automatisiertes klinisches Codieren
Computer- und Informationsethik
Data Ethics Frameworks
Bibliothek
Die Rolle der Bibliotheken bei der Medienkompetenzentwicklung
Tagungsbericht
Hybride Lehre in der Informationswissenschaft – Konzepte und Best Practices für Post-pandemische Lehrformate
„Indexing Unlimited“
„Get Your Indexing Shot in the Arm“
Personalien
Leserbrief
Vorsicht, Paradoxon!
Informationen
Buchbesprechung
Organisation und Projektmanagement. Fallstudien, Klausuren, Übungen und Lösungen
Geschäftsrelevante Informationen. Eine Handlungsanleitung zur risikoorientierten Bewertung von Aufzeichnungen nach ISO/TR 21946 Appraisal for managing records
Aus der DGI
Nachrichten
Terminkalender 2021/2022

https://doi.org/10.1515/iwp-2021-2173

Articles in the same Issue

Frontmatter
Frontmatter
Akademische Integrität
Regeln zur Sicherung guter wissenschaftlicher Praxis reloaded und die Rolle von Bibliotheken bei der Wahrung wissenschaftlicher Berufsethik
Portale und Suchmaschinen
Finden ohne Suchen: Automatische Benachrichtigungen über relevante wissenschaftliche Publikationen mit regelbasierter KI
Informationsrecht
Informationsfreiheit für alle – Dokumente, die darauf warten, veröffentlicht zu werden
Berufsbild
20 Jahre FaMI
Inhaltliche Erschließung
Automatisiertes klinisches Codieren
Computer- und Informationsethik
Data Ethics Frameworks
Bibliothek
Die Rolle der Bibliotheken bei der Medienkompetenzentwicklung
Tagungsbericht
Hybride Lehre in der Informationswissenschaft – Konzepte und Best Practices für Post-pandemische Lehrformate
„Indexing Unlimited“
„Get Your Indexing Shot in the Arm“
Personalien
Leserbrief
Vorsicht, Paradoxon!
Informationen
Buchbesprechung
Organisation und Projektmanagement. Fallstudien, Klausuren, Übungen und Lösungen
Geschäftsrelevante Informationen. Eine Handlungsanleitung zur risikoorientierten Bewertung von Aufzeichnungen nach ISO/TR 21946 Appraisal for managing records
Aus der DGI
Nachrichten
Terminkalender 2021/2022