Home Unsicherheiten menschlicher Entscheidungsfindung in Empfehlungssystemen
Article Publicly Available

Unsicherheiten menschlicher Entscheidungsfindung in Empfehlungssystemen

Oder: Was wir von den klassischen Naturwissenschaften übernehmen können
  • Kevin Jasberg

    Kevin Jasberg, Mathematiker und Physiker, ist Dozent und Wissenschaftler an der Universität Düsseldorf. In der Arbeitsgruppe Web Science erforscht er die menschliche Unsicherheit auf dem Gebiet des Data Mining. Dazu entwickelt er mathematische Kognitionsmodelle, basierend auf (neuro-)psychologischen Experimenten, und konzipiert Implementierungen dieser Modelle in modernen Ansätzen des maschinellen Lernens.

    EMAIL logo
    and Sergej Sizov

    Sergej Sizov ist Professor am Institut für Sprache und Information der Heinrich-Heine-Universität Düsseldorf und Leiter der Arbeitsgruppe „Web Science“. Zu seinen Forschungsschwerpunkten gehören multi-modale Analyse von komplexen Web-Inhalten, Semantic Web-Technologien sowie die Mensch-Maschine-Interaktion.

Published/Copyright: February 2, 2018
Become an author with De Gruyter Brill

Zusammenfassung

Eines der wichtigsten Anliegen adaptiver Informationssysteme ist die Modellierung menschlichen Verhaltes, um unter anderem Benutzerpersonalisierung und Empfehlungen anbieten zu können. Dies geschieht gewöhnlich durch die Beobachtung der Nutzerinteraktionen und durch das direkte Befragen der Benutzer selbst. Wie im Alltag, so auch im Umgang mit Informationssystemen, erweisen sich Menschen in ihren Entscheidungen als unbeständig und sprunghaft; komplexe Kognitionen führen nicht immer zu demselben Ergebnis, sodass sich Wahrscheinlichkeiten für eine Vielzahl möglicher Entscheidungen ergeben. Dieses Phänomen besitzt einen großen Einfluss auf heutige Informationssysteme. Daher stellt sich die Frage nach einer effektiven Modellierung dieser Unsicherheit in der menschlichen Entscheidungsfindung. In diesem Beitrag betrachten wir die Grundidee der Unsicherheit aus drei verschiedenen Perspektiven: der Mensch-Maschine-Interaktion, der Metrologie bzw. Physik sowie der Neurowissenschaft. Durch das Zusammenführen dieser Theorien bzw. der Übertragung ihrer spezifischen Methoden können wir eine wichtige Quelle der Unsicherheit menschlicher Entscheidungsfindung identifizieren und die begrenzte Möglichkeit ihrer Vermessung thematisieren. Der Einfluss dieser Unsicherheit wird dabei exemplarisch am Beispiel der komparativen Bewertung von Empfehlungsdiensten illustriert. Basierend auf unseren Ergebnissen diskutieren wir die möglichen Auswirkungen auf Informationssysteme im Allgemeinen und geben einen kurzen Überblick über mögliche Lösungsstrategien.

Abstract

One of the most crucial issues within the field of adaptive information systems is to model human behaviour in order to provide personalisation, adaptation and recommendation. This usually involves observing user interactions and questioning users. In everyday life and also while interacting with information systems, human beings tend to be volatile in their choices. In particular, complex cognitions do not always lead to the same decisions, but to distributions of possible decision outputs. This human uncertainty may sometimes have quite an impact on information systems. Consequently, the question of effective modelling this so called human uncertainty emerges naturally. In this contribution, we elaborate on uncertainty by means of three different perspectives: human-computer-interaction, metrology/physics and neuroscience. By unifying these theories and transferring their specific methods, we are able to identify relevant sources of uncertainty as well as the limited ability of its accurate measurement. The impact of human uncertainty is exemplified by the comparative assessments of recommender systems. Based on our findings, we discuss possible impacts on information systems in general and give a brief outlook of possible solution strategies.

Resumé

L'une des principales préoccupations des systèmes d'information adaptatifs est la modélisation du comportement humain, afin d'offrir, entre autres, une personnalisation en fonction de l'utilisateur et des recommandations. Pour ce faire, on utilise souvent des connaissances implicites ou explicites, obtenues à partir de l'observation des interactions des utilisateurs ou en consultant directement les utilisateurs. Cependant, dans la vie courante les gens prennent leurs décisions avec beaucoup d‘incertitude et leurs décisions sont également instables et versatiles dans l’utilisation des systèmes d'information. Plus précisément : des cognitions complexes ne conduisent pas toujours au même résultat, de sorte qu’il y a différentes probabilités pour un grand nombre de décisions possibles. Ce phénomène a un impact majeur sur les systèmes d'information actuels et les méthodes utilisées, de sorte que la question d'une modélisation efficace de l'insécurité humaine se pose. Dans cet article, nous considérons l'idée de base de l'incertitude de trois points de vue différents : l'interaction homme-machine, la métrologie ou la physique et les neurosciences. Cela nous permet d'identifier une importante source d'insécurité humaine et d'aborder la possibilité limitée de la mesure. L'influence de l'insécurité humaine est illustrée en partant de l'exemple de l'évaluation comparative des services de recommandation où nous découvrons notamment deux problèmes fondamentaux : (1) les effets de distorsion sur diverses métriques des prévisions basées sur des modèles et (2) la propagation de l'incertitude et les improbabilités qui s’en suivent sur des classements et des listes des meilleurs algorithmes. Sur base de nos résultats, nous démontrons l'impact potentiel de l'insécurité humaine sur les systèmes d'information en général et nous donnons un bref aperçu des stratégies de solution possibles. Cette discussion est soutenue par de nombreuses études d'utilisateurs et des simulations à grande échelle.

Einleitung

Informationen begleiten unser tägliches Leben. Im wissenschaftlichen Umgang damit spielt neben anderen Faktoren ihre Genauigkeit eine besondere Rolle. Sie bestimmt die Glaubwürdigkeit und damit den Wert einer Information. Diese Denkweise wird in den messenden Naturwissenschaften seit Jahrhunderten gelebt. Hier hat man sich allerdings von der Idee der (absoluten) Exaktheit verabschiedet, denn jede Messung ist mit einer mehr oder weniger großen Unsicherheit behaftet. Daher können wir nichts mit vollkommener Sicherheit wissen oder vorhersagen. So wird unser Leben nicht nur von Informationen begleitet, sondern auch von den Unsicherheiten dieser Informationen.

Doch wie verhält es sich mit Informationssystemen? Eine breite Vielfalt von Algorithmen und Ansätzen der modernen Datenanalyse zielt auf das Modellieren und Vorhersagen bestimmter Aspekte des menschlichen Verhaltens. Diese Bemühungen werden durch viele praktisch relevante Anwendungen motiviert. Dazu zählen Empfehlungsdienste, Inhaltspersonalisierung, zielgerichtete Werbekampagnen und viele mehr. Um dies leisten zu können, ist eine fundierte Kenntnis über das Verhalten der Anwender oder Anwendergruppen nötig, die entweder implizit durch Beobachtung oder explizit durch Befragungen gewonnen wird. Ein grundlegendes Problem dabei ist, dass viele Menschen ihre Entscheidungen mit einer gewissen Unsicherheit treffen. Hierunter ist zu verstehen, dass bestimmte Anwender ihre Entscheidungen nicht exakt reproduzieren, wenn sie diese mehrmals in einer ähnlichen Situation treffen müssen. Es ist davon auszugehen, dass sich diese Schwankungen als Resultat eines komplexen kognitiven Prozesses ergeben und durch diverse Faktoren (z. B. Stimmung, Medien, etc.) beeinflusst werden. Allerdings ist unser Wissen über diese Größen beschränkt, da gegenwärtige Messmethoden (z. B. das wiederholte Bewerten derselben Produkte) nur eine unzureichende Präzision besitzen. Wenn wir hier einen Paradigmenwechsel vollziehen und die Unsicherheit menschlicher Entscheidungsfindung als solche anerkennen, dann stellt sich die Frage nach deren Auswirkung auf heutige Informationssysteme. In der Tat konnten erste Untersuchungen einen sehr großen Einfluss dieser Unsicherheit auf die Evaluation verschiedener Ansätze moderner Datenanalyse nachweisen.

In diesem Artikel möchten wir uns für eine realitätsnahe Sichtweise der Informationsunsicherheit einsetzen und potentielle Auswirkungen auf Informationssysteme beleuchten. Hierzu charakterisieren wir die Unsicherheit menschlicher Entscheidungen durch moderne Konzepte der Neuropsychologie und bedienen uns etablierter Modelle der Unsicherheit aus den Naturwissenschaften. Wir erhoffen so, in der Informationswissenschaft einen Paradigmenwechsel zu einem probabilistischen Verständnis für die Natur der Wissenschaft zu bewirken.

Unsicherheit menschlicher Entscheidungsfindung

Der Begriff der Unsicherheit wird in verschiedenen wissenschaftlichen Disziplinen unterschiedlich definiert. In der Naturwissenschaft wird Unsicherheit im weitesten Sinne als Zweifel an der Gültigkeit eines Ergebnisses verstanden und bezeichnet ein dem Messergebnis zugeordneter Parameter, der die Streuung der Werte kennzeichnet, die einer physikalischen Messgröße zugeordnet werden können (DIN, 1995). Im Behavioural Decision Making hingegen steht Uncertainty für eine oder mehrere unbekannte Variablen, die für eine Entscheidung von Belang wären (Takemura, 2014). Im Sinne der Mensch-Maschine-Interaktion verstehen wir unter Unsicherheit die Eigenschaft vieler Menschen ihre Entscheidungen bei wiederholter Befragung nicht exakt reproduzieren zu können (fehlende Reliabilität). Hier erscheint die Unsicherheit als eine charakteristische Eigenschaft des kognitiven Prozesses der menschlichen Entscheidungsfindung, die das Ergebnis maßgeblich beeinflusst und damit zu einer umstandsabhängigen sowie zeitlichen Instabilität führt.

Auch wenn dies auf den ersten Blick nicht so scheint, so erweisen sich diese verschiedenen Begriffe als Ausprägungen eines tiefer zugrundeliegenden Mechanismus. Die Verbindung, sowie der Ursprung der Unsicherheit in der menschlichen Entscheidungsfindung, kann durch Erkenntnisse der Neurowissenschaft verstanden werden: Jede Kognition wird auf elementarster Ebene durch die Weiterleitung von elektrischen Impulsen bewerkstelligt. Die weiterleitenden Nervenzellen (Neuronen) sind aber keineswegs leitfähig verbunden, sodass die Information über chemische Botenstoffe, den sogenannten Neurotransmittern, über den synaptischen Spalt hinweg weitergegeben werden muss (Erdmann, 2004). Dabei führt ein und dieselbe Information zu unterschiedlichen Konzentrationen der ausgeschütteten Transmitter (Pouget, 2006). Da Neuronen erst ab einer bestimmten Eingangsspannung (Schwellenwert) auslösen, können diese Fluktuationen dazu führen, dass zu schwache Signale über diesen Schwellenwert gehoben werden (Neuron löst aus) oder dass ausreichend starke Signale unterhalb dieses Schwellenwertes gesenkt werden (Neuron löst nicht aus). Diese natürlichen Fluktuationen induzieren ein neurologisches Rauschen, das bei der Entscheidungsfindung eine zentrale Rolle einnimmt und die Unsicherheitsbegriffe der Metrologie und der Mensch-Maschine-Interaktion auf sinnvolle Weise miteinander verbindet und ihre Methoden übertragbar macht.

Wir wollen diesen grundlegenden Prozess der Entscheidungsfindung an einem Beispiel verstehen: Sie nähern sich mit einem Auto einer Ampel, die plötzlich von grün auf gelb umschaltet. Beschleunigen Sie oder bremsen Sie ab? Wohl keiner von uns könnte diese Frage beantworten, ohne die konkreten Umstände der Situation zu kennen. Es liegt also eine Unsicherheit vor, da wichtige Einflussfaktoren unbekannt sind, wie die verfügbare Beschleunigung (Würde ich es rechtzeitig über die Ampel schaffen?), die Bremsleistung (Wo käme ich zum Stehen?) oder die Reaktion der hinteren Fahrzeuge (Wo kämen diese zum Stehen?). Streng genommen bleiben diese relevanten Informationen selbst in einer konkreten realen Situation unbekannt. Ein geübter Fahrer kennt in etwa die Beschleunigungsleistung seines Fahrzeuges in Abhängigkeit von Geschwindigkeit, Drehzahl und gewähltem Gang. Ebenso kann der Bremsweg für gegebene Witterungsverhältnisse und Geschwindigkeiten aus der Erfahrung heraus eingeschätzt werden. Entscheidend ist, dass diese Schätzungen nicht exakt sind, sondern Unsicherheiten im physikalischen Sinne beinhalten. Wenn der Weg zur Ampel genau 14 m beträgt und der Anhalteweg genau 13 m, so ist die Entscheidung eindeutig. Doch wie lautet die Entscheidung, wenn der Weg zur Ampel (14±2)m und der Anhalteweg (13±2)m beträgt? Im schlimmsten Fall würden wir mitten auf der Kreuzung zum Stehen kommen. An dieser Stelle hilft das neuronale Rauschen, diese physikalischen Unsicherheiten zu modellieren und so dem Kognitionsprozess verfügbar zu machen (Pouget, 2006). Jede mit Unsicherheit behaftete Schätzung einer unbekannten Variable wird dabei durch einen Neuronenverbund modelliert (Agententheorie) (Friston, 2010). Durch das neuronale Rauschen erhält jedes einzelne Neuron und damit der gesamte Agent eine Antwortwahrscheinlichkeit über spezifische Ausprägungen des Stimulus hinweg. Über das Bayes-Theorem kodieren diese Antwortwahrscheinlichkeiten eine Wahrscheinlichkeitsdichte über die möglichen Ausprägungen des Stimulus. Damit steht der Kognition ein Bereich möglicher Werte (z. B. die Entfernung zur Ampel) zur Verfügung, wobei diese zusätzlich mit einem Vertrauenswert assoziiert sind (Bayesianischer Wahrscheinlichkeitsbegriff). Mathematisch gesprochen stellt jeder Agent einen Prior, d. h. eine (informative) erste Schätzung über eine unbekannte Variable bereit, die durch ein mehrschichtiges rekurrentes Neuronalnetz in einen Posterior überführt wird (Pouget, 2006). Dieser Posterior repräsentiert eine Wahrscheinlichkeitsdichte mit der eine Entscheidung getroffen werden kann. Dies zeigt, dass die erwähnten Definitionen von Unsicherheit zusammenhängen und es ermöglichen, Methoden und Werkzeuge verschiedener Disziplinen auf den Gegenstand der Informationssysteme anzuwenden.

Experimentelle Nachweise

Dass die menschliche Entscheidungsfindung mit einer gewissen Unsicherheit behaftet ist, wissen wir aus Alltagserfahrungen. Doch wurde dieses Phänomen bislang nur unzureichend in Hinblick auf Nutzerrückmeldungen an Informationssysteme untersucht.

Eine erste Studie in dieser Richtung sollte das Anwendungspotential einfacher Denkstrategien (Heuristiken) bei der Entscheidungsfindung unter Unsicherheit für Empfehlungsdienste demonstrieren (Hill, 1995). Während sich die Anwendung dieser Heuristiken als fruchtbar erwies, wurden bei Neubewertungen Reliabilitätsprobleme registriert. Dies liefert abermals einen Hinweis auf die enge Verwobenheit der bereits ausgeführten Unsicherheitsbegriffe (fehlende Information und fehlende Reliabilität). Man mutmaßte, dass kein Empfehlungsalgorithmus genauer sein könne als die Varianz der gegebenen Nutzerbewertungen. Das Problem dabei war aber der große zeitliche Abstand zwischen den wiederholten Bewertungen und die vielen Möglichkeiten von Verzerrungen durch unkontrollierte Einflussfaktoren zwischen den einzelnen Bewertungsdurchläufen.

In Anlehnung an diese Studie wurde 2016 von uns die RETRAIN-Studie (Reliability Trailer Rating) in Form eines Online-Experimentes durchgeführt, bei der 67 Teilnehmer die Filmvorschauen populärer Kinofilme und TV-Serien in kürzerem Abstand wiederholt bewerten sollten (Jasberg, 2017e). Dabei wurden in fünf Durchgängen jeweils zehn Filmvorschauen in randomisierter Reihenfolge bewertet und für fünf zuvor festgelegte Filmvorschauen gespeichert. Somit umfasst der gewonnene Datensatz N=1675 Einzelbewertungen. Unter diesen Bedingungen zeigten nur 35 Prozent aller Nutzer ein konstantes Antwortverhalten, während 50 Prozent zwei verschiedene Antwortkategorien nutzten und 15 Prozent sogar drei oder mehr Kategorien verwendeten (s. Abb. 1). Diese Resultate zeigen, dass der derzeitige Status quo der Datenmodellierung von Nutzerantworten, d. h. die Betrachtung des Nutzers als eine konstante Funktion, nur für 35 Prozent der Nutzer zutrifft, im Schnitt werden also 13 von 20 Nutzern dadurch nur unzulänglich beschrieben. Eine parallel hierzu durchgeführte Studie zur wiederholten Bewertung von Bildern kann die oben genannten, wie auch die später dargelegten Ergebnisse bestätigen. Dies beweist die Unabhängigkeit der aufgefundenen Eigenschaften vom untersuchten Medium. So stellt sich die Frage nach einer effizienten Modellierung von menschlichen Rückmeldungen und deren Unsicherheit. Dabei benötigt jedes Datenmodell spezifische Informationen, sodass wir uns zuerst mit verschiedenen Messmethoden und deren Interpretationen auseinandersetzen müssen.

Abbildung 1 Häufigkeit der verwendeten Antwortkategorien (Wechsel der Entscheidungen) bei wiederholten Bewertungen in der RETRAIN-Studie (N=335).
Abbildung 1

Häufigkeit der verwendeten Antwortkategorien (Wechsel der Entscheidungen) bei wiederholten Bewertungen in der RETRAIN-Studie (N=335).

Datenmodell, Messung und Messunsicherheit

Bei der wiederholten Befragung eines Nutzers bilden die verwendeten Antwortkategorien sowie deren Häufigkeiten ein Histogramm, also eine empirische Wahrscheinlichkeitsdichte im Sinne des frequentistischen Wahrscheinlichkeitsbegriffs (s. Abb. 2 u. 3). Daher liegt es nahe, Nutzerrückmeldungen an Informationssysteme als eine Zufallsvariable zu beschreiben, die einer spezifischen Verteilung folgt. Dabei erweisen sich Normalverteilungen als die Modelle der Wahl. Zum einen wird dies durch die Theorien der Neurowissenschaft unterstützt, in denen die Weiterleitung einer Mehrzahl von Prioren in einem rekurrenten Neuronalnetz angenommen wird und sich nach dem Gesetz der großen Zahlen zwangsläufig eine Normalverteilung als Posterior einstellen muss (Pouget, 2006). Aber auch in der Physik wird die Normalverteilung als das beste Modell vorgeschlagen, insofern Informationen über die zentrale Tendenz und die Streuung der Daten gegeben sind; in diesem Fall maximiert die Normalverteilung die Informationsentropie (Maximums-Entropie-Prinzip) (Joint Committee for Guides in Metrology, 2008). Doch wie erlangen wir die nötigen Informationen über die zugrundeliegenden Verteilungsparameter?

Abbildung 2 und 3 Beispiele für Rückmeldungsverteilungen und ihre natürliche Entstehungsweise als normiertes Histogramm (N=5).
Abbildung 2 und 3

Beispiele für Rückmeldungsverteilungen und ihre natürliche Entstehungsweise als normiertes Histogramm (N=5).

Eine simple Messmethode haben wir angesprochen, nämlich das wiederholte Bewerten derselben Produkte, wie es bereits von Amatriain (2009) verwendet wurde. Wenn auch simpel in der Umsetzung, hat diese Methode zwei grundlegende Probleme: Das erste ist die Validität. Durch Hypothesentests konnte auf den Datensätzen der RETRAIN- und der Bilder-Studie nachgewiesen werden, dass die Nutzer ihre Entscheidungen nicht durchgängig aus derselben Verteilung ziehen. Eine mögliche Erklärung liefert die Neurowissenschaft: Durch die Fluktuation von Neurotransmittern entsprechen die ausgebildeten Priore bei erneuter Kognition nie exakt den Vorherigen. So erzeugt jede Kognition einen leicht abweichenden Posterior. Mehrere Bewertungsdurchgänge zu verwenden, um eine einzelne Meinungsverteilungen zu konstruieren, scheint daher nicht sinnvoll. Das zweite Problem ist die geringe Informationsmenge pro Nutzerabfrage. Da Nutzern nur eine übersichtliche Anzahl an erneuten Bewertungen zumutbar sind, können die Parameter der Meinungsverteilungen nicht exakt bestimmt, sondern nur innerhalb gewisser Konfidenzintervalle lokalisiert werden. Die Breite dieser Konfidenzintervalle ist ein Maß für die Unsicherheit der verwendeten Messmethode und kann nur durch eine höhere Anzahl an Neubewertungen reduziert werden, was aber die Validität der Messmethode schmälert. Dies wirft die Frage nach einer verbesserten Messmethode für die Unsicherheit menschlicher Entscheidungsfindung auf.

Um eine solche Messmethode handelt es sich bei der jüngst entwickelten WDF-Bewertung (Wahrscheinlichkeitsdichtefunkiton) (Jasberg, 2017b), die auf dem Bayesianischen Wahrscheinlichkeitsbegriff basiert und bei der die individuelle Meinungsverteilung als Ganzes erhoben wird. Damit kommen Validitätsprobleme aufgrund von Ziehungen aus verschiedenen Verteilungen zu unterschiedlichen Zeitpunkten nicht auf. Im Sinne von Bayes wird die Wahrscheinlichkeit in Form einer Konfidenz bzw. dem Vertrauensgrad dafür eingegeben, sodass eine vorliegende Bewertung für das entsprechende Konsumgut adäquat erscheint. Dies ähnelt stark dem Konzept der Vorerfahrung im Sinne eines informativen Priors im Bayesianischen Lernen und vernetzt so das Gebiet des maschinellen Lernens mit den Theorien der kognitiven Neurowissenschaft. Umgesetzt wurde dieser Ansatz erstmals im Anschluss an die RETRAIN-Studie. Der Prototyp bestand aus fünf Schiebereglern, mit denen die Frage nach der Angemessenheit einer möglichen Bewertung mit n Sternen (1 bis 5) beantwortet werden konnte. Die Antwortmöglichkeiten der Schieberegler variierte jeweils von „sehr unangemessen“ bis „sehr angemessen“ und wurde intern zu einer Kardinalskala übersetzt. Der Hypothesentest zeigte, dass die Auswahl der Messmethode keine signifikanten Unterschiede zwischen den resultierenden Meinungsverteilungen bewirkt. Eine Auswertung der potentiellen Messfehler (operationalisiert durch die Länge der Konfidenzintervalle) erwies, dass die WDF-Bewertung für die Hälfte der Nutzerdaten eine exaktere Vermessung garantiert, während die andere Hälfte durch die Methode der Neubewertungen präziser vermessen werden kann (s. Abb. 4 u. 5). Dies ist damit zu erklären, dass verschiedene Nutzer bei der Verwendung der WDF-Bewertung Möglichkeiten zulassen, die bei den Neubewertungen gar nicht erfasst werden können. Betrachten wir zur dichotomen Unterscheidung (besser oder schlechter) die konkrete Ausprägung dieser Merkmale, erkennen wir einen erheblichen Vorteil der WDF-Bewertungen. Während die potentiellen Verschlechterungen (negative Abszisse) durch WDF-Bewertungen relativ gering ausfallen, ist der potentielle Präzisionsgewinn um den Faktor drei bis vier größer (positive Abszisse), sodass sich im Mittel eine Verbesserung auf dem gesamten Datensatz einstellt.

Bei diesem Datenmodell wird die Unsicherheit menschlicher Entscheidungsfindung durch die Standardabweichung bzw. Varianz der individuellen Meinungsverteilungen operationalisiert. Im Gegensatz zu den Meinungsverteilungen unterscheiden sich die Verteilungen dieser Unsicherheit jedoch massiv. Für die Methode der Neubewertungen ergibt sich eine Pareto-Verteilung, d. h. nur wenige Menschen sind sehr unsicher, sehr viele Menschen dagegen sehr sicher in ihren Entscheidungen. Dies widerspricht unserer Alltagserfahrung und mag ein Resultat der unnatürlichen Messmethodik sein, bei der Nutzer

Abbildung 4 Verteilung der Längendifferenzen für den Mittelwert der Rückmeldungsverteilungen bezüglich Neubewertung und WDF-Bewertung.
Abbildung 4

Verteilung der Längendifferenzen für den Mittelwert der Rückmeldungsverteilungen bezüglich Neubewertung und WDF-Bewertung.

Abbildung 5 Verteilung der Längendifferenzen für die Standardab-weichung der Rückmeldungsverteilungen bezüglich Neubewertung und WDF-Bewertung.
Abbildung 5

Verteilung der Längendifferenzen für die Standardab-weichung der Rückmeldungsverteilungen bezüglich Neubewertung und WDF-Bewertung.

zu einer Auswahl eines grob klassifizierten, diskreten Wertes gezwungen werden. Dagegen liefert die Methode der WDF-Bewertungen normalverteilte Unsicherheiten, wie sie bei der Betrachtung menschlicher Eigenschaften oft vorkommen. Eine bemerkenswerte Eigenschaft dieser Verteilungen, aggregiert für jedes Konsumgut, ist der gemeinsame Mittelwert. Dieser zeigt einen grundlegenden Kognitionseffekt an. Die Unsicherheit in der Entscheidungsfindung als Manifestation neuronalen Rauschens ist eine Eigenschaft, die in jedem Menschen mehr oder weniger wirkt, wobei große Abweichungen von der Norm im Normalzustand weniger wahrscheinlich sind als kleinere.

Vergleicht man die Unsicherheit der verwendeten Messmethoden über die Differenz der Standardabweichungen, die sich für die einzelnen Quantile der Meinungsverteilungen ergeben, lassen sich drei grundlegende Gruppen von Benutzern sichtbar machen: Homogene, akkumulierte und irreguläre Nutzer. Für die homogene Nutzergruppe (Abb. 6a) folgt die Präzision der kognitionsbasierten und der aktionsbasierten Bewertung einem funktionellen Zusammenhang, so dass Aktion und Kognition ineinander überführt werden können. Es ist anzunehmen, dass die Nutzer dieser Gruppe eine wohl überlegte Rückmeldung übermittelt haben. Bei der akkumulierten Nutzergruppe (Abb. 6b) ist ein funktioneller Zusammenhang zu erahnen. Dieser wird aber an verschiedenen Stellen unterbrochen. An diesen Unterbrechungen existiert kein funktioneller Zusammenhang zwischen Kognition und Handlung, sodass diese Stellen als Manifestation eines „Bauchgefühls“ verstanden werden können. Die irreguläre Nutzergruppe weist über alle Quantile hinweg keinen Zusammenhang auf. Hier muss man davon ausgehen, dass diese Benutzer keine ernst zu nehmende Rückmeldung gegeben haben. Der Anteil der jeweiligen Nutzergruppen stützt den bereits erwähnten experimentellen Nachweis der Unsicherheit im Entscheidungsprozess: Die Hälfte aller Benutzer verlässt sich bei der Erstellung von Rückmeldungen auf ihr Bauchgefühl, während nur etwa ein Drittel der Benutzer verlässliche, d. h. reliable Informationen liefert.

 a: Homogene Nutzergruppe und funktionaler Zusammenhang zwischen Handlung und Kognition.b: Akkumulierte Nutzergruppe und Manifestation des Bauchgefühls.c: Irreguläre Nutzergruppe ohne Zusammenhang zwischen Handlung und Kognition.Abbildung 6: Beispiele aus der Messunsicherheitsanalyse mittels Simulation der Standardabweichungen für die Quantilverteilungen.

a: Homogene Nutzergruppe und funktionaler Zusammenhang zwischen Handlung und Kognition.b: Akkumulierte Nutzergruppe und Manifestation des Bauchgefühls.c: Irreguläre Nutzergruppe ohne Zusammenhang zwischen Handlung und Kognition.Abbildung 6: Beispiele aus der Messunsicherheitsanalyse mittels Simulation der Standardabweichungen für die Quantilverteilungen.

Platzierung, Ranglisten und Fehler

Nachdem wir die Existenz von Unsicherheiten im Entscheidungsprozess gezeigt und ein adäquates Modell zu ihrer Beschreibung entwickelt haben, wollen wir ihren Einfluss auf heutige Informationssysteme betrachten. Häufig basieren diese Systeme auf Big Data und haben sich in den letzten Jahren stetig verbessert – könnte man denken. Doch dies ist ein Trugschluss, der bei Berücksichtigung der Unsicherheit aufgedeckt werden kann. Stellvertretend dafür dient uns die Bewertung von Empfehlungsdiensten wie die Ausschreibung des Netflix Prize (Netflix Inc., 2009).

Auf Grundlage der RETRAIN-Studie wurden drei verschiedene Empfehlungsalgorithmen vorab durch die Definition ihrer Prediktoren definiert: Algorithmus 1 empfiehlt den Mittelwert der Meinungsverteilung, Algorithmus 2 empfiehlt die erste abgegebene Bewertung eines Nutzers zu einem Konsumgut und Algorithmus 3 empfiehlt konstant drei Sterne. Verglichen wurden diese Algorithmen hinsichtlich der Metrik des RMSE (Quadratwurzel der mittleren quadratischen Abweichung zwischen Prediktoren und realen Bewertungen) (Jasberg, 2017d). Abbildung 7 zeigt die möglichen RMSE-Punktzahlen und ihre Häufigkeiten, die durch die oben genannten Empfehlungsdienste in den verschiedenen Bewertungsdurchläufen erreicht wurden. Es ist offensichtlich, dass die verwendete Metrik aufgrund der unsicheren Nutzerrückmeldungen eine gewisse Unsicherheit erhält und nach Abbildung 7 drei verschiedene Rangfolgen möglich sind. Das Problem wird für System 2 (grün) am deutlichsten, da dieses sowohl den besten als auch den schlechtesten Algorithmus enthalten kann. Damit ändert sich die Frage für derartige Evaluationen: Wir sind nicht mehr an der einzig wahren Rangordnung interessiert, sondern fragen nach der Wahrscheinlichkeit für jede denkbare Rangordnung. In unserem Beispiel sind die Wahrscheinlichkeiten für jede Rangfolge keineswegs vernachlässigbar, sodass wir stets das Risiko einer Fehlentscheidung eingehen, egal für welches System wir uns entscheiden.

Abbildung 7 Histogramm der RMSE-Punktzahlen dreier Empfehlungssysteme bei wiederholter Nutzerbefragung.
Abbildung 7

Histogramm der RMSE-Punktzahlen dreier Empfehlungssysteme bei wiederholter Nutzerbefragung.

Dies trifft den Kern der Sache, da wir für Vergleiche zwischen Informationssystemen häufig Metriken heranziehen, die unsichere Nutzerrückmeldungen verwenden. Diese Unsicherheit pflanzt sich in den betrachten Metriken fort und macht Vergleiche extrem schwierig. Mathematisch gesprochen wird das Ergebnis einer Metrik als eine stetige Funktion von Zufallsvariablen selbst zu einer Zufallsvariable, die einer bestimmten Verteilung folgt. So können die resultierenden Verteilungen zweier Systeme eine starke Überlappung haben, sodass diese bezüglich der gewählten Metrik gar nicht zu unterscheiden sind (vgl. Abb. 8).

Abbildung 8 Auflösungsvermögen von RMSE-Punktzahlen unter Berücksichtigung von Unsicherheit.
Abbildung 8

Auflösungsvermögen von RMSE-Punktzahlen unter Berücksichtigung von Unsicherheit.

Diese Überlappungen sind es, die für jede Rangordnung eine gewisse Fehlerwahrscheinlichkeit induzieren (Jasberg, 2017a). Eine quantitative Berechnung dieser Fehlerwahrscheinlichkeiten ist einerseits durch Monte-Carlo-Simulationen, andererseits unter gewissen Grundannahmen möglich. Überträgt man die Informationen über die Unsicherheit menschlicher Entscheidungen aus der RETRAIN-Studie auf andere Datensätze, beispielsweise den des Netflix Prize, lassen sich auch dort im Nachhinein mögliche Auswirkungen dieser Unsicherheit diskutieren (Jasberg, 2017c) (s. Abb. 9). Beispielsweise ist die Entscheidung darüber, dass der drittplatzierte Algorithmus besser ist als der Viertplatzierte, mit einer Irrtumswahrscheinlichkeit von 25 Prozent behaftet, also in einer von vier Wiederholungen würden sich diese Platzierungen vertauschen. Ebenso ergeben sich für die Plätze vier bis sechs sehr große Irrtumswahrscheinlichkeiten, sodass eine Permutation dieser Platzierungen bei wiederholter Nutzerbefragung und ansonsten gleicher Algorithmen nicht auszuschließen ist. Noch brisanter ist die Betrachtung der Plätze neun bis zwölf, da sich hier die Fehlerwahrscheinlichkeiten dem maximal möglichen Wert nähern; der Einzug in die Rangliste der besten Zehn und damit die Möglichkeit auf Ruhm und Ehre ist somit nur vom Zufall abhängig und keineswegs von der Vorhersagequalität der entwickelten Algorithmen. Dieses Beispiel zeigt, dass die vermeintliche Verifikation der Systeme unter dem Schutzmantel von Big Data trügerisch ist und hinsichtlich der Unsicherheiten im Entscheidungsprozess neu durchdacht werden muss.

Abbildung 9 Fehlerwahrscheinlichkeiten für paarweise Anordnungen der Top-Platzierungen im Netflix Prize.
Abbildung 9

Fehlerwahrscheinlichkeiten für paarweise Anordnungen der Top-Platzierungen im Netflix Prize.

Menschliche Barrieren

Eine Eigenschaft von Irrtumswahrscheinlichkeiten (im Sinne eines Rankings) bzw. der Unterscheidbarkeit (im Sinne einer Trennung von Metrikdichten) ist ihre funktionale Abhängigkeit von der Vorhersagequalität. Auf Grundlage der RETRAIN-Studie konnte in Simulationen gezeigt werden, dass zwei Empfehlungssysteme mit einem konstanten Qualitätsunterschied von zehn Prozent bezüglich des RMSE unterschieden werden können, wenn es sich um schlechte Systeme handelt. Je besser die Systeme auf dem Datensatz operieren, desto ununterscheidbarer werden diese unter Beibehaltung des konstanten Qualitätsunterschiedes (s. Abb. 10). Die Vorhersagequalität (Abszisse) ist hierbei durch die mittlere Differenz zwischen Vorhersagewert und tatsächlicher Bewertung operationalisiert. Als Grenzwert für Unterscheidbarkeit (rote Markierung) dient eine Fehlerwahrscheinlichkeit von fünf Prozent, die in Anlehnung an das gängige Signifikanzniveau von statistischen Hypothesentests festgelegt wurde. Je nach Ausmaß der Unsicherheit menschlicher Entscheidungsfindung, die in einem realen Szenario durch die verwendete Antwortskala limitiert wird, können Systeme nur bis zu einer gewissen Vorhersagequalität voneinander unterschieden werden. Übertragen wir diese Eigenschaft auf den Optimierungsprozess eines einzelnen Systems – wir betrachten also die Unterscheidbarkeit eines verbesserten Produktes zu seiner Vorgängerversion – kann eine derart hohe Vorhersagequalität erreicht werden, dass das verbleibende Verbesserungspotential des Systems kleiner ist als der notwendige Qualitätsunterschied für eine statistische Unterscheidbarkeit. Anders ausgedrückt: Ab einer bestimmten Qualität unserer Systeme können weitere Verbesserungen nicht mehr zweifelsfrei identifiziert werden; es existiert nur eine Äquivalenzklasse von exzellenten Systemen. Diese Grenze, die sich als ein Spezialfall von Unterscheidbarkeit ergibt, ist in der Literatur als Magic Barrier bekannt (Said & Jane, 2012). Eine Verallgemeinerung dieses Konzeptes wird Human Barrier genannt.

Abbildung 10 Ranking Error bzw. Unterscheidbarkeit zweier Empfehlungsdienste mit konstantem Qualitätsunterschied von 10 % in Abhängigkeit der Vorhersagequalität.
Abbildung 10

Ranking Error bzw. Unterscheidbarkeit zweier Empfehlungsdienste mit konstantem Qualitätsunterschied von 10 % in Abhängigkeit der Vorhersagequalität.

Quantitativ können diese Barrieren als das Minimum einer Metrik beschrieben werden, die sich unter Berücksichtigung der Unsicherheit für ein optimales Empfehlungssystem ergeben. So erhält jede Metrik ihre spezifische Barriere, die für den RMSE nahe des Erwartungswertes der Unsicherheit menschlicher Entscheidungsfindungen verortet werden kann. Dies untermauert die Vermutung von Hill et al. (1995), dass Empfehlungssysteme niemals genauer vorhersagen können als die Varianz der betrachteten Nutzerrückmeldungen. Somit ist die Magic Barrier bzw. die Human Barrier eine Art menschliches Grundrauschen auf der Metrik, das die von den Systemen erzielten Punktzahlen mitunter überlagern kann. Konsequenter Weise werden hierdurch alle Rangfolgen auf der Grundlage kleinerer Punktzahlen zufällig und die damit assoziierten Systeme ununterscheidbar. Diese Grenze ist nicht als ein scharf lokalisierter Wert zu verstehen, da die Unsicherheit menschlicher Entscheidungsfindung neben der Entstehung auch die Unsicherheit dieser Barriere induziert (Jasberg, 2017d). Die errechneten Metriken können zu einem System bereits von der Unsicherheit menschlicher Entscheidungsfindung verfälscht werden, auch wenn die Magic Barrier noch nicht unterschritten wurde. Im Gegenzug heißt dies, dass Metriken unterhalb der Magic Barrier nicht zwangsläufig verfälscht sein müssen. Vielmehr zeigt sich, dass simple ja-nein-Entscheidungen zur Modellierung der Realität ungeeignet sind und wir stattdessen alle Möglichkeiten mit ihren Wahrscheinlichkeiten in Betracht ziehen sollten. Der Aspekt der Human Barrier ist besonders dann wichtig, wenn personelle und finanzielle Ressourcen in einen vermeintlichen Optimierungsprozess investiert werden, die erzielten Resultate aber rein zufälliger Natur sind, was unbemerkt bleibt. Eine differenzierte Analyse der Unsicherheit menschlicher Entscheidungsfindung nach aktuellen metrologischen Modellen muss wesentlicher Bestandteil komparativer Studien über Empfehlungsdienste bzw. über Informationssysteme im Allgemeinen sein.

Bedeutung für Informationssysteme

Die hier vorgestellte Forschung untersucht die Unsicherheiten menschlicher Entscheidungen im Kontext von Informationssystemen. Der Schwerpunkt liegt auf zwei grundlegenden Faktoren: Der erste umschließt die Unsicherheit bei der Erstellung von Nutzerrückmeldungen. Der zweite beinhaltet die maschinelle Verarbeitung dieser unsicheren Rückmeldungen sowie die Validität und Reliabilität von internen Punktzahlen und den daraus resultierenden Entscheidungen. Der bisherige Forschungsansatz geht davon aus, dass sich Menschen durch konstante Funktionen beschreiben lassen, die auf der Grundlage von als absolut geltenden Nutzerdaten gelernt werden können. Dem stellen wir einen probabilistischen Ansatz entgegen und verbinden damit die Episteme sowie Methodik der Metrologie und Neurowissenschaft. In diesem Ansatz folgen menschliche Rückmeldungen eher einer Normalverteilung und erst wenn Entscheidungen akut gefällt werden müssen, werden einzelne Werte aus diesen Verteilungen gezogen.

Die Auswirkungen der Unsicherheit menschlicher Entscheidungsfindung auf heutige Informationssysteme sind immens, wie wir am Beispiel zur Messung der Vorhersagequalität von Empfehlungssystemen gesehen haben. Zum einen ist der Vergleich zwischen verschiedenen Informationssystemen schwierig sowie mit der gegenwärtig verwendeten Methodik mit hohen Irrtumswahrscheinlichkeiten verbunden. Zum anderen ist die Verifikation eines Informationssystems selbst mit Big Data äußerst trügerisch. So wurden Wettbewerbe ausgeschrieben und in der wissenschaftlichen Community vielfach lobend zitiert, deren Ranglisten teils mehr auf Zufall basieren als auf der eigentlich im Fokus stehenden Systemqualität.

Diese Erkenntnisse plädieren dafür, die menschlichen Eigenheiten verstärkt in den Fokus der Forschung über Informationssysteme zu stellen und unseren Algorithmen beizubringen, die wahre Natur der menschlichen Entscheidungen zu erfassen und zu verarbeiten.

Blick in die Zukunft

Der Untertitel dieses Artikels stellt die Frage, was wir von den klassischen Naturwissenschaften übernehmen können. Zum einen ist dies ein für unseren Fachbereich neu anmutendes Paradigma der Unsicherheit. Auch wir müssen uns von der idealisierten Vorstellung lösen, dass die gesammelten und gespeicherten Informationen absolut gültig und glaubwürdig sind. Wir sollten stattdessen jeden Messwert – ähnlich wie in der Metrologie – hinterfragen. Daher sollten zukünftige Systeme die immanente Unsicherheit adäquat berücksichtigen. Es gilt fachübergreifend neueste Modelle des Menschen zu beachten und wohletablierte Methoden der Informationswissenschaft durch Werkzeuge anderer Disziplinen zu erweitern. Wir benötigen darüber hinaus neue Metriken zur komparativen Auswertung von Systemen – ein Fall für die Stochastik – sowie neue Messmethoden zur Erfassung menschlicher Charakteristiken – ein Fall für die Psychometrie.

Das übergeordnete Ziel sollte die Entwicklung eines Modells zur Beschreibung von Unsicherheit menschlicher Entscheidungsfindung bei der Interaktion mit Computersystemen sein, das leicht durch die Übersetzung in adäquate Algorithmen in bestehende Systeme implementiert werden kann. Um dabei der Bandbreite dieses Unterfangens Rechnung zu tragen, muss die Forschung sowohl eine anwendungsorientiert-technische als auch eine erkenntnistheoretisch-psychologische Komponente besitzen.

Über die Autoren

Kevin Jasberg

Kevin Jasberg, Mathematiker und Physiker, ist Dozent und Wissenschaftler an der Universität Düsseldorf. In der Arbeitsgruppe Web Science erforscht er die menschliche Unsicherheit auf dem Gebiet des Data Mining. Dazu entwickelt er mathematische Kognitionsmodelle, basierend auf (neuro-)psychologischen Experimenten, und konzipiert Implementierungen dieser Modelle in modernen Ansätzen des maschinellen Lernens.

Prof. Dr. Sergej Sizov

Sergej Sizov ist Professor am Institut für Sprache und Information der Heinrich-Heine-Universität Düsseldorf und Leiter der Arbeitsgruppe „Web Science“. Zu seinen Forschungsschwerpunkten gehören multi-modale Analyse von komplexen Web-Inhalten, Semantic Web-Technologien sowie die Mensch-Maschine-Interaktion.

Literatur

Amatriain, X., Pujol, J. M., Tintarev, N., & Oliver, N. (2009, October). Rate it again: increasing recommendation accuracy by user re-rating. In Proceedings of the Third ACM Conference on Recommender systems (pp. 173-180). New York: Association for Computing Machinery.10.1145/1639714.1639744Search in Google Scholar

Joint Committee for Guides in Metrology (2008). Evaluation of measurement data – Supplement 1 to the Guide to the expression of uncertainty in measurement – Propagation of distributions using a Monte Carlo method, Sevrès: Bureau International des Poids et Mesures.Search in Google Scholar

DIN Deutsches Institut für Normung (1995). Guide to the Expression of Uncertainty in Measurement, Berlin: Beuth.Search in Google Scholar

Erdmann, A. (2004). Grüne Reihe: Neurobiologie. Braunschweig: Schroedel.Search in Google Scholar

Friston, K. (2010). The free-energy principle: A unified brain theory?. Nature Reviews Neuroscience, 11(2), 127-138.10.1038/nrn2787Search in Google Scholar

Hill, W., Stead, L., Rosenstein, M., & Furnas, G. (1995). Recommending and evaluating choices in a virtual community of use. In Proceedings of the Computer Human Interaction Conference on Human factors in computing systems (pp. 194-201). New York: Association for Computing Machinery.10.1145/223904.223929Search in Google Scholar

Jasberg, K. (2017a). Assessment of prediction techniques: The impact of human uncertainty. In Proceedings of the 18th International Conference on Web Information Systems Engineering. Heidelberg: Springer.10.1007/978-3-319-68783-4_8Search in Google Scholar

Jasberg, K. (2017b). Probabilistic perspectives on collecting human uncertainty in predictive data mining. In Proceedings of the 25th Conference on User Modeling, Adaptation and Personalization (pp. 104-112). New York: Association for Computing Machinery.10.1145/3079628.3079675Search in Google Scholar

Jasberg, K. (2017c). Re-evaluating the netflix prize – human uncertainty and its Impact on reliability. arXiv eprint arXiv:1706.08866.Search in Google Scholar

Jasberg, K. (2017d). The magic barrier revisited: accessing Natural limitations of recommender assessment. In Proceedings of the 11th Conference on Recommender Systems (pp. 56-64), New York: Association for Computing Machinery.10.1145/3109859.3109898Search in Google Scholar

Jasberg, K. (2017e). Reliability Trailer Rating (RETRAIN). Abgerufen von https://jasbergk.wixsite.com/research/experiment-01Search in Google Scholar

Netflix Inc. (2009). Netflix Prize. Abgerufen von http://www.netflixprize.com/.Search in Google Scholar

Pouget, A. (2006). Bayesian inference with probabilistic population codes. Nature Neuroscience, 9(11), 1432-1438.10.1038/nn1790Search in Google Scholar

Said, A. (2012). Users and noise: The magic barrier of recommender systems. In International Conference on User Modeling, Adaptation, and Personalization (pp. 237-248). Heidelberg: Springer.10.1007/978-3-642-31454-4_20Search in Google Scholar

Takemura, K. (2014). Behavioral Decision Theory: Psychological and Mathematical Descriptions of Human Choice Behavior. Heidelberg: Springer.10.1007/978-981-16-5453-4Search in Google Scholar

Online erschienen: 2018-02-02
Erschienen im Druck: 2018-02-23

© 2018 Walter de Gruyter GmbH, Berlin/Boston

Downloaded on 29.9.2025 from https://www.degruyterbrill.com/document/doi/10.1515/iwp-2018-0002/html
Scroll to top button