Welcher Zweck heiligt die Mittel? Bemerkungen zur Repräsentativitätsdebatte in der Meinungsforschung
-
Ulrich Kohler
Ulrich Kohler, Studium der Soziologie, Geschichte und Öffentlichem Recht in Konstanz und Mannheim. Promotion 2001 an der Universität Mannheim. 1996–2003 wissenschaftlicher Mitarbeiter bzw. Hochschulassistent an der Universität Mannheim. 2003–2012 wissenschaftlicher Mitarbeiter am WZB. Seit 2012 Professor für Methoden der empirischen Sozialforschung an der Universität Potsdam. Forschungsschwerpunkte: Soziale Ungleichheit und Datenerhebungsmethoden. Wichtigste Publikationen: Verarmungsrisiken nach kritischen Lebensereignissen in Deutschland und den USA (mit M. Ehlert, B. Grell, J.P. Heisig, A. Radenacker & M. Wörz), Kölner Zeitschrift für Soziologie und Sozialpsychologie 2012; How to Measure and Proxy Permanent Income: Evidence from Germany and the U.S. (mit D. Brady, M. Giesselmann & A. Radenacker), Journal for Economic Inequality 2018. Zuletzt in dieser Zeitschrift: Educational Expansion, Social Class, and Choosing Latin as a Strategy of Distinction (mit J. Gerhards & T. Sawert), Zeitschrift für Soziologie 2021.and Julia C. Post
Julia C. Post , Studium der Soziologie in Berlin und Potsdam. Seit 2017 wissenschaftliche Mitarbeiterin an der Universität Potsdam. Forschungsschwerpunkte: Missing Data, Nonresponse Bias und Datenqualität. Wichtigste Publikationen: Unit nonresponse biases in estimates of SARS-CoV-2 prevalence (mit F. Class & U. Kohler), Survey Research Methods 2020.
Zusammenfassung
Im Vergleich zu Umfragen an Wahrscheinlichkeitsstichproben bieten Umfragen an Access-Panels, die auf Nicht-Wahrscheinlichkeitsstichproben basieren, unbestreitbare wirtschaftliche Vorteile. Diese Vorteile gehen jedoch mit unvermeidbaren Qualitätseinbußen einher, die auch dann bestehen bleiben, wenn Erstere sehr niedrige Responseraten haben. Daher müssen die wirtschaftlichen Vorteile und die methodischen Einschränkungen gegeneinander abgewogen werden. Es wird argumentiert, dass diese Abwägung anhand normativer Festlegungen erfolgen muss. Unter Anwendung der hier vorgeschlagenen Maßstäbe kommt der Beitrag zu dem Schluss, dass die Qualitätsansprüche an über Massenmedien verbreitete Meinungsumfragen höher sein sollten als für rein (sozial)wissenschaftliche Zwecke.
Abstract
Compared with surveying respondents of a probability sample, surveying members of a self-selective custom online panel offers indisputable economic advantages. However, these advantages come with an unavoidable drop in quality. This disadvantage holds true even in comparison to probability sampling surveys with very low response rates. Therefore, it is necessary to balance the economic advantages against the methodological limitations. We argue that this consideration needs to be done according to normative determinations. Using the criteria proposed in this article, we conclude that public opinion research distributed through mass media should have higher quality standards than research with solely scientific purposes.
1 Einleitung
Ausgangspunkt des vorliegenden Beitrags ist die „Repräsentativitätsdebatte“, die unter Beteiligung namhafter Sozialwissenschaftler:innen zwischen Markt- und Meinungsforschungsinstituten entbrannt ist („Kampf der Torten“, Zeit Online, 5.2.2020).[1] Auslöser der Debatte ist einerseits die weltweit sinkende Bereitschaft zur Teilnahme an Bevölkerungsumfragen (Schnell 2019b; Beullens et al. 2018; Leeper 2019; Stedman et al. 2019; Greaves et al. 2020) sowie andererseits der vermehrte Einsatz digitaler Methoden in der Umfrageforschung (Daikeler et al. 2019). Die im Raum stehende Behauptung lautet, dass Nicht-Wahrscheinlichkeitsstichproben qualitativ gleichwertige Schätzer von Grundgesamtheitsparametern liefern wie die zunehmend defizitären Wahrscheinlichkeitsstichproben (vgl. z. B. Richter et al. o. J.). Vordergründig geht es also um die Frage, ob Ergebnisse auf der Basis von Umfragedaten aus Nicht-Wahrscheinlichkeitsstichproben als repräsentativ bezeichnet werden können. Darüber hinaus berührt die Debatte aber auch grundsätzliche Fragen zur Rolle von Umfragen für die Sozialforschung und den politischen Diskurs.
Aus Sicht des vorliegenden Beitrags wird die Repräsentativitätsdebatte vor allem auf einer wirtschaftlichen und einer methodischen Dimension geführt. Die wirtschaftliche Dimension bezieht sich auf die Kosten und Wirtschaftlichkeit von Umfragen. Die methodische Dimension besteht in der Frage, ob Wahrscheinlichkeitsstichproben angesichts der stetig zurückgehenden Responseraten obsolet geworden sind und durch Nicht-Wahrscheinlichkeitsstichproben abgelöst werden könnten. Unserer Ansicht nach, sollte darüber hinaus eine weitere – normative – Dimension berücksichtigt werden. Hierbei geht es um die Abwägung zwischen wirtschaftlichen und methodischen Argumenten, wobei der primäre Zweck der Umfrage in den Blick gerät.
Der vorliegende Beitrag beleuchtet diese drei Dimensionen aus theoretischer Sicht. Der folgende Abschnitt befasst sich mit der wirtschaftlichen Dimension. Es wird argumentiert, dass im Wettbewerb um Marktanteile diejenigen Umfrageinstitute, die auf Nicht-Wahrscheinlichkeitsstichproben beruhende Access-Panels nutzen, Preis- und Geschwindigkeitsvorteile aufweisen. Dies erlaubt höhere Fallzahlen, häufigere Umfragen und schnelle Antworten auf zeitkritische Fragestellungen.
Abschnitt 3 diskutiert die methodische Dimension. Dieser Aspekt der Repräsentativitätsdebatte ist keinesfalls neu und lässt sich bis in das Jahr 1895 zurückverfolgen. Spätestens durch die Wahlumfragen im Zuge des US-Wahlkampfes von 1948 wurden die Vorteile von Wahrscheinlichkeitsstichproben auch außerhalb der Statistik sichtbar (vgl. Bethlehem 2017: 222–24). Im Zuge massiv erodierender Responseraten stellt sich jedoch die Frage, ob Wahrscheinlichkeitsstichproben inzwischen obsolet geworden sind (so z. B. Richter et al. o. J.). Während Cornesse et al. (2020) in ihrem aktuellen Überblick einschlägiger empirischer Studien zu dem Schluss kommen, dass auf Wahrscheinlichkeitsstichproben basierende Ergebnisse jenen aus Nicht-Wahrscheinlichkeitsstichproben nach wie vor überlegen sind (siehe auch Sohlberg et al. 2017; Dutwin & Buskirk 2017; Sturgis et al. 2018; Dassonneville et al. 2018; Legleye et al. 2018; MacInnis et al. 2018; Pasek & Krosnick 2020; Einarsson et al. 2022), lassen sich vereinzelt auch Studien mit entgegengesetzten Ergebnissen finden (Enns & Rothschild 2021; Ito & Todoroki 2021; Domche et al. 2020). Hierbei ist zu berücksichtigen, dass die Untersuchung des Ausmaßes der Verzerrung realisierter deskriptiver Statistiken in konkreten Stichproben nicht trivial ist. In der Regel[2] wird zur Untersuchung der wahre Wert in der Grundgesamtheit benötigt, dieser ist jedoch häufig nicht bekannt. Die meisten Studien verwenden Wahlergebnisse. Ob sich die Befunde auf andere Anwendungsfälle übertragen lassen, ist unklar. Darüber hinaus lässt der Vergleich mit dem wahren Wert in der Grundgesamtheit allein keine Aussage über eine mögliche Verzerrung zu, da eine realisierte Statistik in einer konkreten Stichprobe auch rein zufällig den wahren Wert verfehlen oder treffen kann (Schnell 2019b: 365–66; Kohler et al. 2019: 154). Wir nähern uns der methodischen Dimension der Repräsentativitätsdebatte daher aus theoretischer Sicht. Unsere Ausgangsvermutung lautet: Wahrscheinlichkeitsstichproben sind auch unter für sie ungünstigen Bedingungen den Nicht-Wahrscheinlichkeitsstichproben generell überlegen.
Dies führt zur normativen Dimension, die sich auf die Qualitätsansprüche an Umfragen bezieht (Abschnitt 4). In welchem Kontext sind welche Ansprüche zu stellen? Wo sind Kompromisse erlaubt? Welche möglichen Folgen gilt es zu beachten? Und: Welche Bedeutung soll Umfrageergebnissen beigemessen werden? Wir wissen aus früheren Debatten, dass es eine Letztbegründung normativer Fragen nicht geben kann („Münchhausen-Trilemma“, Albert 1968). Das ist auch ausdrücklich nicht das Ziel dieses Beitrags. Vielmehr hoffen wir durch das Aufzeigen der normativen Dimension der Repräsentativitätsdebatte, die Diskussion aus der methodischen Nische in die in solchen Fragen geübte kritische Soziologie zu tragen.
Der vorliegende Beitrag grenzt sich zudem von Beiträgen ab, die Verwendungsmöglichkeiten von Nicht-Wahrscheinlichkeitsstichproben für die sozialwissenschaftliche Forschung systematisch untersuchen (siehe hierzu Kohler 2019a). Stattdessen untersuchen wir die Verwendbarkeit von Nicht-Wahrscheinlichkeitsstichproben für nur einen bestimmten Zweck: Für die Beschreibung einer festgelegten Grundgesamtheit mit einer zusammenfassenden Statistik („deskriptive Inferenz“, King et al. 1994: 34–66). Unser primärer Anwendungsfall sind die Befunde der Meinungsforschung[3], wie sie von den Massenmedien verbreitet werden. Anders als z. B. Schnell (2019a) halten wir solche Umfragen nicht für bloßes Infotainment, da die Meinungsforschung im Zuge eines Rückkopplungsprozesses politische Entscheidungen beeinflussen (Iranbomy 2008) und darüber hinaus die politische Willensbildung prägen kann. Die Bedeutsamkeit des Aufsatzes ist aber nicht auf die Meinungsforschung beschränkt. Umfragedaten sind auch in den Sozialwissenschaften primäre und nach wie vor zunehmende (Schnell 2019b: 15–17; Sturgis & Luff 2021) Datenquellen, wobei beschreibende Statistiken den überwiegenden Verwendungszweck darzustellen scheinen (Schnell 2019b: 19). Auch Studien, die die Schätzung kausaler Effekte anstreben, zielen zumeist auf den „Population Average Treatment Effect” ab, der im Kern eine beschreibende Statistik darstellt (Imai et al. 2008; Kohler et al. 2019; Kohler 2019a). Insofern sollten sich auch Sozialwissenschaftler:innen der Beschränkungen von Nicht-Wahrscheinlichkeitsstichproben für die deskriptive Inferenz bewusst sein.
2 Die wirtschaftliche Dimension
Wie in der Einleitung dargestellt, diskutiert die Repräsentativitätsdebatte das Vorgehen unterschiedlicher Institute bei der Ziehung von Stichproben und die damit verbundenen Implikationen für die Qualität der an der jeweiligen Stichprobe erhobenen Daten. Da es in diesem Beitrag um die prinzipielle methodische Herangehensweise geht, wird auf die Nennung konkreter Institute verzichtet. Zur sprachlichen Vereinfachung werden jedoch zwei fiktive idealtypische Institute eingeführt, benannt nach den griechischen Orakel-Orten Dodona und Klaros:
Dodona arbeitet mit Wahrscheinlichkeitsstichproben. Es kontaktiert zuvor unbekannte Zielpersonen, die mit einer angebbaren Wahrscheinlichkeit aus einer Liste aller Elemente der Grundgesamtheit (Stichprobenrahmen) mit einem Zufallsverfahren gezogen wurden. Diese Zielpersonen werden dann darum gebeten, an einer Umfrage teilzunehmen. Der weitaus größte Teil der Zielpersonen kann jedoch nicht erreicht werden, nicht teilnehmen oder lehnt die Befragung ab.[4] In diesem Sinne basieren die Dodona-Umfragen auf schlechten Wahrscheinlichkeitsstichproben.
Klaros unterhält einen großen Datenbestand von Personen, die sich als Freiwillige zur regelmäßigen Teilnahme an Klaros-Umfragen gemeldet haben („Access-Panel”). Den Datenbestand hat Klaros über einen langen Zeitraum aufgebaut. Da die meisten dieser Freiwilligen schon mehrfach befragt wurden, kennt Klaros sie gut und kann gezielt Personen mit vorgegebenen Eigenschaften für eine Umfrage auswählen. Klaros tut dies regelmäßig mit viel Sorgfalt und Sachkenntnis. In diesem Sinne verwendet Klaros gute Nicht-Wahrscheinlichkeitsstichproben.
Beide hier betrachteten Designs sind grobe Vereinfachungen, die sich aber an bekannten in Massenmedien verbreiteten Meinungsumfragen orientieren. In der Praxis müssen Lösungen für spezifische Probleme der Designs gefunden werden. Dodona leidet z. B. darunter, dass ein echter Stichprobenrahmen nicht existiert (Schnell et al. 2018: 255),[5] bei Klaros sind z. B. die Informationen über die Freiwilligen lücken- oder fehlerhaft (siehe auch Schnell 2019b: 286).
Bei den realen Dodona- und Klaros-Typen findet man auch typische Vorlieben für den Erhebungsmodus. Dodona verwendete in der Vergangenheit hauptsächlich interviewer:innengestützte Befragungen (Face-to-Face und telefonisch), setzt nun aber zunehmend auf die Kombination verschiedener selbst-administrierter Befragungen (vgl. De Leeuw 2018). Klaros erhebt ausschließlich online. Erhebungsmodi sind mit jeweils typischen Messfehlern bei der eigentlichen Umfrage verknüpft (De Leeuw 1992; Zhang & Conrad 2014; Schonlau & Toepoel 2015).[6] Im vorliegenden Beitrag wird hiervon abstrahiert. Wir weisen allerdings darauf hin, dass die nachfolgend beschriebenen wirtschaftlichen Vorteile von Klaros insbesondere im Onlinemodus realisiert werden, und dieser für allgemeine Bevölkerungen das hier betrachtete Stichprobendesign erfordert.[7]
Betrachtet man die Auswahlprozesse der beiden Institute genauer, lassen sich typische Arbeitsschritte identifizieren, die für die wirtschaftliche Dimension von entscheidender Bedeutung sind. Abb. 1 zeigt die verschiedenen Arbeitsschritte bei Dodona und Klaros – jeweils in grob vereinfachter Form; siehe dazu detaillierter Schnell et al. (2018: 247–66) bzw. Schnell (2019b: 285–87).
Der unmittelbare ökonomische Unterschied der beiden Vorgehensweisen besteht darin, dass Dodona für jede Umfrage alle drei Schritte durchführen muss, so dass die Kosten der Auswahl bei jeder Umfrage erneut anfallen.[8] Um kostendeckend zu arbeiten, muss Dodona diese Kosten an die Auftraggeber:innen weitergeben. Anders bei Klaros: Im Falle eines bestehenden Access-Panels muss nur noch der sechste Schritt durchgeführt werden. Die Kosten des Aufbaus und der Aufrechterhaltung des Access-Panels können dadurch auf verschiedene Auftraggeber:innen verteilt werden. So lassen sich einerseits Kund:innen gewinnen, für die die Kosten der Auswahl von Befragungspersonen nach dem Dodona-Verfahren zu hoch wären. Andererseits entsteht der Anreiz, die Entstehungskosten des Access-Panels durch eine hohe Anzahl von Umfragen wieder einzuspielen.[9]

Typische Arbeitsschritte bei Dodona und Klaros.
Die beiden Verfahren unterscheiden sich auch in den Kosten von Unit-Nonresponse. Geht man von einer vorab festgelegten Anzahl von Befragten aus, so müssen jeweils so viele Personen kontaktiert werden, dass diese Zahl trotz Nonresponse erreicht werden kann. Nimmt man für Dodona Responseraten von 10 % oder niedriger an,[10] bedeutet dies Stichprobengrößen von mindestens dem 10-fachen der angestrebten Befragtenzahl. Die Kosten der Rekrutierungsversuche fallen dabei für jedes Element der Stichprobe an. Dies gilt prinzipiell auch für das Klaros-Verfahren. Allerdings werden hier nur Panelmitglieder angesprochen, die ihre prinzipielle Teilnahmebereitschaft bereits zugesichert haben, so dass ein Großteil potenzieller Nonrespondent:innen vermutlich nicht Teil der Auswahlgesamtheit ist. Da die Panelmitglieder Klaros ihre Kontaktdaten selbst zur Verfügung gestellt haben, dürfte auch die Erreichbarkeit der Zielpersonen häufiger gewährleistet sein. Entsprechend kann der Überhang von Zielpersonen gegenüber der vereinbarten Befragtenzahl kleiner ausfallen. Bei einer relativ hoch angesetzten Responserate von 80 % im Access-Panel,[11] genügt die Kontaktaufnahme zur 1,25-fachen Menge der angestrebten Befragtenzahl. Selbst wenn man gleiche Kosten pro Kontaktversuch unterstellt, sind die Gesamtkosten durch Nonresponse bei Klaros um ein Vielfaches niedriger als bei Dodona. In der Praxis dürfte der Unterschied aufgrund der Vorlieben beim Umfragemodus noch größer sein.
Die unterschiedlichen Auswahlprozesse führen auch zu Unterschieden in der Geschwindigkeit, mit der Daten erhoben werden können. Während bei Dodona Zeit für die beiden ersten Schritte aufgewendet werden muss, und zusätzlich Zeit für Nonrespondent:innen benötigt wird, kann Klaros eingespielte Wege zur Kontaktaufnahme mit den Panelmitgliedern nutzen. Bei bestehendem Access-Panel kann Klaros einzelne Umfragen daher deutlich schneller durchführen und ist somit auch für jene geeignet, die schnelle Ergebnisse benötigen.
Ein weiterer Unterschied zwischen Dodona und Klaros besteht im Vorwissen über die Zielpersonen. Abgesehen von minimalen Informationen aus dem Stichprobenrahmen sind Dodona die Zielpersonen unbekannt. Anders bei Klaros: Von den Panelmitgliedern kennt Klaros mindestens die Antworten aus der Rekrutierungsumfrage und auf die Statistikfragen (Abb. 1 Arbeitsschritte 3 und 5). Dazu kommen die Antworten aus Umfragen, an denen die Panelmitglieder bereits teilgenommen haben. Klaros kann dieses Wissen nutzen, um gezielt Panelmitglieder mit spezifischen Eigenschaften anzusprechen. Für Klaros wäre es deshalb prinzipiell möglich, für Umfragen nur Wahlberechtigte, AfD-Sympathisant:innen oder Fitnessstudiomitglieder zu kontaktieren. Derartige Spezialpopulationen wären für Dodona nur durch kostenintensive Screening-Interviews oder gar nicht erreichbar. Entsprechend kann Klaros besser Befragungen von Spezialpopulationen anbieten.
Zusammenfassend lässt sich festhalten, dass sich die Kostenstruktur und die sich daraus ergebende Marktlage zwischen Dodona und Klaros deutlich unterscheiden. Dodona muss die Kosten der Auswahl der Zielpersonen bei jeder Umfrage erwirtschaften. Klaros kann einen großen Teil der Auswahlkosten auf die verschiedenen Auftraggeber:innen verteilen und somit auch kleine Umfragen anbieten, für die die Kosten bei Dodona zu hoch wären. Außerdem liefert Klaros aktuellere Ergebnisse, kann relevante Spezialpopulationen leichter erschließen und bei gleichem Budget mehr Personen befragen. Diese drei Vorzüge von Klaros sind zweifellos auch ein Qualitätsmerkmal und weisen damit über die rein wirtschaftliche Betrachtung hinaus.
3 Die methodische Dimension
Im vorangegangenen Abschnitt wurde deutlich, dass der Auswahlprozess von Klaros auf lange Sicht kostengünstiger ist und außerdem aktuellere, zielgenauere und tendenziell größere Umfragen ermöglicht. Dieser Abschnitt befasst sich mit der Frage, ob diese Vorteile mit Nachteilen bei der Qualität der Ergebnisse einhergehen.
Das hier zentrale Qualitätsmerkmal ist die Frage, ob die Statistik, die mit den erhobenen Daten berechnet wird, im Durchschnitt über viele entsprechende Erhebungen dem Wert entspricht, den man erhalten würde, wenn man die entsprechende Statistik direkt in der Grundgesamtheit berechnen würde (“Erwartungstreue”, vgl. Fahrmeir et al. 2016: 340). Wir beschränken uns hierbei im Folgenden auf den Stichprobenmittelwert. Es sei jedoch darauf hingewiesen, dass einerseits Anteilswerte als Stichprobenmittelwerte dargestellt werden können, andererseits – wie oben erwähnt – auch der Schätzer des Population Average Treatment Effects einen Stichprobenmittelwert darstellt (Kohler et al. 2019: 164). Die Aussagen dieses Abschnittes sind deshalb für die meisten Ergebnisse der Meinungs- und Sozialforschung relevant.
Die Darstellung konzentriert sich auf Qualitätseinbußen, die aus Selbstselektionsprozessen stammen, d. h. wir gehen davon aus, dass es außer der Selbstselektion keine weiteren Fehlerquellen gibt. Diese Annahme ist zweifellos falsch (vgl. Groves & Lyberg 2010). Ein großer Teil der anderen Fehlerquellen betrifft aber sowohl Dodona als auch Klaros.[12] Weiter gehen wir davon aus, dass Selbstselektionsprozesse bei Dodona durch Nonresponse ausgelöst werden (Schnell et al. 2018: 279–89), während sie bei Klaros zunächst beim Prozess der Panelrekrutierung auftreten, und dann erneut im Zuge von Nonresponse bei konkreten Umfragen (Schnell 2019b: 285–87).
Die nachfolgende Diskussion basiert auf den Formeln zur Verzerrung des Stichprobenmittelwerts aufgrund von Nonresponse (Bethlehem 1988: 254) bzw. Selbstselektion (Bethlehem 2010: 172). Man spricht von einer Verzerrung, wenn der Stichprobenmittelwert im Schnitt über eine unendliche Wiederholung des Verfahrens zu seiner Ermittlung vom wahren Wert abweicht (Fahrmeir et al. 2016: 340). Ob ein Stichprobenmittelwert in diesem Sinne verzerrt ist, lässt sich nur theoretisch herleiten, da erstens der wahre Wert nicht bekannt ist und man zweitens – selbst wenn er bekannt wäre – für eine einzelne Stichprobe nicht sagen könnte, ob der realisierte Mittelwert nur zufällig vom wahren Wert abweicht – oder ihm nur zufällig entspricht (Kohler et al. 2019: 154; Schnell 2019b: 365).
Da beide Formeln die gleiche Struktur aufweisen, werden sie nachfolgend gemeinsam wiedergegeben. Zur Unterstützung der verbalen Darstellung wurde die Formel zudem anders notiert und algebraisch umgestellt (siehe Online-Anhang A):
. (1)
ӯ ist der Stichprobenmittelwert des interessierenden Merkmals Y und π die individuelle bedingte Wahrscheinlichkeit, an der Umfrage teilzunehmen, wenn man zur Stichprobe gehört (Dodona) bzw. zur Grundgesamtheit gehört und zur Befragung ausgewählt wurde (Klaros); im Folgenden: Selbstselektionswahrscheinlichkeit. Std. Dev.(Y) bezeichnet die Heterogenität des Merkmals Y in der Grundgesamtheit, VarK(π) die relative Heterogenität der Selbstselektionswahrscheinlichkeit. R(Y, π) gibt das Ausmaß an, in dem die Selbstselektionswahrscheinlichkeit mit dem Merkmal Y zusammenhängt.
Die drei Bestandteile der Verzerrung wirken multiplikativ zusammen. Daraus folgt unmittelbar, dass der Stichprobenmittelwert immer dann unverzerrt ist, wenn einer der drei Faktoren null ist. Sollte keiner der Faktoren null sein, wirkt sich jeder Faktor umso stärker aus, je größer das Produkt der beiden anderen Faktoren ist. Im Folgenden werden die drei Bestandteile einer näheren Betrachtung unterzogen. Dabei wird deutlich, dass keiner der drei Faktoren jemals null sein dürfte und man daher immer mit Verzerrungen rechnen muss.
3.1 Heterogenität des interessierenden Merkmals
Der Faktor Std. Dev.(Y) bezeichnet die Heterogenität des interessierenden Merkmals Y in der Grundgesamtheit. Sofern die beiden anderen Faktoren nicht null sind, gilt: Je heterogener eine Population hinsichtlich des Merkmals Y ist, desto verzerrter ist der Schätzer für den Stichprobenmittelwert. Die Heterogenität selbst wird nur dann null, wenn alle Elemente der Grundgesamtheit bezüglich des Merkmals Y den gleichen Wert aufweisen – eine für die meisten Anwendungsfälle absurde Vorstellung.[13]
Für den Vergleich zwischen Dodona und Klaros ist letztlich nur von Bedeutung, dass die Heterogenität des Merkmals Y außerhalb der Beeinflussbarkeit der Institute liegt. Hier ergeben sich daher keine grundsätzlichen Vor- oder Nachteile für die eine oder die andere Herangehensweise. Bei Umfragen an (kleinen) Spezialpopulationen kann unter Umständen von einer geringeren Heterogenität dieser Populationen ausgegangen werden. Dies würde die verzerrende Wirkung der beiden anderen Faktoren abmildern. Dies ergibt sich jedoch aus der Fragestellung bzw. der interessierenden Population und hat prinzipiell nichts mit den Vorgehensweisen der beiden Institute zu tun. Wie bereits im vorherigen Abschnitt erläutert, könnte sich Klaros diesen Umstand häufiger zunutze machen, nämlich immer dann, wenn die zu untersuchende Spezialpopulation Teil des Access-Panels ist und Klaros diese anhand der vorhandenen Daten identifizieren kann.
Für statistische Beschreibungen allgemeiner Bevölkerungen lässt sich das letzte Argument nur selten vorbringen. Für Wahlumfragen gilt, dass die Heterogenität der Parteipräferenz im Zeitverlauf gestiegen ist. In Deutschland ergibt sich dies bereits aus der seit Beginn der Wahlumfragen gestiegenen effektiven Parteienzahl (Laakso & Taagepera 1979; Gallagher & Mitchell 2008; Gallagher 2019). Sofern die übrigen Faktoren unverändert blieben, ist das Potenzial für Verzerrungen von Wahlumfragen daher über die Zeit gestiegen.
3.2 Relative Heterogenität der Selbstselektionswahrscheinlichkeit
Der Faktor VarK(π) in Gleichung (1) bezeichnet die relative Heterogenität der Selbstselektionswahrscheinlichkeit, definiert als deren Variationskoeffizient:
(2)
Ein Vergleich der relativen Heterogenität der Selbstselektionswahrscheinlichkeit zeigt, dass diese bei Dodona systematisch kleiner ist als bei Klaros. Dafür gibt es zwei Gründe, die nachfolgend ausführlich dargelegt werden.
3.2.1 Der fundamentale Unterschied des Auswahlprozesses
Zur Verdeutlichung der Bedeutung des Auswahlprozesses muss man sich vergegenwärtigen, dass der Term im Zähler von Gleichung (2) durch den Term im Nenner begrenzt ist. Konkret gilt, dass Std. Dev.(π) nicht größer als werden kann (Bethlehem 2010: 173). Im ungünstigsten Fall kann die relative Heterogenität daher nicht größer als
(3)
werden.[14] Vergleicht man Dodona und Klaros anhand dieses Worst-Case-Szenarios, zeigt sich bei welchem der beiden Institute größere Verzerrungen möglich sind.
Wichtig ist hierbei, dass die Selbstselektionswahrscheinlichkeit π für Wahrscheinlichkeitsstichproben und Nicht-Wahrscheinlichkeitsstichproben unterschiedlich definiert ist. Bei der Ziehung der Wahrscheinlichkeitsstichprobe gibt es – abseits der hier vernachlässigten Coverageprobleme[15] – zunächst keine Selbstselektion. Erst wenn versucht wird, die zur Stichprobe gehörenden Zielpersonen zu kontaktieren, beginnt der Selbstselektionsprozess. Die Selbstselektionswahrscheinlichkeit ist hier die individuelle Wahrscheinlichkeit, an der Umfrage teilzunehmen, wenn man zur Stichprobe gehört (nachfolgend: Responsewahrscheinlichkeit). Die durchschnittliche Responsewahrscheinlichkeit entspricht in der Praxis ungefähr der sog. Responserate (Kohler et al. 2019: 156):
. (4)
Bei Nicht-Wahrscheinlichkeitsstichproben bezeichnet π hingegen die individuelle Wahrscheinlichkeit an der Umfrage teilzunehmen, wenn man zur Grundgesamtheit gehört (nachfolgend: Teilnahmewahrscheinlichkeit). Die durchschnittliche Teilnahmewahrscheinlichkeit entspricht in der Praxis ungefähr der Teilnahmerate, die allgemein durch
(5)
definiert ist (Kohler et al. 2019: 156).
Der Unterschied zwischen der Response- und der Teilnahmerate besteht darin, dass bei letzterer durch den Umfang der Grundgesamtheit geteilt wird, bei ersterer dagegen durch den Umfang der Stichprobe. Intuitiv lässt sich dies damit begründen, dass durch die Anzahl der Personen geteilt wird, die als Teilnehmer:innen adressiert werden. Bei Wahrscheinlichkeitsstichproben ist diese Zahl deutlich kleiner, da sich nicht alle für oder gegen eine Teilnahme an der Umfrage entscheiden können, sondern nur jene, die in die Stichprobe gezogen wurden.
Klaros rekrutiert die potenziellen Befragten für eine spezifische Umfrage jedoch nicht direkt aus der Grundgesamtheit, sondern aus einem Access-Panel. Theoretisch hat jede:r die Möglichkeit dem Panel beizutreten, entsprechend stellt der Beitritt zum Access-Panel eine Selbstselektion dar. Für die einzelnen Umfragen werden dann in einem weiteren Schritt Personen aus dem Access-Panel ausgewählt. Zugunsten von Klaros nehmen wir im Folgenden an, dass es sich bei dieser finalen Auswahl um Wahrscheinlichkeitsstichproben handelt und ignorieren vollständig, dass Panels naturgemäß auch unter selektiver Panel-Attrition (Binder 1998) leiden. Die Formel zur Berechnung der Teilnahmerate bei Klaros muss daher wie folgt angepasst werden:
(6)
Zum Vergleich der beiden Auswahlprozesse in Bezug auf die maximale relative Heterogenität der Selbstselektionswahrscheinlichkeit können als numerisches Beispiel Wahlumfragen dienen. Bei einem realistisch angelegten Szenario von Responseraten im Bereich von fünf bis zehn Prozent (vgl. Kennedy & Hartig 2019; Marken 2018) liegt der Maximalwert der relativen Heterogenität bei Dodona zwischen
Bei ca. 60 Millionen Wahlberechtigten (Bundeswahlleiter 2021) und einer zugunsten von Klaros hoch angenommenen Responserate von 80 %, müsste das Access-Panel zwischen 3,75 und 7,5 Millionen Wahlberechtigte umfassen, um dieselben Werte zu erzielen. Selbst wenn Dodona nur eine Responserate von einem Prozent erzielen würde, benötigt Klaros immer noch 750.000 wahlberechtigte Panelmitglieder um den Vorteil von Dodona auszugleichen. So hohe Zahlen sind nur selten realisierbar. Civey wirbt mit 1 Million Panelmitgliedern in Deutschland.[16] YouGov umfasst 400.000 Panelmitglieder, Respondi 100.000 und Norstat 90.000.[17] Abb. 2 zeigt die maximale relative Heterogenität der Selbstselektionswahrscheinlichkeit von Nicht-Wahrscheinlichkeitsstichproben im Vergleich zu Wahrscheinlichkeitsstichproben mit Responseraten von 10 %, 5 % und 1 %[18] bei realitätsnahen Umfängen des Access-Panels und einer zugunsten von Klaros hoch angenommenen Responserate von 80 %.[19] Der Vergleich fällt dennoch deutlich zuungunsten von Klaros aus. Selbst bei 1 Million Panelmitgliedern und optimistischer Responserate liegt die maximale Heterogenität von Klaros nur dann im Bereich von Dodona, wenn von extrem niedrigen Responseraten bei Dodona von nur einem Prozent ausgegangen wird.

Maximale relative Heterogenität der Selbstselektionswahrscheinlichkeit von Nicht-Wahrscheinlichkeitsstichproben (NPS) im Vergleich zu Wahrscheinlichkeitsstichproben (PS) mit angegebener Responserate. (Do-File: wzhm_gr01_vark.do)
3.2.2 Folgen der Umsetzung des Auswahlprozesses

Selbstselektionsstufen bei Dodona.
In der Praxis unterscheidet sich der Selbstselektionsprozess zwischen den hier behandelten Auswahlmethoden auch in der Anzahl der Stufen, auf denen es zur Selbstselektion kommt. Der typische Verlauf bei Dodona hat drei Stufen (siehe Abb. 3). Auf jeder Stufe kann es zu Nonresponse und somit zu einer nicht vernachlässigbaren Selbstselektion kommen. Analog dazu lassen sich auch bei Klaros verschiedene Selbstselektionsstufen identifizieren. Der idealtypische Verlauf bei Klaros ist in Abb. 4 dargestellt. Dieser weist deutlich mehr Stufen auf als der bei Dodona. Beeinflusst die Anzahl der Stufen die relative Heterogenität der Selbstselektionswahrscheinlichkeit?
Eine Antwort auf diese Frage ist möglich, wenn man annimmt, dass jede potenzielle Befragungsperson bei jeder Auswahlstufe mit einer individuellen für die jeweilige Stufe spezifischen Wahrscheinlichkeit πk zur nächsten Stufe übergeht. Befragt wird, wer alle Auswahlstufen überwindet. Sofern eine Stufe nicht mit absoluter Sicherheit übersprungen wird (πk = 1), wird die Selbstselektionswahrscheinlichkeit mit jeder Stufe geringer. Aus Gleichung (3) folgt, dass niedrige durchschnittliche Selbstselektionswahrscheinlichkeiten mit höherer maximaler relativer Heterogenität einhergehen. Insofern erhöht die Auswahl über viele Stufen das Risiko einer Verzerrung.
Eine numerische Annäherung an das Ausmaß dieses Verstärkungseffekts zeigt Abb. 5. Darin abgetragen ist die maximale relative Heterogenität nach der Stufenanzahl. Die Linien repräsentieren Auswahlprozesse mit jeweils unterschiedlicher durchschnittlicher Selbstselektionswahrscheinlichkeit auf der ersten Stufe (π‾1). Die Selbstselektionswahrscheinlichkeit wurde auf jeder Stufe erhöht und zwar umso stärker, je niedriger der Ausgangswert war.[20] Die Abbildung zeigt deutlich, dass die maximale relative Heterogenität über die Stufen ansteigt und zwar umso stärker, je niedriger die durchschnittliche Selbstselektionswahrscheinlichkeit auf der ersten Auswahlstufe ist.

Selbstselektionsstufen bei Klaros.

Maximale relative Heterogenität nach Anzahl der Auswahlstufen für die angegebenen durchschnittlichen Selbstselektionswahrscheinlichkeiten auf der ersten Stufe und gleichmäßig über die Stufen auf 0,8 anwachsenden durchschnittlichen Selbstselektionswahrscheinlichkeiten. (Do-File: wzhm_gr02V2_vark.do)
Die beiden in diesem Abschnitt diskutierten Mechanismen führen dazu, dass die maximale relative Heterogenität der Selbstselektionswahrscheinlichkeit selbst unter günstigen Bedingungen bei Klaros um ein Vielfaches größer ist als bei Dodona. Das Risiko, das wahre Ergebnis weit zu verfehlen, ist folglich bei Klaros größer. Bei großen Grundgesamtheiten spricht daher vieles für Wahrscheinlichkeitsstichproben.
Zur methodischen Rechtfertigung von Nicht-Wahrscheinlichkeitsstichproben könnten drei Argumente angeführt werden:
Der Umfang der Grundgesamtheit ist so klein, dass der Vorteil der Wahrscheinlichkeitsstichprobe vernachlässigbar ist.
Die Korrelation zwischen dem interessierenden Merkmal und der Selbstselektionswahrscheinlichkeit ist null, so dass der Stichprobenmittelwert in Bezug auf Selbstselektionsprozesse generell unverzerrt ist.
Die Nicht-Wahrscheinlichkeitsstichprobe erlaubt die Anwendung von Verfahren zur Minimierung der Verzerrung, die bei Wahrscheinlichkeitsstichproben nicht zur Verfügung stehen.
Das erste Argument beschreibt den Fall von kleinen Spezialpopulationen – etwa einer Befragung von Mitgliedern einer Organisation oder von Käufer:innen eines bestimmten Produktes. Diesem Argument stimmen wir ausdrücklich zu. Für den Gegenstandsbereich der Meinungsforschung ist es jedoch belanglos. Die beiden anderen Argumente werden im Folgenden diskutiert.
3.3 Korrelation der Selbstselektionswahrscheinlichkeit mit dem interessierenden Merkmal
Der dritte Faktor, R(Y, π) in Gleichung (1), ist die Korrelation zwischen dem interessierenden Merkmal und der Selbstselektionswahrscheinlichkeit. Um die Diskussion zu ermöglichen, muss man sich die kausalen Ursachen für diese Korrelation vergegenwärtigen (vgl. Groves 2006). Die Selbstselektionswahrscheinlichkeit und das interessierende Merkmal sind korreliert, wenn
das interessierende Merkmal die Selbstselektionswahrscheinlichkeit kausal beeinflusst, oder
das interessierende Merkmal und die Selbstselektionswahrscheinlichkeit gemeinsame Ursachen haben (vgl. Hitchcock & Rédei 2020).
Bezüglich des zweiten Punktes ist es sinnvoll, zwischen bekannten bzw. beobachteten Ursachen einerseits, und nicht bekannten bzw. nicht beobachteten Ursachen andererseits zu unterscheiden. In Abb. 6 sind bekannte Ursachen mit X bezeichnet und unbekannte Ursachen mit Z. Weiterhin sind beobachtete Variablen mit einem schwarzen Kreis und unbeobachtete Variablen mit einem weißen Kreis dargestellt.

Ursachen für R(Y, π) ≠ 0.
Ausgehend von der in Abb. 6 dargestellten Situation ist die Korrelation zwischen der Selbstselektionswahrscheinlichkeit und dem Merkmal Y umso größer, je stärker die Effekte der Pfade



sind.[21] Im Folgenden werden Bedingungen diskutiert, die die Stärke der Effekte dieser Pfade beeinflussen.
3.3.1 Direkter Einfluss des interessierenden Merkmals
Der erste Pfad beschreibt eine Situation, bei der die Teilnahme an einer Umfrage vom Merkmal Y selbst abhängt. Ein idealtypisches Beispiel aus der Wahlforschung ist eine Befragungsperson, die an einer Umfrage teilnimmt, um ihre Präferenz für eine bestimmte Partei kundzutun.[22] Ein anderes denkbares Szenario wäre, dass sich Nichtwähler:innen eher gegen die Teilnahme an Wahlumfragen entscheiden könnten (Eilfort 1994: 87; Steinbrecher 2019: 329). Gäbe es zumindest einige Personen, bei denen eine der beschriebenen Situationen zutrifft, wäre R(Y, π) ≠ 0 und der entsprechende Stichprobenmittelwert somit verzerrt – und zwar aus den im letzten Abschnitt genannten Gründen stärker bei Klaros als bei Dodona. Fraglich ist nun aber, ob sich Dodona und Klaros auch unmittelbar hinsichtlich des kausalen Einflusses von Y auf π unterscheiden.
Allgemein darf angenommen werden, dass der Effekt von Y auf π umso stärker ist, je sichtbarer es für die Befragungspersonen ist, dass das Merkmal Y abgefragt wird (Groves et al. 2004). Dies wäre ausgeschlossen, ließe man die potenziellen Befragungspersonen über den Inhalt einer Umfrage völlig im Unklaren. In der Realität ist dies jedoch selten der Fall, da die Umfrageinstitute potenzielle Befragungspersonen vorab grob über den Inhalt der Umfrage informieren sollten (Dillman 2000: 245, 277). Das gegenteilige Extrem ist eine Umfrage, die nur aus der Frage zum Merkmal Y besteht, welches bereits in der Einladung zur Teilnahme genannt wird. Bei Onlineumfragen ist dieses Vorgehen durchaus anzutreffen, nämlich immer dann, wenn Befragte selbst bestimmen, welche Fragen aus einer Reihe von vorgeschlagenen Fragen sie beantworten, und wenn sie nach der Beantwortung noch selbständig weitere Fragen wählen können. Wir konzentrieren uns hier jedoch auf Umfragen mit definiertem Fragebogen. Auch in diesem Fall sehen wir mindestens drei Gründe dafür, dass Klaros näher am zweiten Extrem liegt als Dodona:
Klaros kennt viele Eigenschaften über die Befragten aus vorangegangenen Umfragen und kann sich daher auf die Erhebung nur weniger Themen in einer Umfrage beschränken.
Klaros hat vergleichsweise geringe Kosten für die Auswahl der potenziellen Befragungspersonen. Hierdurch entfällt die Notwendigkeit, die Kosten der Stichprobenziehung durch die Erhebung vieler Fragen wieder einzuspielen.
Aufgrund bekannter Probleme des überwiegend eingesetzten Onlinemoduses (Zhang & Conrad 2014; Schonlau & Toepoel 2015) sollte Klaros die Bearbeitungszeit der einzelnen Umfragen stärker begrenzen als Dodona.
Insofern spricht einiges dafür, dass der Effekt von Y auf π bei Klaros stärker ist als bei Dodona. Dieser Bestandteil der Verzerrung dürfte bei den Klaros-Umfragen darum im Schnitt stärker sein.
3.3.2 Gemeinsame bekannte Ursachen
Korrelationen zwischen dem interessierenden Merkmal und der Selbstselektionswahrscheinlichkeit, die durch bekannte gemeinsame Ursachen hervorgerufen werden, können korrigiert werden (grundlegend Horvitz & Thompson 1952). Das bedeutet, wenn es außer diesen bekannten Gründen für die Korrelation keine anderen Gründe gäbe, könnte der Mittelwert des Merkmals Y unverzerrt geschätzt werden. Fraglich ist daher, ob sich die Voraussetzungen für eine solche Korrektur zwischen Klaros und Dodona unterscheiden.
Abgesehen von statistischen Detailfragen basieren die bekannten Korrekturverfahren immer auf derselben Vorgehenslogik: Mit Hilfe der bekannten Variablen X werden Teilnahme- bzw. Responsewahrscheinlichkeiten geschätzt. Im Schätzer für den Mittelwert der Grundgesamtheit werden sodann die Daten mit dem Kehrwert dieser Wahrscheinlichkeit multipliziert (Horvitz & Thompson 1952). Die grundlegenden Voraussetzungen dieses Vorgehens sind folgende:
Die gemeinsamen Ursachen des interessierenden Merkmals Y und der Selbstselektionswahrscheinlichkeit π müssen bekannt sein.
Die gemeinsamen Ursachen müssen ohne systematischen Messfehler in der Umfrage gemessen worden sein.
Man benötigt Informationen über die Verteilung der gemeinsamen Ursachen in der Grundgesamtheit.
Alle drei Voraussetzungen sind in der Praxis problematisch (Schnell 2019b: 299–301). Die Behauptung, alle Ursachen für die Teilnahme an einer Umfrage zu kennen, wäre gewagt. Allerdings ist dies auch gar nicht nötig, da nur diejenige Teilmenge benötigt wird, die zusätzlich das interessierende Merkmal beeinflusst. Diese könnte sich aber zwischen verschiedenen interessierenden Merkmalen unterscheiden. Die systematische Suche nach Variablen, die in den erhobenen Daten mit dem interessierenden Merkmal korrelieren, ist zwar auf den ersten Blick plausibel, letztlich aber nicht überzeugend. Zum einen ist nicht sicher, dass die so identifizierten Variablen auch die Selbstselektionswahrscheinlichkeit beeinflussen. Zum anderen ist die Korrelation in der Stichprobe, sofern das einschlägige Merkmal wirklich eine Ursache für π ist, ein verzerrter Schätzer der Korrelation in der Population (Schuessler & Selb 2019: 20–24). Für das im Zusammenhang mit der Repräsentativitätsdebatte häufig bemühte Beispiel von Wahlumfragen[23] gilt zudem, dass vormals bekannte Ursachen des interessierenden Merkmals sich im Zeitverlauf zugunsten unbekannter Ursachen abgeschwächt haben (Särlvik & Crewe 1983; Schnell & Kohler 1995; Brettschneider et al. 2002). Zumindest für Wahlumfragen ist die Korrektur von Selbstselektionsprozessen mit den Jahren daher schwieriger geworden.
Hinsichtlich der zweiten Voraussetzung gilt: Systematische Messfehler können in der Umfrageforschung generell nie vollständig ausgeschlossen werden (vgl. Schnell et al. 2018: 321–24).
Am problematischsten ist die dritte Voraussetzung. Zu den meisten relevanten Grundgesamtheiten sind nur wenige Informationen bekannt. Informationen über die deutsche Wohnbevölkerung oder die wahlberechtigte deutsche Wohnbevölkerung stammen meist aus dem Mikrozensus. Die dort enthaltenen Informationen sind begrenzt. Insbesondere finden sich dort keine Daten zu Einstellungen (vgl. Statistische Ämter des Bundes und der Länder 2022). Häufig beschränkt sich der zur Korrektur verfügbare Datenvorrat auf Geschlecht, Alter und Bildung. Dem lässt sich prinzipiell durch die parallele Erhebung einer (kostspieligen) Referenzstichprobe nach dem Dodona-Verfahren begegnen (Terhanian et al. 2000), wodurch aber die wirtschaftlichen Vorteile des Klaros-Verfahrens weitgehend aufgezehrt würden. Hinzu kommt, dass die Teilnahmewahrscheinlichkeit bei der Klaros-Umfrage nicht von Variablen abhängen darf, die im Referenzsurvey nicht enthalten sind (Schnell 2019b: 299–301). Der von Klaros genutzte Onlinemodus verschärft die Problematik zusätzlich, da nach Schnell (2019b: 301) die bislang zur Korrektur genutzten Kovariaten weder die Verfügbarkeit von Internetanschlüssen noch die tatsächliche Teilnahme an diesen Surveys erklären. Manche Institute operieren daher auch mit der Verwendung (kleinräumlicher) Aggregatstatistiken – etwa dem Zweitstimmenanteil von Parteien auf Stimmbezirks-, Wahlkreis- oder Gemeindeebene (Richter et al. o. J.: 8). Die Verwendung solcher Kennziffern zur Korrektur der Selbstselektion setzt aber u. a. voraus, dass die entsprechenden Informationen aus den eigenen Daten aggregiert werden können. Dazu sind einerseits umso höhere Befragtenzahlen notwendig, je kleinräumlicher die Aggregatstatistik ist, andererseits müssen die Informationen ohne systematische Messfehler gemessen werden. Mindestens beim Beispiel der Rückerinnerung an das Wahlverhalten bei der letzten Bundestagswahl darf dies jedoch bezweifelt werden (Schoen 2009).
Klaros könnte aufgrund der Vielzahl an Informationen zu den Panelmitgliedern aus vorherigen Umfragen einen Vorteil bei der Korrektur des Nonresponsebias einer spezifischen Umfrage haben. Allerdings liegen diese zusätzlichen Informationen nur für das Access-Panel vor und nicht für die Grundgesamtheit. Aufgrund des mehrstufigen Selbstselektionsprozesses ist das Access-Panel schwerlich repräsentativ für die Grundgesamtheit. Klaros kann die vorhandenen Informationen deshalb nutzen, um die Umfrageergebnisse auf das Access-Panel hochzurechnen, nicht aber zur Hochrechnung auf die Grundgesamtheit. Da es nicht darum geht, gültige Aussagen über die Panelmitglieder zu treffen, sondern über die interessierende Grundgesamtheit, ist der vermeintliche Vorteil für Klaros nicht überzeugend.
Für den vorliegenden Argumentationszusammenhang sind zwei Punkte zentral: Erstens gibt es keinen Anlass zu der Annahme, dass die Voraussetzungen zur Korrektur der Verzerrung für Klaros günstiger sind als für Dodona. Alle Verfahren, die Klaros zur Verfügung stehen, stehen potenziell auch Dodona zur Verfügung.[24] Zweitens dürften weder Dodona noch Klaros dazu in der Lage sein, den auf X zurückzuführenden Anteil in R(Y, π) ganz aufzulösen. Wenn es beiden Instituten gleich gut gelänge, wäre die Verzerrung aufgrund des multiplikativen Zusammenwirkens und der höheren relativen Heterogenität bei Klaros stärker.
3.3.3 Gemeinsame unbekannte Ursachen
Korrelationen zwischen dem interessierenden Merkmal und der Selbstselektionswahrscheinlichkeit, die von unbekannten (oder nicht beobachteten) gemeinsamen Ursachen hervorgerufen werden, können nicht korrigiert werden (Groves 2006: 667; Cornesse et al. 2020: 12). Daraus folgt: Je mehr unbekannte gemeinsame Ursachen existieren, desto höher das Potenzial für eine Korrelation. Wenn es beim Auswahlprozess von Klaros mehr unbekannte gemeinsame Ursachen gäbe als für den Nonresponseprozess bei Dodona, wäre R(Y, π) bei Klaros potenziell höher und somit auch die Verzerrung des Stichprobenmittelwerts. Einiges spricht dafür, dass dieser Vergleich tatsächlich zuungunsten von Klaros ausfällt.
Das erste Argument geht auf Dalenius (1983: 412) zurück. Er bezweifelt, dass es überhaupt eine Responsewahrscheinlichkeit im Sinne einer stabilen Charaktereigenschaft einzelner Personen gäbe. Die Responsewahrscheinlichkeit sei vielmehr eine Folge der konkreten Situation, in der eine Zielperson um die Teilnahme an einer Umfrage gebeten würde. Dies hätte enorme Konsequenzen. Die in Umfragen erhobenen Eigenschaften sind relativ stabile Personeneigenschaften, die sich nicht durch eine Manipulation der Kontaktsituation verändern. Bei Dodona-Umfragen kann die Kontaktsituation somit zwar die Responsewahrscheinlichkeit beeinflussen, nicht aber die stabilen Personeneigenschaften. Unterstützung erhält Dalenius u. a. durch zwischen Umfragen an derselben Grundgesamtheit deutlich schwankenden Responseraten (vgl. Schnell 1997; Kohler 2007; Menold 2014; Kappelhof 2014; Czajka & Beyler 2016)[25] und durch Ergebnisse, nach denen Wahrscheinlichkeitsstichproben trotz niedriger Responseraten gute Schätzungen von Grundgesamtheitsparametern liefern (vgl. den eingangs zitierten Literaturüberblick von Cornesse et al. 2020).
Für den Selbstselektionsprozess bei Klaros kann das gleiche Argument vorgebracht werden – allerdings nur in Bezug auf die Kontaktsituation bei der Rekrutierung für eine spezifische Umfrage. Der Selbstselektionsprozess setzt bei Klaros aber schon früher ein (Abb. 4). So erfolgt die Rekrutierung für das Access-Panel z. B. über die Webseiten bestimmter Medien (Schnell 2019b: 285). Durch dieses Vorgehen ist somit z. B. das Medienverhalten der potenziellen Panelmitglieder Bestandteil der Kontaktsituation. Auch wenn die zu erhebenden Merkmale relativ stabil sind, ist es plausibel, dass einige von ihnen durch die Inhalte der konsumierten Medien beeinflusst wurden (Jarren et al. 1998; Graber & Dunaway 2017). Gleichzeitig beeinflusst der Konsum dieser Medien, ob eine Person die Einladung zum Access-Panel erhält. Ähnliches gilt für die Bereitschaft von Medien, Klaros-Inhalte in ihre Seiten einzubinden.
Das zuletzt angeführte Argument weist auf den vielstufigen Auswahlprozess bei Klaros zurück. Geht man davon aus, dass es auf jeder dieser Stufen neue unbekannte gemeinsame Ursachen für Y und π gibt, werden die Befragungspersonen mit jeder Stufe bezüglich des Merkmals Y homogener, d. h. der Zusammenhang zwischen Y und der Selbstselektionswahrscheinlichkeit auf der letzten Auswahlstufe steigt mit der Anzahl der Auswahlstufen.

Gemeinsame unbekannte Ursachen von R(Y, π) in einem dreistufigen Auswahlprozess.

Korrelation zwischen interessierendem Merkmal und Selbstselektionswahrscheinlichkeit nach Anzahl der Auswahlstufen. (Do-File: wzhm_gr03V3_ypi.do)
Abb. 7 stellt diesen Prozess für drei Auswahlstufen dar. Abb. 8 zeigt die Korrelation zwischen dem interessierenden Merkmal Y und der Selbstselektionswahrscheinlichkeit π, die sich daraus auf den jeweiligen Auswahlstufen ergibt. Zuungunsten unserer Ausgangsvermutung wurden für die Beispielrechnungen relativ geringe Korrelationen aufgrund der gemeinsamen unbekannten Einflüsse verwendet (zwischen 0.0025 und 0.04; dies entspricht ϐ2z). Darüber hinaus wurde angenommen, dass
die Effekte von Zk auf Y und πk jeweils gleich sind und sich über die Stufen nicht verändern (ϐz), und
der Effekt von πk auf πk+1 ebenfalls über alle Stufen hinweg konstant ist (ϐk).
Entlang der vertikalen Achse der Grafik ist der Logarithmus zur Basis 2 der Korrelation dargestellt. Ein Anstieg um eine Einheit entspricht somit jeweils einer Verdoppelung der Verzerrung.
Es wird deutlich, dass die Korrelation vor allem zu Beginn des Prozesses stark ansteigen kann. Spätestens ab der fünften Stufe erscheint der Anstieg marginal, so dass der Vorteil von Dodona relativ gering zu sein scheint. Dennoch verdoppelt sich in einigen Fällen die Verzerrung zwischen den Stufen 3 und 8. Ferner ist zu bedenken, dass aufgrund des multiplikativen Zusammenwirkens mit den beiden anderen Faktoren selbst kleine Unterschiede immer noch zu deutlich höherer Verzerrung führen können.
Entsprechend Abb. 7 gehen wir in der Berechnung davon aus, dass auf jeder Auswahlstufe jeweils andere gemeinsame Ursachen vorliegen. Wären die unbekannten Ursachen stets dieselben, würde die Korrelation zwischen dem interessierenden Merkmal und der Selbstselektionswahrscheinlichkeit nicht über die Auswahlstufen ansteigen. Insofern stellt sich die Frage, ob diese Annahme realistisch ist. Insbesondere bei der Responsewahrscheinlichkeit beim Dodona-Verfahren ist das vermutlich nicht der Fall. Faktisch geht es hier bei allen Auswahlstufen um die Kontaktierbarkeit, Kooperationsbereitschaft und Teilnahmefähigkeit der Haushalte bzw. Zielpersonen. Entsprechend ist es plausibel, dass hier jeweils die gleichen oder zumindest ähnliche Ursachen wirken.
Beim Klaros-Verfahren erscheint die Annahme dagegen deutlich realistischer. Hier bestehen die Schritte aus so unterschiedlichen Aspekten wie der Kooperationsbereitschaft verschiedener Medien, dem Medienverhalten der Elemente der Grundgesamtheit, deren Bereitschaft sich aktiv für die Klaros-Umfragen zu registrieren, und schließlich deren Kooperationsverhalten. Es erscheint daher plausibel, dass auch dieses Problem bei Klaros schwerwiegender ist als bei Dodona.
Das Fazit der hier vorgelegten Argumentation zur methodischen Dimension der Repräsentativitätsdebatte ist eindeutig: Es gibt buchstäblich kein einziges triftiges theoretisches Argument dafür, dass Ergebnisse auf Basis von Nicht-Wahrscheinlichkeitsstichproben weniger verzerrt sein könnten als Ergebnisse auf Basis von defizitären Wahrscheinlichkeitsstichproben. Im Gegenteil: Fast alle theoretischen Argumente sprechen dafür, dass Ergebnisse auf Basis von Wahrscheinlichkeitsstichproben selbst dann weniger verzerrt sind, wenn die Responseraten niedrig oder sehr niedrig sind. Die Schätzungen von Grundgesamtheitsparametern auf Basis von Nicht-Wahrscheinlichkeitsstichproben liegen demnach durchschnittlich weiter vom wahren Wert entfernt als die entsprechenden Schätzungen aus Wahrscheinlichkeitsstichproben. Aufgrund der systematisch höheren relativen Heterogenität der Selbstselektionswahrscheinlichkeit bei Klaros ist außerdem davon auszugehen, dass Klaros-Ergebnisse im schlimmsten Fall weiter vom wahren Wert entfernt liegen als die schlechtesten Dodona-Ergebnisse. Da die Gefahr für R(Y, π) durch unbekannte gemeinsame Ursachen bei Klaros größer ist, ist schließlich auch die Aufgabe, den Schätzer durch statistische Maßnahmen zu korrigieren („Gewichtung“), hier schwieriger als bei Wahrscheinlichkeitsstichproben.
Die theoretischen Überlegungen decken sich mit der geradezu erdrückenden Beweislast empirischer Studien: Ergebnisse aus Daten aus Nicht-Wahrscheinlichkeitsstichproben sind meist weiter von den wahren Werten entfernt als diejenigen aus Wahrscheinlichkeitsstichproben. Dieser Unterschied bleibt auch nach Gewichtungen bestehen. Und die Gewichtung ist bei Nicht-Wahrscheinlichkeitsstichproben allgemein weniger erfolgreich als bei Wahrscheinlichkeitsstichproben (Dutwin & Buskirk 2017; Mercer et al. 2018; Cornesse et al. 2020).
Zusammenfassend lässt sich somit festhalten, dass die vorstehend beschriebenen wirtschaftlichen Vorteile der Erhebung von Daten an Nicht-Wahrscheinlichkeitsstichproben einen methodischen Pferdefuß haben. Es stellt sich daher die Frage, ob die methodischen Standards in allen Fällen so hoch angelegt werden müssen, dass die Verwendung von Nicht-Wahrscheinlichkeitsstichproben in jedem Fall ausgeschlossen wird. Dies führt zur normativen Dimension der Repräsentativitätsdebatte.
4 Die normative Dimension
Auch wenn die Proponent:innen der jeweiligen Position der Repräsentativitätsdebatte vorwiegend methodische Argumente vorbringen, betrifft die eigentliche Kernfrage die normative Dimension: Gibt es angesichts der unbestreitbaren wirtschaftlichen Vorteile von Klaros Anwendungsbereiche, in denen man trotz methodischer Defizite auf Klaros zurückgreifen sollte? Um eine Antwort auf diese Frage zu geben, müssen die wirtschaftlichen und methodischen Vor- und Nachteile vor dem Hintergrund des jeweiligen Verwendungszwecks gegeneinander abgewogen werden. Dabei kommt man um Werturteile nicht herum, die sich ihrerseits letztlich nur durch normative Setzungen begründen lassen („Münchhausen-Trilemma“, Albert 1968). In diesem Abschnitt werden wir daher einige solcher normativen Setzungen vornehmen und zur Diskussion stellen.
Die Diskussion erfolgt dabei getrennt nach drei groben Einsatzbereichen von Bevölkerungsumfragen, und zwar
als Hilfsmittel sozialwissenschaftlicher Forschung,
zur Teilhabe im politischen Meinungsbildungsprozess, und
zur Vorbereitung politischer Entscheidungen.
Nicht berücksichtigt werden Umfragen zur Prognose des Markterfolgs von Konsumgütern und zur reinen Unterhaltung. Es sei betont, dass sich die drei hier unterschiedenen Einsatzbereiche in der Realität nicht immer klar trennen lassen. Bei der Entscheidung über das Stichprobendesign in einem konkreten Einzelfall sind daher Überschneidungen zwischen den Einsatzbereichen zu berücksichtigen.
4.1 Sozialwissenschaftliche Forschung
Es liegt nahe, für den Bereich der sozialwissenschaftlichen Forschung besonders hohe Qualitätsansprüche an die verwendeten Daten zu stellen und die wirtschaftlichen Aspekte als nachrangig oder gar irrelevant zu betrachten. Hauptargument dafür ist das wissenschaftliche Selbstverständnis, welches sehr klar in der Satzung der Kurpfälzischen Akademie der Wissenschaften von 1763 ausgedrückt ist: In omnibus veritas suprema lex esto („In Allem Wahrheit, sei das höchste Gesetz“). Wahrheit ist das primäre Kriterium wissenschaftlicher Betätigung!
Im Gegensatz zu dem quasi-religiös anmutenden Diktum des Kurfürsten Karl-Theodors dürfte in den Sozialwissenschaften heute ein etwas differenzierteres Verhältnis zum Kriterium der Wahrheit vorherrschen. Die meisten interessierenden Konzepte betrachtet man heute als nicht beobachtbar und schätzt sie darum unter Zuhilfenahme möglicherweise sich als falsch erweisender Annahmen (Schnell et al. 2018: 114–16). Auch ist klar, dass einzelne Forschungsergebnisse deshalb nur vorläufige Annäherungen an die Wahrheit sind, und dass sichere Erkenntnis sich erst als Ergebnis eines wissenschaftlichen Prozesses einstellt (Fossati 2002). Insofern gehören eine gewisse Toleranz gegenüber Ungenauigkeiten und die Suche nach Kompromissen bei der Wahrheitsfindung zum Alltag der Wissenschaften.
Tatsächlich lassen sich gerade bei einer idealisierten Sicht auf die Wissenschaft Argumente finden, die die Verwendung des Klaros-Verfahrens zwar nicht empfehlenswert, aber tolerierbar erscheinen lassen. Das aus unserer Sicht wichtigste Argument ist der Sachverstand der Rezipient:innen. Werden Ergebnisse auf Basis von Nicht-Wahrscheinlichkeitsstichproben in einer wissenschaftlichen Zeitschrift veröffentlicht, so stoßen diese auf ein Publikum, das sich deren Beschränkungen bewusst sein sollte. Wissenschaftler:innen verzweifeln auch nicht, wenn unterschiedliche Studien zum selben Thema gegenteilige Schlussfolgerungen nahelegen, sondern werden die Methoden der Studien vergleichen und dann derjenigen Studie mehr Glauben schenken, die validere Methoden verwendet hat. Ceteris paribus würden Dodona-Ergebnisse die von Klaros verdrängen. Wie eingangs erwähnt, setzt dieses Argument jedoch ein idealisiertes Bild der Wissenschaft voraus, dem die wissenschaftliche Praxis oft nicht gerecht wird (Chu & Evans 2021). Eine pessimistischere Sicht auf die Wissenschaft müsste der Verwendung von Daten aus Nicht-Wahrscheinlichkeitsstichproben für die deskriptive Inferenz daher höhere Hürden setzen.
Die Vorläufigkeit wissenschaftlicher Befunde legt ein weiteres Argument für die Verwendbarkeit des Klaros-Verfahrens nahe. Wenn alle Befunde vorläufig sind, könnten Ergebnisse auf der Basis von Nicht-Wahrscheinlichkeitsstichproben, als publikationswürdiger Zwischenschritt auf dem Weg zur Erkenntnis angesehen werden. Das Argument ist vor allem dann stichhaltig, wenn völlig neue Wissensgebiete oder versteckte Populationen erschlossen werden (vgl. ähnlich King et al. 1994: 214). In solchen Fällen muss die Toleranz gegenüber defizitären Stichproben schon deshalb erhöht werden, weil das Dodona-Verfahren nur mit erheblichem Vorwissen über die Grundgesamtheit realisierbar ist (vgl. Heckathorn 1997; Hipp et al. 2019). Wenn man z. B. etwas über Personen mit spezifischen politischen Einstellungen erfahren möchte, kann ein Access-Panel einen ersten Zugang zu diesem Feld bieten. Ist das Wissen über den Forschungsgegenstand bisher gering, lassen sich auch trotz methodischer Defizite beträchtliche Wissensfortschritte erzielen. Mit zunehmender Erforschung des Gegenstands müssen die Qualitätsansprüche dann jedoch angehoben werden.
In den Sozialwissenschaften gibt es drei wichtige Anwendungsbereiche für Umfragedaten: die Beschreibung gesellschaftlicher Phänomene, die Überprüfung soziologischer Theorien und die Abschätzung der Wirkung von Interventionen oder gesellschaftlicher Rahmenbedingungen (ähnlich: Schnell 2019b: 19). Angesichts des Kostenvorteils der Klaros-Institute und der Tatsache, dass (soziologische) Forschung oft mit öffentlichen Geldern finanziert wird, stellt sich die Frage, ob Wahrscheinlichkeitsstichproben für alle Anwendungsbereiche geboten sind. Dies ist nicht unbedingt der Fall. Sofern es um die Schätzung kausaler Effekte geht und es Gründe zu der Annahme gibt, dass sich diese nicht zwischen Einheiten der Grundgesamtheit unterscheiden, ist das Stichprobendesign irrelevant (Kohler 2019a). Survey-Experimente (Sniderman 2018) oder faktorielle Surveys (Auspurg et al. 2009) bedürfen daher nicht unbedingt einer Wahrscheinlichkeitsstichprobe. Bei Interesse am Population Average Treatment Effect setzt dies jedoch homogene Treatmenteffekte voraus.
In den anderen Fällen gehen die Argumente für die Verwendbarkeit des Klaros-Verfahrens von zunächst geringen praktischen Konsequenzen der Forschungsergebnisse aus. Ergebnisse aus defizitären Daten tragen hier zwar zum Forschungsprozess bei, jedoch wird die Vorläufigkeit der Befunde von Expert:innen richtig eingeschätzt. Auf längere Sicht werden sie von valideren Ergebnissen verdrängt. Sofern sie die Scientific Community nicht verlassen, richten sie keinen Schaden an. Die Publikation von Forschungsergebnissen für eine breitere Öffentlichkeit markiert hingegen den Übergang zur Verwendung von Umfragen im politischen Meinungsbildungsprozess.
4.2 Teilhabe am politischen Meinungsbildungsprozess
Forschungsergebnisse tragen zum politischen Meinungsbildungsprozess bei – dieser Tage gut erkennbar an der hohen öffentlichen Aufmerksamkeit für die Befunde der Klimaforschung, der Virologie und Epidemiologie. Dabei kommt der Forschung eine besondere Autorität zu, was sich beispielhaft am Slogan „Unite behind the Science” der Fridays-for-Future-Bewegung ablesen lässt (Fobb et al. 2021). Bei der Diskussion um Entscheidungen über nicht-pharmazeutische Maßnahmen zur Eindämmung der COVID19-Pandemie gehört die Forderung, mehr auf die Wissenschaft zu hören, zum Standardrepertoire politischer Kommentare.[26] Der Vorwurf, Ergebnisse der Wissenschaft zu ignorieren, ist ein überaus beliebter Angriff unter politischen Gegner:innen. Öffentliche Kritik an der Wissenschaft, an einzelnen Forscher:innen oder konkreten wissenschaftlichen Erkenntnissen mündet regelmäßig in scharfen Kommentaren in den sozialen Medien.
Mit dem Vertrauensvorschuss der Öffentlichkeit sollte die Wissenschaft verantwortungsvoll umgehen. Wenn Wissenschaftler:innen vorläufige Ergebnisse von Studien mit defizitären Daten in ihrer Fachöffentlichkeit zur Diskussion stellen, ist dies etwas anderes, als wenn sie dieselben Befunde in die breite Öffentlichkeit tragen bzw. ihrer Veröffentlichung durch Massenmedien zustimmen. Die wissenschaftliche Qualitätskontrolle bleibt wirkungslos, wenn Forschungsergebnisse bereits vor dem Peer-Review in die Öffentlichkeit getragen werden.
Zum verantwortungsvollen Veröffentlichen von Forschungsergebnissen in den Massenmedien gehört auch die Darstellung der Unsicherheit der Ergebnisse. Wenn der Zustimmungswert für eine Partei um zwei Punkte steigt, kann dies eine zufällige Schwankung oder ein echter Zuwachs sein. Ersteres wird in der öffentlichen Berichterstattung jedoch häufig ignoriert.[27] In der Wissenschaft wird bereits seit längerem diskutiert, auf welche Weise Unsicherheit kommuniziert werden sollte (Selvin 1957; Ziliak & McCloskey 2008; Gelman & Loken 2014; American Statistical Association 2016; Muñoz & Young 2018). Wie genau die Kommunikation von Unsicherheit in der Öffentlichkeit ausgestaltet werden kann, gilt es noch genauer zu erörtern. In vielerlei Hinsicht vorbildlich sind die Faktenboxen des Harding-Zentrums für Risikokompetenz.[28] Darüber hinaus sollten mögliche Einschränkungen deutlicher dargelegt werden. Da die Modelle bei Nicht-Wahrscheinlichkeitsstichproben komplizierter sind, dürfte dies Klaros schwerer fallen als Dodona.
Ein wichtiger Schritt zur seriösen Berichterstattung wäre die Einbettung eines einzelnen Ergebnisses in den Kontext des vorhandenen Wissens, so dass Ausreißer als solche erkannt werden. Dies erfordert jedoch auch Informationen über die methodischen Unterschiede und Einschränkungen und den weitgehenden Verzicht auf Berichte über spektakuläre Einzelergebnisse. Andernfalls besteht die Gefahr, dass qualitativ hochwertige Erhebungen in der Vielzahl an Studien untergehen (Chu & Evans 2021).
Was folgt hieraus für die Ergebnisse von Meinungsumfragen auf Basis des Klaros-Verfahrens? Wir behaupten, dass die im letzten Abschnitt genannten Argumente für die Toleranz gegenüber Nicht-Wahrscheinlichkeitsstichproben im Kontext von Beiträgen zum Meinungsbildungsprozess nicht zutreffen: Es geht bei solchen Beiträgen nahezu nie um kausale Effekte, sondern praktisch immer um die Beschreibung eines Parameters für eine relevante Bevölkerungsgruppe (z. B. Wahlberechtigte, Wohnbevölkerung, usw.). Die Rezipient:innen sind keine Fachleute und sich der Beschränkungen der Ergebnisse daher nicht bewusst. Die Ergebnisse von Studien mit besseren Methoden verdrängen auch nicht die schlechteren, vielmehr verdrängen die marktgängigeren Methoden die weniger marktgängigen. Zumindest im Bereich der Meinungsforschung, welche im Mittelpunkt der Repräsentativitätsdebatte steht, betritt Klaros auch kein inhaltliches Neuland. Hier handelt es sich zumeist um gut erforschte Themenfelder, für die auch die Ziehung von Wahrscheinlichkeitsstichproben möglich wäre. Dies ist offensichtlich im Fall von Wahlumfragen.
Man könnte einwenden, dass die Befunde von Bevölkerungsumfragen zu politischen und gesellschaftlichen Themen, ähnlich wie die Ergebnisse der Sozialforschung, keine praktischen Konsequenzen haben und letztlich dem Infotainment zuzuordnen seien (Schnell 2019a). Zugegeben: Im Vergleich zu Befunden der Klimaforschung unter den Bedingungen der Klimakrise oder der Epidemiologie während einer Pandemie ist die praktische Relevanz der Meinungsforschung nicht unmittelbar erkennbar. Man sollte sie aber auch nicht unterschätzen. Die größeren Medienhäuser investieren seit Jahren erhebliche Beträge für regelmäßige Bevölkerungsumfragen, über deren Ergebnisse sie dann berichten. Es lässt sich daher vermuten, dass die Massenmedien diese Art der Berichterstattung für relevant erachten, oder dass sie zumindest auf breites Interesse stößt. Aus demokratietheoretischer Sicht haben Meinungsumfragen eine Rückkopplungsfunktion, indem sie der Politik auch zwischen den Wahlen Informationen über die politischen Überzeugungen der Wähler:innen und deren Haltung zu Streitfragen liefern (Iranbomy 2008). Meinungsumfragen beschreiben nicht nur das Meinungsklima, sondern beeinflussen es möglicherweise auch (vgl. statt weiterer Simon 1954; Marsh 1985; Faas 2014; Schmitt-Beck 2015). Insbesondere im Vorfeld politischer Wahlen dürften Wahlumfragen die wahrgenommene Knappheit des erwarteten Wahlergebnisses beeinflussen, was wiederum einen starken Einfluss auf die Wahlbeteiligung hat (Powell 1986; Jackman 1987; Lewis-Beck & Lockerbie 1989; Freitag 1996). Nicht zuletzt wegen solcher Überlegungen ist die Publikation von Ergebnissen von sog. Exit Polls nach § 32(2) Bundeswahlgesetz vor Schließung der Wahllokale sogar ausdrücklich verboten.
Sollten Umfrageergebnisse tatsächlich Meinungsklima, Wahlbeteiligung, -entscheidungen und -ergebnisse und damit am Ende auch politische Entscheidungen beeinflussen, wäre es wünschenswert, dass die Ergebnisse der Meinungsforschung den zur Zeit der Datenerhebung bestehenden wahren Wert unverzerrt abbilden. Sollten einzelne Medien aus wirtschaftlichen Erwägungen und wider besseren Wissens auf methodische Standards verzichten und Ergebnisse von Meinungsumfragen mit unbekannten Eigenschaften in den Mittelpunkt ihrer Berichterstattung stellen, würde dies den Übergang von seriöser zu unseriöser Berichterstattung markieren. Sozialwissenschaftler:innen täten deshalb gut daran, sich in die Diskussion einzubringen, und sei es nur durch die Verbreitung des Wissens über die Eigenschaften von Methoden der Umfrageforschung.[29]
In Bezug auf Wahlumfragen sei noch auf eine weitere praktische Konsequenz hingewiesen: Am Wahltag wird sich die Bevölkerung der Unterschiede zwischen den Ergebnissen der Wahlumfragen und der tatsächlichen Wahlergebnisse bewusst. Da falsche Prognosen zu Wissenschaftsskepsis führen können, kann dies durchaus problematisch sein (Auspurg 2020). In den vergangenen Jahren lagen die Wahlprognosen bei einer ganzen Reihe wichtiger Wahlen augenscheinlich falsch (z. B. Brexit, Trump vs. Clinton). Dies hat zu einem beträchtlichen Imageschaden der Meinungsforschung geführt,[30] der sich auch negativ auf die Teilnahmebereitschaft für sozialwissenschaftliche Umfragen auswirken könnte. Abschnitt 3 unseres Beitrags und die eingangs zitierten empirischen Analysen sprechen dafür, dass die Ergebnisse der Klaros-Institute stärker zu dem Imageschaden beigetragen haben als die Dodona-Institute. In diesem Fall müssten Sozialwissenschaftler:innen schon allein deshalb Stellung beziehen, um noch größeren Schaden von ihrer nach wie vor wichtigsten Datenerhebungsmethode abzuwenden.
Die vorstehende Argumentation zur Verwendbarkeit von Nicht-Wahrscheinlichkeitsstichproben stellte auf die Konsequenzen der Ergebnisse für den politischen Meinungsbildungsprozess ab. Je stärker diese Konsequenzen sind, desto höher sollten die Qualitätsansprüche sein, die an Umfragen gestellt werden. Im Fall der Meinungsumfragen stellt sich diese Wirkung aber nur indirekt über die Medienberichterstattung ein. Dies ändert sich, wenn man Umfragen betrachtet, die unmittelbar der Vorbereitung politischer Entscheidungen dienen.
4.3 Vorbereitung politischer Entscheidungen
Eine große Anzahl von Bevölkerungsumfragen wird von Regierungsbehörden in Auftrag gegeben oder direkt finanziert. Das Eurobarometer ist eine seit 1974 regelmäßig stattfindende Umfrage der Europäischen Kommission. Die Europäische Union unterhält die Europäische Stiftung zur Verbesserung der Lebens- und Arbeitsbedingungen (Eurofound), welche im Auftrag der EU regelmäßig die Europäische Unternehmenserhebung (ECS), die Europäische Erhebung zur Lebensqualität (EQLS) und die Europäische Erhebung über die Arbeitsbedingungen (EWCS) durchführt.[31] Die Bundesregierung lässt durch ihr Presse- und Informationsamt mehrmals pro Jahr Meinungen, Einstellungen und Stimmungen der Bevölkerung erheben.[32] Auch die Bundesministerien verantworten eigene Umfragen: Das Umweltministerium führt in zweijährigem Abstand die Umfrage „Naturbewusstsein“ durch, mit der Einstellungen der deutschen Bevölkerung zu Natur und biologischer Vielfalt erhoben werden. Das Verteidigungsministerium lässt seit 1996 jährlich das „Sicherheits- und verteidigungspolitische Meinungsbild in Deutschland“ erheben. Sucht man im Datenarchiv der GESIS[33] nach dem Stichwort „Bundesministerium“ werden 304 Treffer im Bereich Forschungsdaten ausgewiesen. Bei der überwiegenden Mehrzahl handelt es sich um Umfragen, die direkt vom Ministerium oder einer nachgeordneten Behörde in Auftrag gegeben wurden.
Über die genaue Verwendung der Ergebnisse der von Regierungsbehörden in Auftrag gegebenen Umfragen können wir nur spekulieren. Schnell (2019b: 7) vermutet, dass es den Initiierenden „geboten erscheint, ‚Forschung‘ als Legitimation verwenden zu können“. Vermutlich dienen die Umfragen neben der Ausgestaltung von Informationskampagnen auch zur Entscheidung über Priorisierungen von Gesetzesvorhaben oder sie werden als Hintergrundmaterial für die Ausgestaltung spezifischer Gesetzesvorhaben genutzt.[34] In solchen Fällen hätten die Ergebnisse der Umfragen unmittelbare Auswirkungen für die Bevölkerung. Entsprechend der hier vertretenen Ansicht sollten in solchen Fällen höchste Qualitätsansprüche an die Umfragen gestellt werden.
Soweit dies aus den über die GESIS zur Verfügung gestellten Informationen ersichtlich ist, wurden bei den durch die Bundesministerien in Auftrag gegebenen Umfragen stets Wahrscheinlichkeitsstichproben verwendet. Es gibt aber mindestens eine Ausnahme, die gewissermaßen den Idealtypus des hier kritisierten Vorgehens markiert: 2019 musste das Landwirtschaftsministerium über die Methode zur Nährwertkennzeichnung auf Lebensmittelverpackungen entscheiden. Im Interesse einer verstärkten Bürger:innenbeteiligung fällte das BMEL die Entscheidung mit Hilfe einer „repräsentative(n)“ Bevölkerungsumfrage, mit der ein „unabhängiges Forschungsinstitut“ beauftragt wurde (Bundesministerium für Ernährung und Landwirtschaft 2021). Die dokumentierten Details der Stichprobenziehung der Umfrage sind oberflächlich (Info GmbH 2019). Auf Nachfrage handelte es sich um eine Quotenstichprobe aus einem ca. 300.000 Personen umfassenden Access-Panel, welches über „Affiliate-Netzwerke“ und „Displaykampagnen“ von „zielgruppenspezifischen“ Onlineportalen zusammengestellt wurde. Die Berechnung des „statistischen Fehlers“ erfolgte mit einem von Prigge (1937) vorgeschlagenem Verfahren.[35]
Trotz der unmittelbaren praktischen Konsequenz werden hier methodische Bedenken über Bord geworfen und ein für die gegebene Fragestellung ungeeignetes Verfahren zur Auswahl der Befragungspersonen angewandt. Es ist somit Beispiel für ein Vorgehen, das keinesfalls auch auf weniger harmlose Gegenstände angewandt werden sollte.
5 Schluss
Ziel dieses Beitrags war, Datenerhebungen der idealtypischen Umfrageinstitute Klaros und Dodona hinsichtlich wirtschaftlicher, methodischer und normativer Aspekte zu vergleichen. Dabei zeichnet sich Dodona durch die Nutzung etablierter Wahrscheinlichkeitsstichproben aus, kämpft aber mit sinkenden Responseraten. Klaros verwendet Nicht-Wahrscheinlichkeitsstichproben.
Zusammenfassend lässt sich festhalten, dass Klaros mit niedrigeren Kosten und höherer Geschwindigkeit auf der wirtschaftlichen Dimension deutliche Vorteile bietet. Dodona hingegen schneidet auf der methodischen Dimension besser ab: Die Ergebnisse sind weniger verzerrt – trotz niedriger Responseraten bei Dodona und hoher realisierter Fallzahlen bei Klaros. Für eine Entscheidung zwischen Dodona und Klaros müssen daher die wirtschaftlichen und methodischen Eigenschaften gegeneinander abgewogen werden. Hierzu werden normative Argumente benötigt.
Auf der normativen Dimension stellt sich die Frage, für welchen Zweck Qualitätseinbußen in Kauf genommen werden können. Nach der hier vertretenen Auffassung sind hier vor allem die Folgen der Ergebnisse einer Umfrage von Relevanz. Qualitätseinbußen sind dann am ehesten akzeptabel, wenn die Ergebnisse für die Scientific Community bestimmt sind. Denn hier sollte ein Bewusstsein für die Einschränkungen der Gültigkeit der Ergebnisse und deren Vorläufigkeit herrschen. Dafür ist es notwendig, Limitationen von Studien transparent zu machen. In diesem Fall sollten methodisch bessere Ergebnisse auf lange Sicht die schlechteren verdrängen. Die Vorläufigkeit wissenschaftlicher Erkenntnisse kann jedoch nicht als Entschuldigung für die Verwendung defizitärer Methoden herangezogen werden, wenn bessere Methoden verfügbar sind.
Nicht-Wahrscheinlichkeitsstichproben können insbesondere bei der Befragung von Spezialpopulationen, bei experimenteller Forschung oder der explorativen Untersuchung neuer Forschungsgebiete eine Alternative sein. Diese Argumente beruhen allerdings auf einem idealisierten Wissenschaftsverständnis, welches in der Realität oft nicht eingehalten wird. Dies schränkt den Einsatz von Nicht-Wahrscheinlichkeitsstichproben auch für die Wissenschaft weiter ein. Sozialwissenschaftler:innen, die mit Daten aus Nicht-Wahrscheinlichkeitsstichproben arbeiten, sollten sich zudem bewusst sein, dass ihre Ergebnisse auch von Medien rezipiert oder zur Legitimation politischer Entscheidungen genutzt werden. Spätestens, wenn dies von wissenschaftlicher Seite bewusst forciert wird, gelten die hier aufgestellten Argumente nicht.
Umfragen, deren Ergebnisse zur Vorbereitung von politischen Entscheidungen dienen, wirken sich unmittelbar auf die Lebensbedingungen der Menschen aus. Insofern die Rechtsfolgen bereits eingetreten sind, können die der Entscheidung zugrundeliegenden Ergebnisse auch nicht später durch validere Erkenntnisse revidiert werden. Es liegt darum auf der Hand, dass unverzerrte Ergebnisse höchste Priorität haben sollten und Kostenargumente nachrangig zu behandeln sind.
Zwischen diesen Polen liegen Umfragen, deren Ergebnisse durch ihre Verbreitung in den Massenmedien den politischen Meinungsbildungsprozess beeinflussen. Nach Betrachtung der Folgen dieser Umfragen kommen wir zu dem Schluss, dass hier ebenfalls Qualität einen hohen Stellenwert haben sollte: Die Rezipient:innen sind sich der Qualitätseinschränkungen häufig nicht bewusst, der Wettbewerb zwischen der Relevanz der Ergebnisse wird nicht ausschließlich mit methodischen Argumenten geführt und Umfrageergebnisse haben das Potenzial, Meinungen, Einstellungen und schließlich auch das Verhalten von Menschen zu beeinflussen. Insofern sehen wir diese Umfragen näher am Pol derjenigen Umfragen, die Qualität vor Wirtschaftlichkeit setzen sollten.
Eine nach unserer Überzeugung unterschätzte Folge der in Massenmedien verbreiteten Umfrageergebnisse ist, dass sie das öffentliche Image sozialwissenschaftlicher Umfrageforschung bestimmen. Verlieren diese Umfragen an Glaubwürdigkeit, könnte dies zu weiter sinkenden Responseraten führen. Gleiches gilt, wenn zahlreiche Umfragen die Kooperationsbereitschaft der Bevölkerung überreizen (Porter et al. 2004). Da die Umfrageforschung ein wichtiger Teil der Sozialforschung ist, sollte die Soziologie ihre Expertise diesbezüglich nutzen und sich aktiv in die Repräsentativitätsdebatte einbringen. Insofern die methodische Dimension als geklärt angesehen werden kann, ist dies vor allem eine normative Debatte.
Unabhängig vom Ausgang der normativen Debatte benötigen Auftraggeber:innen, Befragungspersonen und Rezipient:innen Informationen über die Qualität von Umfragen. Ohne diese Transparenz können Entscheidungen über die Auftragsvergabe, über die eigene Teilnahme an einer Umfrage oder über die Art der Berichterstattung nicht rational getroffen werden. Einen wichtigen Denkanstoß liefern darum Forderungen nach der Einführung eines Qualitätssiegels, mit dem Umfragevorhaben durch unabhängige Gutachter:innen bewertet werden (American Association for Puplic Opinion Research 2021; Kaase 1999; Schnell 2019a). Ein solches Siegel hätte Vorteile für Rezipient:innen, Befragte, Auftraggeber:innen und die Institute selbst: Rezipient:innen könnten die Relevanz der Daten leichter einschätzen, Befragungspersonen seriöse und unseriöse Interviewanfragen leichter unterscheiden, Auftraggeber:innen Qualitätsunterschiede leichter bemerken und Erhebungsinstitute mit ausgezeichneten Umfragen angemessene Preise erzielen.
Replikationsdatei
Die Stata Do-Files, für die in diesem Artikel durchgeführten Beispielrechnungen, befinden sich im SowiDataNet | datorium unter dem Titel:
“Welcher Zweck heiligt die Mittel? Bemerkungen zur Repräsentativitätsdebatte in der Meinungsforschung. Replikationsmaterialien” https://doi.org/10.7802/2493
About the authors
Ulrich Kohler, Studium der Soziologie, Geschichte und Öffentlichem Recht in Konstanz und Mannheim. Promotion 2001 an der Universität Mannheim. 1996–2003 wissenschaftlicher Mitarbeiter bzw. Hochschulassistent an der Universität Mannheim. 2003–2012 wissenschaftlicher Mitarbeiter am WZB. Seit 2012 Professor für Methoden der empirischen Sozialforschung an der Universität Potsdam. Forschungsschwerpunkte: Soziale Ungleichheit und Datenerhebungsmethoden. Wichtigste Publikationen: Verarmungsrisiken nach kritischen Lebensereignissen in Deutschland und den USA (mit M. Ehlert, B. Grell, J.P. Heisig, A. Radenacker & M. Wörz), Kölner Zeitschrift für Soziologie und Sozialpsychologie 2012; How to Measure and Proxy Permanent Income: Evidence from Germany and the U.S. (mit D. Brady, M. Giesselmann & A. Radenacker), Journal for Economic Inequality 2018. Zuletzt in dieser Zeitschrift: Educational Expansion, Social Class, and Choosing Latin as a Strategy of Distinction (mit J. Gerhards & T. Sawert), Zeitschrift für Soziologie 2021.
Julia C. Post, Studium der Soziologie in Berlin und Potsdam. Seit 2017 wissenschaftliche Mitarbeiterin an der Universität Potsdam. Forschungsschwerpunkte: Missing Data, Nonresponse Bias und Datenqualität. Wichtigste Publikationen: Unit nonresponse biases in estimates of SARS-CoV-2 prevalence (mit F. Class & U. Kohler), Survey Research Methods 2020.
Danksagung
Der Beitrag ist inspiriert durch den Workshop “Neue Entwicklungen in der Onlineforschung: Möglichkeiten und Grenzen von River-Sampling” am 6. Februar 2020 in Mannheim. Der Aufsatz profitierte auf vielfältige Weise von Kolleg:innen und Freund:innen, wofür wir ihnen zu großem Dank verpflichtet sind: Den Teilnehmer:innen des River-Sampling-Workshops für die anregenden Diskussionen, Carina Cornesse für wichtige Hinweise zum Vorgehen diverser Klaros-Institute, Rainer Schnell für zahlreiche Erläuterungen und Literaturhinweise, Nadja Dautel, Hannah Gehrmann und Stefan Schlüter für die gründliche Durchsicht des gesamten Manuskripts sowie Janina Mütze für die Bereitschaft zum Austausch von Argumenten.
Literatur
Albert, H., 1968: Traktat über kritische Vernunft. Tübingen: Mohr Siebeck.Search in Google Scholar
American Association for Puplic Opinion Research, 2021: Transparancy Initiative. https://www.aapor.org/Standards-Ethics/Transparency-Initiative/FAQs.aspx.Search in Google Scholar
American Statistical Association, 2016: ASA Statement on Statistical Significance and P-Values. The American Statistician 70: 131–33.Search in Google Scholar
Auspurg, K., 2020: Fieberhafte Forschung – Warum Forschung derzeit wenig verlässlich ist und was wir dagegen tun können. https://coronasoziologie.blog.wzb.eu/podcast/katrin-auspurg-fieberhafte-forschung-warum-forschung-derzeit-wenig-verlaesslich-ist-und-was-wir-dagegen-tun-koennen/.Search in Google Scholar
Auspurg, K., M. Abraham & T. Hinz, 2009: Die Methodik des faktoriellen Surveys in einer Paarbefragung. S. 179–210 in: P. Kriwy & C. Gross (Hrsg.), Klein Aber Fein! Quantitative empirische Sozialforschung mit kleinen Fallzahlen. Wiesbaden: VS Verlag.10.1007/978-3-531-91380-3_8Search in Google Scholar
Bethlehem, J., 1988: Reduction of Nonresponse Bias Through Regression Estimation. Journal of Official Statistics 4: 251–60.Search in Google Scholar
Bethlehem, J., 2010: Selection Bias in Web Surveys. International Statistical Review 78: 161–88.10.1111/j.1751-5823.2010.00112.xSearch in Google Scholar
Bethlehem, J., 2017: The Perils of Non-Probability Sampling. https://www.europeansurveyresearch.org/conference/non-probability.Search in Google Scholar
Beullens, K., G. Loosveldt, C. Vandenplas & I. Stoop, 2018: Response Rates in the European Social Survey: Increasing, Decreasing, or a Matter of Fieldwork Efforts? Survey Methods: Insights from the Field. https://doi.org/10.13094/SMIF-2018-00003.Search in Google Scholar
Bieber, I. & M. Etzel, 2020: Bericht zur Datenqualität der GLES: CAPI-Querschnitt 2009, 2013 und 2017 im Vergleich. https://doi.org/10.21241/ssoar.69959.Search in Google Scholar
Binder, D., 1998: Longitudinal Surveys: Why Are these Surveys Different from all other Surveys? Survey Methodology 24: 101–108.Search in Google Scholar
Blom, A.G., 2020: Die Daten der Meinungsforscher müssen besser werden. https://www.sowi.uni-mannheim.de/blom/news/?tx_news_pi1%5Bnews%5D=7113&cHash=2b7676c880703130333460ab736d269a.Search in Google Scholar
Blom, A.G., C. Gathmann & U. Krieger, 2015: Setting Up an Online Panel Representative of the General Population: The German Internet Panel. Field Methods 27: 391–408.10.1177/1525822X15574494Search in Google Scholar
Bosnjak, M., T. Dannwolf, T. Enderle, I. Schaurer, B. Struminskaya, A. Tanner & K.W. Weyandt, 2017: Establishing an Open Probability-Based Mixed-Mode Panel of the General Population in Germany: The GESIS Panel. Social Science Computer Review 36: 103–15.10.1177/0894439317697949Search in Google Scholar
Bouncken, R., o. J.: Zur Aussagefähigkeit von Web-basierten Datenerhebungen und -analysen. Beurteilung und gute Handlungspraxis am Beispiel von Civey. https://assets.ctfassets.net/ublc0iceiwck/68LXL0ETxmwKKgACCykk8A/4a8413e4eaf2a7a7e22c3ba2729158e1/Gutachten_Civey_Bouncken.pdf.Search in Google Scholar
Brennan, G. & L. Lomasky, 1993: Democracy and Decision: The Pure Theory of Electoral Preference. Cambridge: Cambridge University Press.10.1017/CBO9781139173544Search in Google Scholar
Brettschneider, F., J. van Deth & E. Roller, 2002: Sozialstruktur und Politik: Forschungsstand und Forschungsperspektiven. S. 7–22 in: J. van Deth & E. Roller (Hrsg.), Das Ende der politisierten Sozialstruktur? Opladen: Leske und Budrich.10.1007/978-3-663-09538-5_1Search in Google Scholar
Bundesministerium für Ernährung und Landwirtschaft, 2021: Erweiterte Nährwertkennzeichnung: Verbraucherinnen und Verbraucher wollen Nutri-Score. https://www.bmel.de/DE/themen/ernaehrung/lebensmittel-kennzeichnung/freiwillige-angaben-und-label/nutri-score/naehrwertkennzeichnungs-modelle-nutriscore.html.Search in Google Scholar
Bundeswahlleiter, 2021: Bundestagswahl 2021: 60,4 Millionen Wahlberechtigte. https://www.bundeswahlleiter.de/info/presse/mitteilungen/bundestagswahl-2021/01_21_wahlberechtigte-geschaetzt.html.Search in Google Scholar
Chu, J. & J.A. Evans, 2021: Slowed Canonical Progress in Large Fields of Science. Proceedings of the National Academy of Sciences 118:e2021636118.10.1073/pnas.2021636118Search in Google Scholar
Cornesse, C., A.G. Blom, D. Dutwin, J.A. Krosnick, E.D. De Leeuw, S. Legleye, J. Pasek, D. Pennay, B. Phillips, J.W. Sakshaug, B. Struminskaya & A. Wenz, 2020: A Review of Conceptual Approaches and Empirical Evidence on Probability and Nonprobability Sample Survey Research. Journal of Survey Statistics and Methodology 8: 4–36.10.1093/jssam/smz041Search in Google Scholar
Cornesse, C. & M. Bosnjak, 2018: Is There an Association Between Survey Characteristics and Representativeness? A Meta-Analysis. Survey Research Methods 12: 1–13.Search in Google Scholar
Czajka, J. & A. Beyer, 2016: Declining Response Rates in Federal Surveys: Trends and Implications. https://aspe.hhs.gov/sites/default/files/private/pdf/255531/Decliningresponserates.pdf.Search in Google Scholar
Daikeler, J., M. Bošnjak & K. Manfreda, 2019: Web Versus Other Survey Modes: An Updated and Extended Meta-Analysis Comparing Response Rates. Journal of Survey Statistics and Methodology 8: 513–39.10.1093/jssam/smz008Search in Google Scholar
Dalenius, T., 1983: Some Reflections on the Problem of Missing Data. S. 411–13 in: W. Madow & I. Olkin (Hrsg.), Incomplete Data in Sample Surveys. New York: Academic Press.Search in Google Scholar
Dassonneville, R., A. Blais, M. Hooghe & K. Deschouwer, 2018: The Effects of Survey Mode and Sampling in Belgian Election Studies. A Comparison of a National Probability Face-to-Face Survey and a Nonprobability Internet Survey. Acta Politica 55: 175–198.10.1057/s41269-018-0110-4Search in Google Scholar
De Leeuw, E.D., 1992: Data Quality in Mail, Telephone and Face to Face Surveys. Amsterdam: TT.Search in Google Scholar
De Leeuw, E.D., 2018: Mixed-Mode: Past, Present and Future. Survey Research Methods 12: 75–89.Search in Google Scholar
Dillman, D., 2000: Mail and Internet Surveys. The Tailored Design Method. New York: Wiley.Search in Google Scholar
Domche, G.N., P. Valois, M. Canuel, D. Talbot, M. Tessier, C. Aenishaenslin, C. Bouchard & S. Briand, 2020: Telephone Versus Web Panel National Survey for Monitoring Adoption of Preventive Behaviors to Climate Change in Populations: A Case Study of Lyme Disease in Quebec, Canada. BMC Medical Research Methodology 20: 1–15.10.1186/s12874-020-00958-4Search in Google Scholar
Dutwin, D. & T. Buskirk, 2017: Apples to Oranges or Gala versus Golden Delicious? Comparing Data Quality of Nonprobability Internet Samples to Low Response Rate Probability Sample. Public Opinion Quarterly 81: 213–249.10.1093/poq/nfw061Search in Google Scholar
Eilfort, M., 1994: Die Nichtwähler. Wahlenthaltung als Form des Wahlverhaltens. Paderborn: Schöningh.Search in Google Scholar
Einarsson, H., J.W. Sakshaug, A. Cernat, C. Cornesse & A.G. Blom, 2022: Measurement Equivalence in Probability and Nonprobability Online Panels. International Journal of Market Research 64: 484–505.10.1177/14707853221085206Search in Google Scholar
Elwert, F., 2013: Graphical Causal Models. S. 245–73 in: S.L. Morgan (Hrsg.), Handbook of Causal Analysis for Social Research. Dordrecht: Springer.10.1007/978-94-007-6094-3_13Search in Google Scholar
Enns, P. & J. Rothschild, 2021: Revisiting the ‘Gold Standard’ of Polling: New Methods Outperformed Traditional Ones in 2020. https://medium.com/3streams/revisiting-the-gold-standard-of-polling-new-methods-outperformed-traditional-ones-in-2020-451650a9ba5b.Search in Google Scholar
European Social Survey, 2021: ESS9 – 2018 Documentation Report. The ESS Data Archive, Edition 3.1. https://www.europeansocialsurvey.org/docs/round9/survey/ESS9_data_documentation_report_e03_1.pdf.Search in Google Scholar
Faas, T., 2014: Zur Wahrnehmung und Wirkung von Meinungsumfragen. Aus Politik und Zeitgeschichte 64: 43–45.Search in Google Scholar
Fahrmeir, L., R. Künstler, I. Pigeot & G. Tutz, 2016: Statistik. Der Weg zur Datenanalyse. Berlin: Springer.10.1007/978-3-662-50372-0Search in Google Scholar
Fobb, D., I. Axelsson & L. Tille, 2021: Gemeinsam für die Zukunft – Fridays for Future und Scientists for Future. Bielefeld: Transcript.Search in Google Scholar
Fossati, L., 2002: Wir sind alle nur vorläufig! Interview mit Hans Albert. Aufklärung und Kritik 9: 6–13.Search in Google Scholar
Freitag, M., 1996: Wahlbeteiligung in Westlichen Demokratien. Eine Analyse zur Erklärung von Niveauunterschieden. Swiss Political Science Review 2: 1–63.10.1002/j.1662-6370.1996.tb00186.xSearch in Google Scholar
Gallagher, M., 2019: Election Indices Dataset. http://www.tcd.ie/Political_Science/people/michael_gallagher/ElSystems/index.php.Search in Google Scholar
Gallagher, M. & P. Mitchell (Hrsg.), 2008: The Politics of Electoral Systems. Oxford: OUP.10.1093/0199257566.001.0001Search in Google Scholar
Gelman, A., S. Goel, D. Rothschild & W. Wang, 2017: High-Frequency Polling with Non-Representative Data. S. 89–105 in: D. Schill, R. Kirk & A.E. Jasperson (Hrsg.), Political Communication in Real Time. Theoretical and Applied Research Approaches. London: Routledge.Search in Google Scholar
Gelman, A. & E. Loken, 2014: The Statistical Crisis in Science. American Scientist 102:460.10.1511/2014.111.460Search in Google Scholar
GESIS, 2018: German General Social Survey – ALLBUS 2018. Supplement. Frequency tables by region of interview. Study No. 5272. Documentation for data set version 1.0.0. https://doi.org/10.4232/1.13325.Search in Google Scholar
GLES, 2017: GLES Panel. ZA6838. Wave Report Wave 15, Sample A. https://dbk.gesis.org/dbksearch/download.asp?id=71111.Search in Google Scholar
GLES, 2022: GLES Rolling Cross-Section 2021. ZA7703 Datenfile Version 2.0.0 Studienbeschreibung und Fragebogendokumentation. https://doi.org/doi:10.4232/1.13876.Search in Google Scholar
Graber, D. & J. Dunnaway (Hrsg.), 2017: Mass Media and American Politics. Thousand Oaks: Sage.Search in Google Scholar
Greaves, L., L. Oldfield, M. von Randow, C. Sibley & B. Milne, 2020: How Low Can We Go? Declining Survey Response Rates to New Zealand Electoral Roll Mail Surveys over Three Decades. Political Science 72: 228–44.10.1080/00323187.2021.1898995Search in Google Scholar
Groves, R., 2006: Nonresponse Rates and Nonresponse Bias in Household Surveys. Public Opinion Quarterly 70: 646–675.10.1093/poq/nfl033Search in Google Scholar
Groves, R. & L. Lyberg, 2010: Total Survey Error: Past, Present and Future. Public Opinion Quarterly 74: 849–879.10.1093/poq/nfq065Search in Google Scholar
Groves, R., S. Presser & S. Dipko, 2004: The Role of Topic Interest in Survey Participation Decisions. Public Opinion Quarterly 68: 2–31.10.1093/poq/nfh002Search in Google Scholar
Heckathorn, D., 1997: Respondent-Driven Sampling: A New Approach to the Study of Hidden Populations. Social Problems 44: 174–199.10.2307/3096941Search in Google Scholar
Hipp, L., U. Kohler & S. Leumann, 2019: How to Implement Respondent-Driven Sampling in Practice: Insights from Surveying 24-Hour Migrant Home Care Workers. Survey Methods: Insights from the Field. https://doi.org/10.13094/SMIF-2019-00009.Search in Google Scholar
Hitchcock, C. & M. Rédei, 2020: Reichenbach’s Common Cause Principle. In: E.N. Zalta (Hrsg.), The Stanford Encyclopedia of Philosophy. https://plato.stanford.edu/archives/spr2020/entries/physics-Rpcc/.Search in Google Scholar
Horvitz, D. & D. Thompson, 1952: A Generalization of Sampling Without Replacement from a Finite Universe. Journal of the American Statistical Association 47: 663–685.10.1080/01621459.1952.10483446Search in Google Scholar
Imai, K., G. King & E. Stuart, 2008: Misunderstandings Between Experimentalists and Observationalists about Causal Inference. Journal of the Royal Statistical Society A 171: 481–502.10.12987/9780300199307-010Search in Google Scholar
Info GmbH, 2019: Evaluation von erweiterten Nährwertkennzeichnungs-Modellen. Ergebnisbericht der Repräsentativerhebung. https://www.bmel.de/SharedDocs/Downloads/DE/_Ernaehrung/Lebensmittel-Kennzeichnung/Ergebnisbericht-Repraesentativerhebung-TeilA_eNWK.pdf?__blob=publicationFile&v=2.Search in Google Scholar
Iranbomy, S., 2008: Demoskopie und Demokratie. Dissertation J.W.-Goethe-Universität Frankfurt.Search in Google Scholar
Ito, D. & M. Todoroki, 2021: Evaluating the Quality of Online Survey Data Collected in 2018 in the USA: Univariate, Bivariate und Multivariate Analyses. International Journal of Japanese Sociology 30: 140–162.10.1111/ijjs.12117Search in Google Scholar
Jackman, R., 1987: Political Institutions and Voter Turnout in Industrial Democracies. American Political Science Review 81: 405–423.10.2307/1961959Search in Google Scholar
Jarren, O., U. Sarcinelli & U. Saxer (Hrsg.), 1998: Politische Kommunikation in der demokratischen Gesellschaft. Opladen: Westdeutscher Verlag.10.1007/978-3-322-80348-1Search in Google Scholar
Kaase, M. (Hrsg.), 1999: Qualitätskriterien der Umfrageforschung. Deutsche Forschungsgemeinschaft – Denkschriften. Berlin: Akademie-Verlag.10.1515/9783050077536Search in Google Scholar
Kappelhof, J., 2014: The Effect of Different Survey Designs on Nonresponse in Surveys Among Non-Western Minorities in the Netherlands. Survey Research Methods 8: 81–98.Search in Google Scholar
Kennedy, C. & H. Hannah, 2019: Response Rates in Telephone Surveys Have Resumed their Decline. https://www.pewresearch.org/fact-tank/2019/02/27/response-rates-in-telephone-surveys-have-resumed-their-decline/.Search in Google Scholar
King, G., R. Keohane & S. Verba, 1994: Designing Social Inquiry. Princeton: Princeton University Press.10.1515/9781400821211Search in Google Scholar
Klein, M., 2002: Wählen als Akt expressiver Präferenzoffenbarung. Eine Anwendung der Conjoint-Analyse auf die Wahl zur Hamburger Bürgerschaft am 21. September 1997. Frankfurt am Main: Peter Lang.Search in Google Scholar
Kohler, U., 2007: Surveys from Inside: An Assessment of Unit Nonresponse Bias with Internal Criteria. Survey Research Methods 1: 55–67.Search in Google Scholar
Kohler, U., 2019a: Possible Uses of Nonprobability Sampling for the Social Sciences. Survey Methods: Insights from the Field. https://doi.org/10.13094/SMIF-2019-00014.Search in Google Scholar
Kohler, U., 2019b: Leserbrief. Tagesspiegel vom 4.8.2019, S. 14.Search in Google Scholar
Kohler, U., F. Kreuter & E. Stuart, 2019: Nonprobability Sampling and Causal Analysis. Annual Review of Statistics and Its Applications 6: 149–172.10.1146/annurev-statistics-030718-104951Search in Google Scholar
König, C., M. Stahl & E. Wiegand (Hrsg.), 2011: Umfrageforschung: Entscheidungsgrundlage für Politik und Wissenschaft. Bonn: GESIS.Search in Google Scholar
Laakso, M. & R. Taagepera, 1979: Effective Number of Parties: A Measure with Application to Western Europe. Comparative Political Studies 12: 3–27.10.1177/001041407901200101Search in Google Scholar
Leeper, T., 2019: Where Have All the Respondents Gone? Perhaps We Ate Them All. Public Opinion Quarterly 83: 280–288.10.1093/poq/nfz010Search in Google Scholar
Legleye, S., G. Charrance, N. Razafindratsima, N. Bajos, A. Bohet & C. Moreau, 2018: The Use of a Nonprobability Internet Panel to Monitor Sexual and Reproductive Health in the General Population. Sociological Methods and Research 47: 314–348.10.1177/0049124115621333Search in Google Scholar
Leibenstein, H., 1950: Bandwagon, Snob and Veblen Effects in the Theory of Consumers’ Demand. Journal of Economics 64: 183–207.10.2307/1882692Search in Google Scholar
Lewis-Beck, M. & B. Lockerbie, 1989: Economics, Votes, Protests. Western European Cases. Comparative Political Studies 22: 155–177.10.1177/0010414089022002002Search in Google Scholar
MacInnis, B., J.A. Krosnick, A. S. Ho & M.-J. Cho, 2018: The Accuracy of Measurements with Probability and Nonprobability Survey Samples. Public Opinion Quarterly 82: 707–744.10.1093/poq/nfy038Search in Google Scholar
Marken, S., 2018: Still Listening: The State of Telephone Surveys. https://news.gallup.com/opinion/methodology/225143/listening-state-telephone-surveys.aspx.Search in Google Scholar
Marsh, C., 1985: Back on the Bandwagon: The Effect of Opinion Polls on Public Opinion. British Journal of Political Science 15: 51–74.10.1017/S0007123400004063Search in Google Scholar
Menold, N., 2014: The Influence of Sampling Method and Interviewers on Sample Realization in the European Social Survey. Survey Methodology 40: 105–123.Search in Google Scholar
Mercer, A., A. Lau & C. Kennedy, 2018: For Weighting Online Opt-in Samples, What Matters Most? http://www.pewresearch.org/methods/2018/01/26/for-weighting-online-opt-in-samples-what-matters-most/.Search in Google Scholar
Muñoz, J. & C. Young, 2018: We Ran 9 Billion Regressions: Eliminating False Positives Through Computational Model Robustness. Sociological Methodology 48: 1–33.10.1177/0081175018777988Search in Google Scholar
Pasek, J. & J.A. Krosnick, 2020: Relations Between Variables and Trends over Time in RDD Telephone and Nonprobability Sample Internet Surveys. Journal of Survey Statistics and Methodology 8: 37–61.10.1093/jssam/smz059Search in Google Scholar
Porter, S., M. Whithcomb & W. Weitzer, 2004: Multiple Surveys of Students and Survey Fatigue. New Directions for Institutional Research 2004: 63–73.10.1002/ir.101Search in Google Scholar
Powell, B., 1986: American Voter Turnout in Comparative Perspective. American Political Science Review 80: 17–43.10.2307/1957082Search in Google Scholar
Prigge, R., 1937: Fehlerrechnung bei biologischen Messungen. Die Naturwissenschaften 11: 169–170.10.1007/BF01492493Search in Google Scholar
Rendtel, U., 2010: Gutachten zur Repräsentativität von Online-Umfragen. https://assets.ctfassets.net/ublc0iceiwck/3JEuIxMxJC2WEG2A82aKQ6/e1567340430a3b4caee8515ff000775d/Gutachten_Repraesentativitaet_Online_Umfragen_Rendtel.pdf.Search in Google Scholar
Richter, G., T. Wolfram & C. Weber, o. J.: Die Statistische Methodik von Civey. https://civey.com/whitepaper.Search in Google Scholar
Särlvik, B. & I. Crewe, 1983: Decade of Dealignment: The Conservative Victory of 1979 and Electoral Trends in the 1970s. Cambridge: CUP.Search in Google Scholar
Schmitt-Beck, R., 2015: Bandwagon Effect. S. 1–5 in: G. Mazzoleni (Hrsg.), The International Encyclopedia of Political Communication. New York: Wiley.10.1002/9781118541555.wbiepc015Search in Google Scholar
Schnell, R., 1991: Wer ist das Volk? Zur faktischen Grundgesamtheit bei allgemeinen Bevölkerungsumfragen. Kölner Zeitschrift für Soziologie und Sozialpsychologie 43: 106–137.Search in Google Scholar
Schnell, R., 1997: Nonresponse in Bevölkerungsumfragen – Ausmaß, Entwicklung und Ursachen. Wiesbaden: VS.10.1007/978-3-322-97380-1Search in Google Scholar
Schnell, R., 2018: Wenn der Scharfschütze sein Ziel selber malt. Planung und Analyse. https://www.horizont.net/planung-analyse/nachrichten/repraesentativitaet-wenn-der-scharfschuetze-sein-ziel-selber-malt-171315.Search in Google Scholar
Schnell, R., 2019a: Repräsentativität. S. 109 in: S.M. Smid (Hrsg.), 60 Notizen zur Zukunft. Bonn: Infas.Search in Google Scholar
Schnell, R., 2019b: Survey-Interviews. Methoden standardisierter Befragungen. Wiesbaden: VS.10.1007/978-3-531-19901-6Search in Google Scholar
Schnell, R., 2019c: Umfragen verstehen und Beurteilen: Sozial- und Politikforschung für Journalisten. https://www.uni-due.de/imperia/md/content/soziologie/schnell/schnell_2019_umfragen_verstehen_und_beurteilen.pdf.Search in Google Scholar
Schnell, R., P.B. Hill & E. Esser, 2018: Methoden der empirischen Sozialforschung. München u. Wien: Oldenbourg.Search in Google Scholar
Schnell, R. & U. Kohler, 1995: Empirische Untersuchung einer Individualisierungshypothese am Beispiel der Parteipräferenz von 1953–1992. Kölner Zeitschrift für Soziologie und Sozialpsychologie 47: 6634–58.10.1007/978-3-663-09724-2_12Search in Google Scholar
Schoen, H., 2009: Wenn ich mich recht erinnere. Zur Validität von Rückerinnerungsfragen. S. 259–79 in: H. Schoen, H. Rattinger & O. Gabriel (Hrsg.), Vom Interview zur Analyse. Baden-Baden: Nomos.10.5771/9783845219073-258Search in Google Scholar
Schonlau, M. & V. Toepoel, 2015: Straightlining in Web Survey Panels over Time. Survey Research Methods 9:125–137.Search in Google Scholar
Schouten, B., F. Cobben & J. Bethlehem, 2009: Indicators for the Representativeness of Survey Response. Survey Methodology 35: 101–113.Search in Google Scholar
Schouten, B., N. Shlomo & C. Skinner, 2011: Indicators for Monitoring and Improving Representativeness of Response. Journal of Official Statistics 27: 231–253.Search in Google Scholar
Schröder, J., 2015: Persönlich-mündliche Befragung (Survey Guidelines). Mannheim: GESIS.Search in Google Scholar
Schuessler, J. & P. Selb, 2019: Graphical Causal Models for Survey Inference. SocArXiv. https://doi.org/10.31235/osf.io/hbg3m.10.31235/osf.io/hbg3mSearch in Google Scholar
Selvin, H., 1957: A Critique of Tests of Significance in Survey Research. American Sociological Review 22: 519–527.10.4324/9781315134918-14Search in Google Scholar
Simon, H., 1954: Bandwagon and Underdog Effects and the Possibility of Election Predictions. Public Opinion Quarterly 18: 245–253.10.1086/266513Search in Google Scholar
Sniderman, P., 2018: Some Advances in the Design of Survey Experiments. Annual Review of Political Science 21: 259–275.10.1146/annurev-polisci-042716-115726Search in Google Scholar
Sodeur, W., 1997: Interne Kriterien zur Beurteilung von Wahrscheinlichkeitsauswahlen. ZA-Informationen 41: 58–82.Search in Google Scholar
Sohlberg, J., M. Gilljam & J. Martinsson, 2017: Determinants of Polling Accuracy: The Effect of Opt-in Internet Surveys. Journal of Elections, Public Opinion and Parties 27: 433–447.10.1080/17457289.2017.1300588Search in Google Scholar
Statistische Ämter des Bundes und der Länder, 2022: Mikrozensus 2022. Kernprogramm. https://erhebungsportal.estatistik.de/Erhebungsportal/content/files/Musterfragebogen%20Mikrozensus%202022%20-%20Kernprogramm%20(deutsch).pdf?id=61e55902be61463b8bdd115363f3030a.Search in Google Scholar
Stedman, R., N. Connelly, T. Heberlein, D. Decker & S. Allred, 2019: The End of the (Research) World as We Know It? Understanding and Coping with Declining Response Rates to Mail Surveys. Society & Natural Resources 32: 1139–1154.10.1080/08941920.2019.1587127Search in Google Scholar
Steinbrecher, M., 2019: Wahlbeteiligung. S. 327–47 in: T. Faas, O. Gabriel & J. Maier (Hrsg.), Politikwissenschaftliche Einstellungs- und Verhaltensforschung. Freiburg: Nomos.10.5771/9783845264899-325Search in Google Scholar
Sturgis, P., J. Kuha, N. Baker, M. Callegaro, S. Fisher, J. Green, W. Jennings, B.E. Lauderdale & P. Smith, 2018: An Assessment of the Causes of the Errors in the 2015 UK General Election Opinion Polls. Journal of the Royal Statistical Society A 181: 757–781.10.1111/rssa.12329Search in Google Scholar
Sturgis, P. & R. Luff, 2021: The Demise of the Survey? A Research Note on Trends in the Use of Survey Data in the Social Sciences, 1939 to 2015. International Journal of Social Research Methodology 24: 691–696.10.1080/13645579.2020.1844896Search in Google Scholar
Terhanian, G., J. Bremer, R. Smith & R. Thomas, 2000: Correcting Data from Online Surveys for the Effects of Nonrandom Selection and Nonrandom Assignment. White Paper. Rochester: Harris International.Search in Google Scholar
Zhang, C. & F. Conrad, 2014: Speeding in Web Surveys: The Tendency to Answer Very Fast and its Association with Straightlining. Survey Research Methods 8: 127–135.Search in Google Scholar
Ziliak, S. & D. McCloseky, 2007: The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice und Lives. Ann Arbor: University of Michigan Press.10.3998/mpub.186351Search in Google Scholar
© 2023 bei den Autorinnen und Autoren, publiziert von De Gruyter.
Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.
Articles in the same Issue
- Titelseiten
- Editorial
- Editorial
- Aus dem Kreis der Herausgeberinnen und Herausgeber
- Gütekriterien empirischer Sozialforschung
- Viele Vorschläge zur Güte
- Gütekriterien in der Soziologie
- Alltagssprache, Beschreibungssprache und praxeologische Validität
- Welcher Zweck heiligt die Mittel? Bemerkungen zur Repräsentativitätsdebatte in der Meinungsforschung
- Kommunikationssoziologie/Professionssoziologie
- More than words: Eine mehrsprachigkeitsorientierte Perspektive auf die Dilemmata von Street-level Bureaucrats in der Klient*innenkommunikation
- Kommunikationssoziologie/Organisationssoziologie
- Die Geteiltheit virtueller Situationen
Articles in the same Issue
- Titelseiten
- Editorial
- Editorial
- Aus dem Kreis der Herausgeberinnen und Herausgeber
- Gütekriterien empirischer Sozialforschung
- Viele Vorschläge zur Güte
- Gütekriterien in der Soziologie
- Alltagssprache, Beschreibungssprache und praxeologische Validität
- Welcher Zweck heiligt die Mittel? Bemerkungen zur Repräsentativitätsdebatte in der Meinungsforschung
- Kommunikationssoziologie/Professionssoziologie
- More than words: Eine mehrsprachigkeitsorientierte Perspektive auf die Dilemmata von Street-level Bureaucrats in der Klient*innenkommunikation
- Kommunikationssoziologie/Organisationssoziologie
- Die Geteiltheit virtueller Situationen