Die Zukunft der Stichprobe

Es wird nicht einfacher, verlässliche Stichproben für Umfragen zu bekommen. Trotzdem wird das Ideal der Zufallsauswahl hochgehalten. Doch gibt es heute durchaus alternative Ansätze, bei denen die Ergebnisse auf Modellierungen beruhen. Sie sind in Deutschland stark umstritten, doch vielleicht helfen sie, die akuten Probleme der Umfrageforschung zu lösen?

Zu dem Thema habe ich einen Artikel in der Jubiläums-Ausgabe (03/2024) von planung & analyse, der einzigen deutschen Fachzeitschrift für Marktforschung, veröffentlicht. Der Artikel ist auch online verfügbar. Sie können Ihn aber auch gleich hier lesen:

Mehr modellieren, weniger erheben

Die Zukunft der Stichprobe

von Dirk Engel

Die Umfrageforschung plagt sich seit einigen Jahren damit, dass es immer schwieriger wird, saubere Stichproben zu ziehen. Das Ideal scheint nach wie vor die Zufallsstichprobe zu sein, bei der jedes Element der Grundgesamtheit die gleiche Chance hat, Teil der Stichprobe zu werden. Es gibt ausgeklügelte Verfahren, wie man Face-to-Face- und Telefonstichproben zieht, doch für die mittlerweile beliebteste Erhebungsart, die Online-Befragung, ist das alles nicht möglich. Deshalb greift man zu einem Ansatz, der noch in den 1960er Jahren unter Experten umstritten war: die Quoten-Stichprobe. Dabei achtet man darauf, dass die Struktur der Stichprobe in bekannten Merkmalen der Struktur der Grundgesamtheit entspricht.

Ist dies der Fall, so geht man davon aus, dass auch bei den unbekannten Merkmalen (die in der Stichprobe erhoben werden) eine Strukturgleichheit mit der Grundgesamtheit anzunehmen sei.

Quoten-Stichproben haben sich für alle Erhebungsmethoden etabliert, aber bei Online-Befragungen scheinen sie das einzig gangbare Verfahren zu sein. Hier arbeitet man mit Online-Access-Panels, die über E-Mail-Adressen befragungswilliger Personen verfügen. Durch eine Quotierung von bekannten Merkmalen wird versucht, Repräsentativität zu erreichen. Im Gegensatz zur Zufallsstichprobe (Random Sample) gibt es aber keine mathematische Theorie, die erklärt, warum Quoten-Stichproben funktionieren. Für viele Statistiker ist das ein unbefriedigender Sachverhalt. Die Erfahrung und viele Methodentests haben gezeigt, dass Zufalls- und gute Quoten-Stichproben häufig zu gleichen Ergebnissen kommen, allerdings nicht immer.

Also alles in Ordnung? Leider nein, denn die Probleme der Umfrageforschung werden nicht weniger: Die Teilnahmebereitschaft für Umfragen, egal wie sie erhoben werden, sinkt. Gleichzeitig wird es immer schwerer, die Qualität von Online-Access-Panels zu halten – Selbstselektion, Incentive-Betrug und eine grundsätzlich geringe Sorgfalt beim Ausfüllen sind einige der Probleme. Hinzu kommt, dass es für Umfragen schwer erreichbare Zielgruppen gibt und es grundsätzlich schwierig ist, für kleine geografische Gebiete Aussagen zu treffen. Deshalb denken weltweit immer mehr Forscher über andere Wege nach, wie man zu verlässlichen Ergebnissen jenseits der klassischen Stichproben-Theorie kommt. Doch dieses Suchen scheint in der deutschen Markt- und Meinungsforschung nicht ohne Konflikte zu geschehen.

Neue Methoden werden zum Zankapfel

In den vergangenen Jahren gab es in der Meinungsforschungsbranche einen gewissen Aufruhr. Dabei stehen zwei Institute im Fokus: der relative Newcomer Civey und das etablierte Forsa-Institut. Ihr öffentlich, teilweise sehr heftig ausgetragener Streit ist vielschichtig und soll hier nicht in seinen Details thematisiert werden. Doch er wirft ein Schlaglicht auf grundsätzliche methodologische Differenzen, die die Branche spalten. Während Civey mit innovativen modellbasierten Ansätzen wie der Multiplen Regression und Poststratifikation (MRP) wirbt, sieht sich Forsa als Verfechter der etablierten Stichproben-Ansätze, die auch als „designbasierte“ Methoden bezeichnet werden. Der Begriff unterstreicht, dass der Erfolg und die Gültigkeit der Methode stark von einem sorgfältig entwickelten und angewendeten Stichprobenplan abhängen, der auf statistischen Prinzipien basiert.

Was Civey anders macht

Civey, 2015 gegründet, wurde schnell als innovativer Akteur in der digitalen Marktforschung wahrgenommen. Aus zwei Gründen: Civey gewinnt seine Teilnehmenden in der Regel über die Webseiten von Medienpartnern, wo sie sich per Mail für das Panel registrieren können und später wie in anderen Online-Panels für Umfragen ausgewählt und eingeladen werden können.

Die Form der Registrierung, bei der potenzielle zukünftige Teilnehmer quasi als Appetithäppchen bereits erste Umfragen und Ergebnisse angezeigt bekommen, bevor sie sich registrieren, hat viele vermuten lassen, dass Civey „River Sampling“ betreibe. River Sampling ist vor allem umstritten, da es eine Selbstrekrutierung ist und dazu führen kann, dass sich Menschen mit besonders starken Meinungen eher beteiligen. Tatsächlich wird zwar das Netz ausgeworfen, um Teilnehmende für das Panel zu finden, für die Stichprobe verwendet Civey aber ein klassisches Quotenverfahren, bei dem nur Antworten von registrierten Teilnehmern, die zur Teilnahme an Umfragen von dem Unternehmen ausgewählt wurden, – berücksichtigt werden. Die Antworten der auf den Webseiten geköderten Teilnehmer bleiben dagegen in der Ergebnisberechnung unberücksichtigt.

Neben der klassischen Quotenstichprobe mit Nachgewichtung setzt Civey aber vor allem auf die Methode der Multiplen Regression und Poststratifikation (MRP). Dies ist kein designbasierter, sondern ein modellbasierter Ansatz. Die Methode kombiniert die Ergebnisse von nicht repräsentativen Stichproben mit externen demografischen und geografischen Daten, um die Umfrageergebnisse für spezifische Bevölkerungsgruppen hochzurechnen. Hierbei wird zunächst eine Multiple Regression durchgeführt, um die Wahrscheinlichkeit zu modellieren, dass ein Individuum eine bestimmte Antwort gibt. Anschließend erfolgt die Poststratifikation, bei der die Ergebnisse auf die tatsächliche Verteilung der Bevölkerungsgruppen hochgerechnet werden. So wird aus vielen kurzen, verstreuten Online-Fragen ein Meinungsbild, welches das der Bevölkerung widerspiegeln soll.

Was ist Multiple Regression und Poststratifikation?

Die Methode MRP hat ihre Wurzeln in den 1990er Jahren und wurde insbesondere an amerikanischen Universitäten für Wahlprognosen weiterentwickelt. In den Vereinigten Staaten gibt es eine riesige Menge von Wahlbezirken, von denen aber nur wenige wirklich umkämpft sind. Deshalb werden Wahlen mitunter in wenigen Wahlbezirken entschieden. Es ist fast unmöglich, in allen Bezirken ausreichend große Stichproben zu ziehen.

Durch die Kombination von Umfragedaten mit demografischen Informationen können detaillierte Schätzungen für spezifische geografische Einheiten oder demografische Gruppen erstellt werden. So können auch sehr feingliedrige Prognosen geliefert werden. Durch die Kombination von demografischen und geografischen Daten, die durch den Zensus auch für kleine Gebiete vorliegen, ermöglicht die Methode detaillierte Schätzungen, die auf kleinräumige Einheiten wie Wahlkreise oder spezifische demografische Gruppen heruntergebrochen werden können.

Doch die Methode ist nicht unproblematisch. Sie erfordert ein hohes Maß an statistischem Wissen und technischer Expertise. Die Methode ist komplex und nicht wirklich transparent. Das Lehrbuchwissen, was sich viele Sozial- und Wirtschaftswissenschaftler im Studium angeeignet haben, repräsentiert die „alte Welt“ der designbasierten Stichproben und nicht die „neue Welt“ des Data Science.

Die Kritiker der MRP-Methode

Vielen scheint es schwerzufallen, sich Methoden jenseits ihres hergebrachten Stichprobenwissens vorstellen zu können. Wie kann man über einen kleinen Wahlkreis Aussagen machen, wenn man dort nur wenige, vielleicht sogar gar keine Interviews durchgeführt hat?

Die Civey-Methode steht nicht nur bei Forsa, sondern auch bei einigen Wissenschaftlern in der Kritik. Einer der prominentesten Kritiker ist Prof. Dr. Thomas Gschwend von der Universität Mannheim. Er argumentiert, dass MRP-Modelle zu stark von den zugrunde liegenden Annahmen abhängig sind, was zu erheblichen Verzerrungen führen könne, wenn diese Annahmen nicht zutreffen. Gschwend betont, dass die Ergebnisse stark variieren können, wenn die verwendeten demografischen und geografischen Daten nicht genau sind. MRP-Modelle seien oft zu stark vereinfacht und würden die Komplexität des Wahlverhaltens oder der öffentlichen Meinung in verschiedenen Regionen oder sozialen Gruppen nicht angemessen abbilden.

Mehr modellieren, weniger erheben?

Der Streit zwischen Civey und Forsa ist mehr als nur ein Konflikt zwischen zwei konkurrierenden Wirtschaftsunternehmen. Die Heftigkeit, mit der er geführt wird, scheint auf einen wunden Punkt zu verweisen. Es ist ein Konflikt zwischen zwei Kulturen: Die klassischen Marktforscher auf der einen Seite, die aus einer Welt von Stichproben, Umfragen, Single-Source-Erhebungen und strukturierten Datensätzen kommen. Auf der anderen Seite die Data Scientists, die sich mit unstrukturierten digitalen Datenspuren, Algorithmen und Künstlicher Intelligenz beschäftigen. Weder für Unternehmen noch für einzelne Forschende ist es leicht, sich hier zu positionieren.

Der Instituts-„Krieg“ zwischen Civey und Forsa hat aber eine verheerende Nebenwirkung: Er schreckt viele Marktforscher davon ab, sich intensiv mit neuen Methoden jenseits der designbasierten Stichproben zu beschäftigen. Denn eines wird in Deutschland leider oft übersehen: Die Multiple Regression und Poststratifikation (MRP) oder ähnliche Methoden sind keine Verrücktheit eines einzelnen Instituts, sondern werden durchaus auch von anderen renommierten Institutionen erfolgreich angewendet, darunter statistische Ämter wie das US Census Bureau, das Pew Research Center und viele Politikwissenschaftler und Wahlforscher im angelsächsischen Raum. Auch YouGov setzt solche Verfahren ein, besonders in seinem Heimatmarkt Großbritannien.

In Deutschland gibt es immerhin einige Forschende, die sich mit dem Thema beschäftigen, so etwa Prof. Dr. Timo Schmid, der Statistik und Ökonometrie an der Uni Bamberg lehrt und ein Experte für Small Area Methods (SAM) ist. SAM ist eher ein Überbegriff für Vorgehensweisen, die darauf abzielen, präzise Schätzungen für kleine geografische Gebiete oder Subgruppen zu liefern, insbesondere bei begrenzten Stichprobendaten. MRP und SAM nutzen zusätzliche Hilfsinformationen und finden immer mehr Anwendung. Während SAM eine Vielzahl von Techniken umfasst, ist MRP eine spezifische Methode. In einer Beschreibung zu einem internationalen Forschungsprojekt schreibt Schmid: „Methoden der Small Area Estimation (SAE)generieren robuste, verlässliche und konsistente Statistiken bei geografischen Maßstäben, für welche Survey-Daten entweder nicht existieren oder zu dürftig sind, um Schätzer von zulässiger Präzision zu erhalten.“

Der Instituts-,Krieg‘ zwischen Civey und Forsa hat aber eine verheerende Nebenwirkung: Er schreckt viele Marktforscher davon ab, sich intensiv mit neuen Methoden jenseits der designbasierten Stichproben zu beschäftigen.

Modellierungen sind in Data Science der Alltag

„In der Datenanalyse sind Modellierungen dieser Art ja nichts Ungewöhnliches, man denke nur an die Conjoint-Analyse“, meint der Methodenexperte Frank Heublein, der als selbstständiger Berater viele Datenprojekte unterstützt und sich mit der Civey-Methode genauer beschäftigt hat. Eigentlich müsste man bei einer Conjoint-Analyse, bei der zum Beispiel Präferenzen für bestimmte Produkt-Features ermittelt werden sollen, eine Unmenge von umfangreichen Paarvergleichen vornehmen. Da dies jeden Befragten überfordern würde, werden nur einige dieser Vergleiche abgefragt, was aber ausreicht, um ein umfassendes Modell zu erstellen. Ähnlich könne man sich, so Heublein, das Vorgehen von Civey vorstellen: Statt jedem Befragten alle Fragen zu stellen, kommen verschiedene Informationen von verschiedenen Kurzinterviews, die dann am Ende zu einer Schätzung modelliert werden.

Dass auch sonst bei Marktforschungsstudien heute bereits nicht alles erhoben, sondern vieles berechnet wird, zeigt ein Blick auf die großen repräsentativen Studien der Mediaforschung. Allumfassende Media-Studien wie „Best for Planning“ und die „ma Intermedia PLuS“ entstehen durch umfassende Modellierungen verschiedener Datenquellen. Auch wenn der am Ende vorliegende Datensatz den Anschein einer strukturierten Single-Source-Studie hat, so kommen die Informationen jedoch aus verschiedenen Umfragestichproben, anderen Datenquellen (etwa technische Messung von Online-Nutzung in Panels), die alle fusioniert werden, ergänzt um Projektionen, Injektionen und Gewichtungen mit externen Informationen. Der Aufwand an Modellierungen ist enorm und wird kaum geahnt, wenn man auf die einfachen Rangreihen und Kreuztabellen schaut, die aus diesen Datensätzen erstellt werden.

Die Frage, mit der sich die deutsche Marktforschungsbranche beschäftigen sollte, lautet: Wie können moderne statistische Methoden wie SAM und MRP bei der Lösung der praktischen Probleme von Marktforschungs-Studien helfen? Die Zukunft liegt vielleicht in einer dezentralen Erhebung einzelner Informationen, die erst in einem modellbasierten Verfahren eine Schätzung der angestrebten Informationen führt. Damit solide Umfragen weiter relevant bleiben, muss man ihre Rolle im Analyse-Prozess neu bestimmen. Und das bedeutet, dass man offen für methodische Innovationen aus Statistik und Data Science sein sollte, selbst wenn sie unseren liebgewonnenen Erfahrungen und unserer marktforscherischen Intuition zu widersprechen scheinen.