Miteinander besser? Die Qualität zusammengeführter Daten

Die Verknüpfung verschiedener Datenquellen bringt der Marktforschung und der amtlichen Statistik viele Vorteile. Welche Qualitätsaspekte dabei beachtet werden müssen, darüber sprachen Experten bei der 13. Wissenschaftlichen Tagung des Statistischen Bundesamtes in Wiesbaden. Für die Fachzeitschrift Planung & Analyse habe ich einen Bericht über die Veranstaltung geschrieben.

Durch die Digitalisierung aller Lebensbereiche ist das Volumen an Daten immer größer geworden. Daten werden überall gesammelt: Von Marktforschungsinstituten, wissenschaftlichen Einrichtungen, Tech-Konzernen, Unternehmen, Ämtern und Behörden. Wertvoll werden diese Daten oft erst in der Verknüpfung. Daraus ergeben sich Chancen für alle, die Menschen und Märkte erforschen, neben der Marktforschung sind das auch die Wissenschaft und die amtliche Statistik.

Deshalb widmete sich das Bundesamt für Statistik in seiner 13. Wissenschaftlichen Tagung dem Thema Qualität von zusammengeführten Daten. „Miteinander besser?“ fragten die Organisatoren zu denen auch die Arbeitsgemeinschaft Sozialwissenschaftlicher Institute (ASI) und der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute ADM gehörten. Zwei Tage diskutierten rund 120 Teilnehmer im Panorama-Konferenzsaal im 26. Stock des Statistischen Bundesamtes über den Dächern von Wiesbaden über die Chancen und Probleme der Forschung mit zusammengeführten Datenbanken.

Das Zusammenführen unterschiedlicher Datenquellen ist schon lange Alltag in der Sozial- und Marktforschung. Die Referenten sehen diverse Vorteile dieser Vorgehensweise: Die Validität von Umfragen und Zensus-Daten kann durch externe Quellen erhöht werden, fehlende Informationen können besser geschätzt werden. Vor allem: Vorhandene Merkmale müssen nicht immer wieder neu erhoben werden. Dadurch können Fragebögen entschlackt und Befragte entlastet werden. Für das Zusammenführen gibt es unterschiedliche Methoden und Vorgehensweisen.

Informationen auch für kleine Gebiete

Einer wichtigen Kategorie von Verfahren widmeten sich verschiedene Vorträge der Tagung. Bei allen geht es darum, Daten aus Umfragen, amtlichen Statistiken (z.B. über Bebauung, KfZ-Zulassungen) oder anderen Quellen auf geografischer Ebene zu verknüpfen. Mit statistischen Modellen können dann die Informationen aus unterschiedlichen Quellen kleinen geografischen Einheiten (Stadtviertel, Straßenzüge) zugeordnet werden. Hier liegt das Problem der Qualität in der Genauigkeit der Modelle. Prof. Ralf Münnich von der Uni Trier diskutierte dies am Beispiel der regionalen Armutsmessung. Sein Kollege Prof. Thilo Schmid von der FU Berlin konnte zeigen, dass Mobilfunkdaten helfen können, soziodemografische Merkmale auf Gebietsebene besser zu schätzen.

Diese sogenannten „Small Area Methoden“ (SAM)-Verfahren werden auch in der Marktforschung eingesetzt: Dr. Barbara Wawrzyniak von infas 360 und Dr. Hendrik Wagenseil von GfK Geomarketing erläuterten ihren Ansatz dazu und stellten Beispiele vor, etwa die Vorhersage des Hundebesitzes für einzelne Stadtteile. Die Mikromarketing-Datenbanken von infas 360 umfassen umfangreiche Informationen über Gebäude, die eine Zuordnung von anderen Merkmalen ermöglichen, die aus Umfragen gewonnen wurden. Dass hier die amtliche Statistik von der kommerziellen Forschung einiges lernen könne, wurde in der engagierten Diskussion nach den Vorträgen deutlich.

Muss der Befragte mitspielen?

Einen anderen Ansatz stellte Prof. Rainer Schnell von der Uni Duisburg-Essen vor: Record Linkage bezeichnet das Verknüpfen von Datensätzen auf Personenebene. Amtliche Informationen etwa der staatlichen Rentenversicherung, werden mit Umfragedaten zusammengeführt. Dabei werden eindeutige Bindeglieder zwischen beiden Datensätzen benötigt – Namen, Geburtsdaten, Adressen oder Identifikationsnummern. Hier ergeben sich vielfältige Probleme: Namen sind nicht immer klar einer Person zuzuordnen, Stammdaten sind nicht immer aktuell, die De-Anonymisierung muss dem Datenschutz genügen.

Einem Verfahren, was Prof. Schnell als wenig praktikabel ansah, widmete sich Prof. Joseph Sakshaug von der Uni Mannheim. Mit dem Stichwort Consent bezeichnet man die Erlaubnis der Befragten, ihre Daten in externen Verzeichnissen für Forschungszwecken zu verwenden. Der Referent zeigte auf, mit welchen Maßnahmen die oft eher geringe Bereitschaft dafür erhöht werden kann.

Verschiedene Vorstellungen von Qualität

Die Vorträge zeigten die Bandbreite der relevanten Qualitätsaspekte: Datenquellen, statistische Modelle, Datenschutz und Datenspeicherung – vieles beeinflusst den Wert und die Praktikabilität von Datenzusammenführungen. Thorsten Tümmler vom Statistischen Bundesamt versuchte, diese Aspekte zu systematisieren. Dabei verwies er auf die generell sehr hohen Qualitätsstandards der amtlichen Statistik in Europa, die in einem „Qualitätshandbuch“ dargelegt sind. Wie wichtig Maßnahmen zur Qualitätssicherung für die kommerzielle Marktforschung sind, betonte ADM-Geschäftsführerin Bettina Klumpe. Sie stellte die aktuelle Transparenz-Initiative ihres Verbandes vor.

Einen ganz anderen Blickwinkel brachte Hartmut Scheffler, Geschäftsführer von Kantar Deutschland in die Diskussion. Für Marktforschungsinstitute gelten die gleichen methodischen Qualitätskriterien wie in der amtlichen Statistik und der akademischen Sozialforschung. Doch kommen hier noch die Erwartungen der Auftraggeber hinzu: Sie erwarten Schnelligkeit, Kosteneffizienz und das Erzeugen von Impact – die Forschungsergebnisse sollen Geschäftsentscheidungen verbessern und sich langfristig auszahlen. Scheffler zeigte, die Chancen, die dabei in der Nutzung und Zusammenführung möglichst vieler Quellen liegen. „Umfragen werden in Zukunft wichtig bleiben, doch sie sind nur noch eine unter vielen Datenquellen“, betonte der Marktforscher.

Tagungsband wird veröffentlicht

Die Teilnehmer der Tagung, die überwiegend von Hochschulen und aus den Institutionen der amtlichen Statistik stammten, gewannen durch die Vorträge von Scheffler und anderen Institutsforschern einen wertvollen Einblick in die Denkweisen und Methoden der angewandten Marktforschung. Dieser Blick über den Tellerrand ist den Organisatoren sehr wichtig, dass bekräftigte auch der Gastgeber Dr. Georg Thiel, Präsident des Statistischen Bundesamtes. Die Tagungsreihe wird im Zweijahres-Rhythmus weitergeführt, versicherte sein Kollege Prof. Dr. Markus Zwick und lud die Teilnehmer schon einmal für 2021 wieder nach Wiesbaden ein. Ein Tagungsband der jüngsten Sitzung soll bis Ende 2019 erscheinen. Tagungsprogramm und Kurzbeschreibungen einiger Vorträge findet man auf der Website des Statistischen Bundesamtes.

Der Bericht ist bei Planung & Analyse Online am 4. Juli 2019 veröffentlicht worden.