point of origin - logo
19.11.2018: https://www.pointoforigin.at//data_is_human.htm

Data is Human

13.08.2018 | Warum Daten nicht objektiv sind

von Bernadette Fellner
Senior Strategic Consultant

Big Data, Machine Learning, datenzentrierte Anwendungen, Profiling – das Thema Daten ist mittlerweile allgegenwärtig und jedes Unternehmen scheint sich damit zu beschäftigen, die einen mehr, die anderen weniger.

In diesem Hype erliegen wir extrem gerne dem Mythos, dass Daten alle Antworten auf all unsere Fragen liefern können, wenn wir nur eine ausreichende Menge von ihnen zusammentragen und miteinander verschneiden. Wir tun so, als ob Daten unantastbar wären. Als ob sie die gesamte Wahrheit beinhalten und eine objektive Sicht auf die Realität gewähren könnten. Doch, und das muss man ganz klar sagen, wir liegen mit unserer (oftmals unbewussten) Annahme ziemlich falsch.

Schließlich müssen wir uns die Frage stellen, woher denn eigentlich der Großteil unserer Daten kommt? Was erfassen wir denn Tag-täglich und aus welchen Dingen versuchen wir denn schließlich Sinn und Bedeutung zu extrahieren? Richtig, ein großer Teil der Daten ist von Menschen generiert. Präferenzen und Vorlieben, Mögen, Hassen, Verhalten, Routinen, Muster in Tagesabläufen, verwendetes Vokabular und Stimmungsschwankungen sind keine objektiven Daten. Sind sie auch nie gewesen. Natürlich kann man argumentieren, dass die Verschneidung dieser durchaus zu neuen Insights führen kann, was grundsätzlich richtig ist, oder besser gesagt sein kann. Aber vergessen werden darf nicht, dass diese Daten unvollständig sind. Sie geben uns einen Ausschnitt, den Teil eines Gesamtbildes und dieser wird bereits dadurch beeinflusst, welche Daten wann und in welcher Art erfasst werden. Der Zusammenhang zwischen verwendetem Vokabular und seelischem Gemütszustand ist ein spannendes Beispiel, kann aber auch völlig daneben liegen, wenn z.B. die Datenbasis, von der ich ausgehe, zu klein ist oder nur von Personen mit einschlägiger (Negativ) Tendenz ausgegangen wird. Bias ist bereits in den Daten inkludiert. Man bekommt es frei Haus dazu und muss entsprechende Maßnahmen und Überlegungen treffen, wie man damit umgeht.

Bias in den Daten

Oft ist ein bestehender oder vermuteter Bias in den Daten nur eine Sicht darauf, wie stark vom Menschen beeinflusst Daten und Datenanwendungen eigentlich sind. Denn sobald wir beginnen, Daten zu sammeln, die wir verwerten möchten, sind wir bereits Beeinflusser dieser. Unsere Auswahl bestimmt darüber, welches (Daten) Bild wir generieren, welche Aspekte wir beleuchten und welche wir aussparen und ob wir zu Verzerrungen im Gesamtbild beitragen und verstärken oder diese eher entschärfen. Wir müssen uns dieser Tatsache stärker bewusstwerden, um nicht nur unsere Rolle im Bereich von Plausibilisierungen und Realitätsabgleichen wahrnehmen zu können, sondern auch um uns klar zu machen: wenn die Daten eine falsche Realität abbilden, kann kein Algorithmus der Welt ein wirklich praktikables Ergebnis liefern.

Ein wundervolles Beispiel aus den USA sei hier genannt: Es wurde eine Software entwickelt, welche Richter bei der Bestimmung des Strafausmaßes unterstützen sollte. Das Problem dabei: Die generelle, rassistische Schieflage im amerikanischen Rechtssystem, die dazu führt, dass afro-amerikanische Straftäter für die selbe Straftat sehr häufig ein höheres Strafmaß erhalten, als ihre „weißen“ Mitbürger. Dieses Bias lag den Daten natürlich zu Grunde, was dazu führte, dass bei ersteren ein wesentlich höheres Risiko für eine Wiederholungstat prognostiziert wurde, was in einer Empfehlung für ein höheres Strafmaß mündete.

Was bedeutet das?

Daten sind nicht losgelöst vom Menschen (zumindest jene nicht, aus denen wir klassisch versuchen Bedeutung abzuleiten). Dessen müssen wir uns bewusst sein. Wenn wir das sind, können wir mit dieser Tatsache arbeiten und beginnen, unsere Daten und Ergebnisse entsprechend zu hinterfragen. Das bedeutet natürlich unterschiedliche Zugänge zur Datenanalyse zu finden, unterschiedliche Modelle mit denselben Daten zu testen und die Ergebnisse entsprechend zu vergleichen und mit Experten aus dem Feld zu hinterfragen. Keinesfalls losgelöst vom Rest der Welt arbeiten, sondern in ständigen Dialog treten, sich ständig mit den Fragen beschäftigen:

  • Kann das sein? 
  • Sind die Daten vielleicht verzerrt oder gebiased oder gar ungenügend?
  • Ist meine Interpretation oder Grundannahme vielleicht völlig falsch und das Bias liegt in Wahrheit bei mir?

Mit der letzten Frage eröffnet sich somit auch das Thema des Interpretationsspielraumes. Auch hier muss man mit seinen Annahmen vorsichtig sein, und überlegen, wie man diese am besten verifizieren kann.

Viel ist bereits getan mit der Schaffung eines Bewusstseins des Problems, und damit sich im Vorfeld zu überlegen, welche Verzerrungen es in den Daten geben könnte, welche Konsequenzen dies hat und wie man damit umgehen möchte. In manchen Fällen wird man auch feststellen, dass das Problem nur minimal ist und man es mit einfachen Kniffen bei der Datenreinigung und einer klaren Zielsetzung problemlos bewältigen kann. Bewusstsein und entsprechende Planung sind hierbei nicht nur Schlüssel zum Erfolg, sondern auch ein Großteil des Lösungsweges.

Marketing Consulting & Consumer Intelligence GmbH
Kontakt

HEAD OFFICE WIEN

Himmelpfortgasse 19
1010 Wien
T +43 1 548 48 00 - 0
F +43 1 548 48 00 - 9

LAB WIEN

Goldschlagstraße 172
Stiege 6, 3. Stock
1140 Wien
T +43 699 14228240

OFFICE ZÜRICH

Rietstrasse 50
8702 Zollikon
T +41 43 499 61 44

OFFICE SAN FRANCISCO

44 Tehama St
San Francisco
CA 94105, USA
T +14157679278

Um Ihnen den bestmöglichen Service bieten zu können, verwendet diese Website Cookies und Services (z.B. Google Maps) von Drittanbietern. Mit der Benutzung dieser Website erklären Sie sich damit einverstanden. Mehr Informationen

OK