Vertrauen in die Maschine stärken
Vorheriges Bild Nächstes Bild
Methoden des probabilistischen maschinellen Lernens werden zu immer leistungsfähigeren Werkzeugen in der Datenanalyse, die eine Reihe wichtiger Entscheidungen über Disziplinen und Anwendungen hinweg beeinflussen, von der Vorhersage von Wahlergebnissen bis hin zur Vorhersage der Auswirkungen von Mikrokrediten auf die Armutsbekämpfung.
Diese Methodenklasse nutzt ausgefeilte Konzepte der Wahrscheinlichkeitstheorie, um mit Unsicherheiten bei der Entscheidungsfindung umzugehen. Aber die Mathematik ist nur ein Teil des Puzzles bei der Bestimmung ihrer Genauigkeit und Wirksamkeit. Bei einer typischen Datenanalyse treffen Forscher viele subjektive Entscheidungen oder führen möglicherweise zu menschlichen Fehlern, die ebenfalls bewertet werden müssen, um das Vertrauen der Benutzer in die Qualität der auf diesen Methoden basierenden Entscheidungen zu stärken.
Um dieses Problem anzugehen, haben die MIT-Informatikerin Tamara Broderick, außerordentliche Professorin am Department of Electrical Engineering and Computer Science (EECS) und Mitglied des Laboratory for Information and Decision Systems (LIDS), und ein Forscherteam ein Klassifizierungssystem entwickelt – eine „Taxonomie des Vertrauens“ – die definiert, wo das Vertrauen in einer Datenanalyse zusammenbrechen könnte, und Strategien zur Stärkung des Vertrauens bei jedem Schritt identifiziert. Die anderen Forscher des Projekts sind Professor Anna Smith von der University of Kentucky, die Professoren Tian Zheng und Andrew Gelman von der Columbia University sowie Professor Rachael Meager von der London School of Economics. Das Team hofft, Bedenken hervorzuheben, die bereits gut untersucht sind und denen mehr Aufmerksamkeit bedarf.
In ihrem im Februar in Science Advances veröffentlichten Artikel beschreiben die Forscher zunächst detailliert die Schritte im Datenanalyseprozess, bei denen das Vertrauen scheitern könnte: Analysten treffen Entscheidungen darüber, welche Daten gesammelt werden sollen und welche Modelle oder mathematischen Darstellungen der Realität am nächsten kommen -Lebensproblem oder Frage, die sie beantworten möchten. Sie wählen Algorithmen aus, die zum Modell passen, und verwenden Code, um diese Algorithmen auszuführen. Jeder dieser Schritte bringt einzigartige Herausforderungen beim Aufbau von Vertrauen mit sich. Einige Komponenten können auf messbare Weise auf ihre Genauigkeit überprüft werden. „Hat mein Code Fehler?“ ist beispielsweise eine Frage, die anhand objektiver Kriterien getestet werden kann. In anderen Fällen sind die Probleme eher subjektiv und es gibt keine eindeutigen Antworten. Analysten sind mit zahlreichen Strategien konfrontiert, um Daten zu sammeln und zu entscheiden, ob ein Modell die reale Welt widerspiegelt.
„Was ich an der Erstellung dieser Taxonomie schön finde, ist, dass sie wirklich hervorhebt, worauf sich die Leute konzentrieren. Ich denke, dass sich viele Forschungen natürlich auf diese Ebene konzentrieren: „Lösen meine Algorithmen ein bestimmtes mathematisches Problem?“ zum Teil, weil es sehr objektiv ist, auch wenn es ein schwieriges Problem ist“, sagt Broderick.
„Ich denke, es ist wirklich schwer zu beantworten: ‚Ist es sinnvoll, ein wichtiges angewandtes Problem auf eine bestimmte Weise zu mathematisieren?‘ Weil es irgendwie schwieriger wird, ist es nicht mehr nur ein mathematisches Problem.
Das wirkliche Leben in einem Modell einfangen
Die Arbeit der Forscher bei der Kategorisierung, wo Vertrauen zusammenbricht, hat, auch wenn sie abstrakt erscheinen mag, ihre Wurzeln in der realen Welt.
Meager, einer der Mitautoren des Papiers, analysierte, ob Mikrofinanzierungen einen positiven Effekt in einer Gemeinschaft haben können. Das Projekt wurde zu einer Fallstudie darüber, wo Vertrauen brechen könnte und wie dieses Risiko verringert werden kann.
Auf den ersten Blick scheint die Messung der Auswirkungen von Mikrofinanzierungen ein unkompliziertes Unterfangen zu sein. Aber wie bei jeder Analyse stehen Forscher bei jedem Schritt des Prozesses vor Herausforderungen, die das Vertrauen in das Ergebnis beeinträchtigen können. Mikrofinanzierung – bei der Einzelpersonen oder kleine Unternehmen Kleinkredite und andere Finanzdienstleistungen anstelle des herkömmlichen Bankgeschäfts erhalten – kann je nach Programm unterschiedliche Dienstleistungen anbieten. Für die Analyse sammelte Meager Datensätze von Mikrofinanzprogrammen in Ländern auf der ganzen Welt, darunter in Mexiko, der Mongolei, Bosnien und den Philippinen.
Bei der Kombination auffällig unterschiedlicher Datensätze, in diesem Fall aus mehreren Ländern und über verschiedene Kulturen und Regionen hinweg, müssen Forscher bewerten, ob spezifische Fallstudien breitere Trends widerspiegeln können. Es ist auch wichtig, die vorliegenden Daten zu kontextualisieren. Im ländlichen Mexiko beispielsweise kann der Besitz von Ziegen als Investition gelten.
„Es ist schwer, die Lebensqualität eines Einzelnen zu messen. Die Leute messen Dinge wie: ‚Wie hoch ist der Geschäftsgewinn des Kleinunternehmens?‘ Oder „Wie hoch ist der Verbrauch eines Haushalts?“ „Es besteht die Möglichkeit einer Diskrepanz zwischen dem, was Ihnen letztendlich wirklich wichtig ist, und dem, was Sie messen“, sagt Broderick. „Bevor wir zur mathematischen Ebene gelangen, auf welche Daten und Annahmen stützen wir uns?“
Anhand der verfügbaren Daten müssen Analysten die realen Fragen definieren, die sie beantworten möchten. Bei der Bewertung der Vorteile der Mikrofinanzierung müssen Analysten definieren, was ihrer Meinung nach ein positives Ergebnis ist. In den Wirtschaftswissenschaften ist es beispielsweise Standard, den durchschnittlichen finanziellen Gewinn pro Unternehmen in Gemeinden zu messen, in denen ein Mikrofinanzprogramm eingeführt wird. Aber die Angabe eines Durchschnitts könnte auf einen positiven Nettoeffekt hindeuten, selbst wenn nur wenige (oder sogar eine) Person und nicht die Gemeinschaft als Ganzes davon profitierten.
„Was Sie wirklich wollten, war, dass viele Menschen davon profitieren“, sagt Broderick. „Es hört sich einfach an. Warum haben wir nicht das gemessen, was uns wichtig war? Aber ich denke, dass es aus vielen Gründen wirklich üblich ist, dass Praktiker Standardtools für maschinelles Lernen verwenden. Und diese Tools melden möglicherweise einen Proxy, der dies nicht immer tut.“ mit der Höhe des Interesses einverstanden sein.
Analysten bevorzugen möglicherweise bewusst oder unbewusst Modelle, mit denen sie vertraut sind, insbesondere nachdem sie viel Zeit in das Erlernen ihrer Besonderheiten investiert haben. „Jemand zögert möglicherweise, eine nicht standardmäßige Methode auszuprobieren, weil er möglicherweise nicht sicher ist, ob er sie richtig anwenden wird. Oder Peer-Review-Verfahren bevorzugen möglicherweise bestimmte bekannte Methoden, selbst wenn ein Forscher möglicherweise nicht standardmäßige Methoden verwenden möchte“, sagt Broderick. „Soziologisch gesehen gibt es viele Gründe. Aber das kann ein Vertrauensproblem sein.“
Letzter Schritt, Überprüfung des Codes
Während das Destillieren eines realen Problems in ein Modell ein umfassendes, amorphes Problem sein kann, kann sich die Überprüfung des Codes, der einen Algorithmus ausführt, „prosaisch“ anfühlen, sagt Broderick. Aber es ist ein weiterer potenziell übersehener Bereich, in dem das Vertrauen gestärkt werden kann.
In manchen Fällen kann die Überprüfung einer Codierungspipeline, die einen Algorithmus ausführt, als außerhalb des Aufgabenbereichs eines Analysten liegend angesehen werden, insbesondere wenn die Möglichkeit besteht, Standardsoftwarepakete zu verwenden.
Eine Möglichkeit, Fehler zu erkennen, besteht darin, zu testen, ob Code reproduzierbar ist. Je nach Fachgebiet ist die gemeinsame Nutzung von Code zusammen mit veröffentlichten Arbeiten jedoch nicht immer eine Anforderung oder die Norm. Da Modelle mit der Zeit immer komplexer werden, wird es schwieriger, Code von Grund auf neu zu erstellen. Die Reproduktion eines Modells wird schwierig oder sogar unmöglich.
„Beginnen wir einfach mit jedem Journal, in dem Sie Ihren Code veröffentlichen müssen. Vielleicht wird er nicht vollständig überprüft und es ist nicht alles absolut perfekt, aber fangen wir dort an“, sagt Broderick als einen Schritt zum Aufbau von Vertrauen.
Der Co-Autor des Papiers, Gelman, arbeitete an einer Analyse, die die US-Präsidentschaftswahl 2020 anhand staatlicher und nationaler Umfragen in Echtzeit vorhersagte. Das Team veröffentlichte tägliche Updates in der Zeitschrift „The Economist“ und veröffentlichte seinen Code gleichzeitig online, sodass jeder ihn herunterladen und selbst ausführen konnte. Im Laufe der Saison wiesen Außenstehende sowohl auf Fehler als auch auf konzeptionelle Probleme im Modell hin, was letztendlich zu einer fundierteren Analyse beitrug.
Die Forscher erkennen an, dass es zwar keine einheitliche Lösung für die Erstellung eines perfekten Modells gibt, Analysten und Wissenschaftler jedoch nahezu jederzeit die Möglichkeit haben, das Vertrauen zu stärken.
„Ich glaube nicht, dass wir erwarten, dass eines dieser Dinge perfekt ist“, sagt Broderick, „aber ich denke, wir können erwarten, dass es besser oder so gut wie möglich ist.“
Vorheriger Artikel Nächster Artikel
Das reale Leben in einem Modell einfangen Letzter Schritt: Überprüfen des Codes