banner
Heim / Nachricht / Wie die KI von Duolingo lernt, was Sie lernen müssen
Nachricht

Wie die KI von Duolingo lernt, was Sie lernen müssen

Jan 16, 2024Jan 16, 2024

Die KI, die heute die Sprachlern-App antreibt, könnte die Bildung von morgen stören

Es ist Mittagszeit, wenn Sie Das Telefon pingt Sie mit einer grünen Eule an, die Sie fröhlich daran erinnert, „Duo glücklich zu machen!“ Es ist ein Anstoß von Duolingo, der beliebten Sprachlern-App, deren Algorithmen wissen, dass Sie zu dieser Tageszeit am wahrscheinlichsten Ihre 5 Minuten Spanisch üben werden. Die App wählt ihre Benachrichtigungswörter basierend auf dem, was in der Vergangenheit für Sie funktioniert hat, und den Besonderheiten Ihrer jüngsten Erfolge und fügt so einen Hauch von Aufmerksamkeit erregender Neuheit hinzu. Wenn Sie die App öffnen, wird die in der Warteschlange befindliche Lektion auf Ihr Kenntnisniveau abgestimmt und enthält eine Wiederholung einiger Wörter und Konzepte, die Sie in Ihrer letzten Sitzung durcheinander gebracht haben.

Duolingo bietet mit seinem spielerischen Ansatz und der Besetzung bunter Comicfiguren eine einfache Benutzeroberfläche, die Lernende durch einen Lehrplan führt, der zu Sprachkenntnissen oder sogar fließender Sprachkompetenz führt. Doch hinter den Kulissen sind hochentwickelte Systeme der künstlichen Intelligenz (KI) am Werk. Insbesondere ein System namens Birdbrain verbessert kontinuierlich die Erfahrung des Lernenden mit Algorithmen, die auf jahrzehntelanger Forschung in der Bildungspsychologie in Kombination mit jüngsten Fortschritten im maschinellen Lernen basieren. Aber aus der Sicht des Lernenden fühlt es sich einfach so an, als ob die grüne Eule immer besser darin wird, den Unterricht zu personalisieren.

Wir drei waren eng an der Entwicklung und Verbesserung von Birdbrain beteiligt, von dem Duolingo kürzlich seine zweite Version herausgebracht hat. Wir sehen unsere Arbeit bei Duolingo als Förderung der Gesamtmission des Unternehmens, „die beste Bildung der Welt zu entwickeln und sie allgemein verfügbar zu machen“. Die KI-Systeme, die wir weiter verfeinern, sind notwendig, um das Lernerlebnis über die mehr als 50 Millionen aktiven Lernenden hinaus zu skalieren, die derzeit etwa 1 Milliarde Übungen pro Tag auf der Plattform absolvieren.

Obwohl Duolingo als Sprachlern-App bekannt ist, gehen die Ambitionen des Unternehmens noch weiter. Wir haben vor kurzem Apps für die Alphabetisierung von Kindern und die Mathematik der dritten Klasse auf den Markt gebracht, und diese Erweiterungen sind nur der Anfang. Wir hoffen, dass sich jeder, der Hilfe beim akademischen Lernen benötigt, eines Tages an die freundliche grüne Eule in seiner Tasche wenden kann, die ihm zuruft: „Bereit für den täglichen Unterricht?“

Bereits 1984 identifizierte der Bildungspsychologe Benjamin Bloom das sogenannte Bloom-2-Sigma-Problem. Bloom stellte fest, dass durchschnittliche Schüler, die Einzelunterricht erhielten, zwei Standardabweichungen besser abschnitten als im Klassenzimmer. Das reicht aus, um die Testergebnisse einer Person vom 50. Perzentil auf das 98. Perzentil zu steigern.

Als Duolingo 2012 von Luis von Ahn und Severin Hacker im Rahmen eines Forschungsprojekts der Carnegie Mellon University ins Leben gerufen wurde, bestand das Ziel darin, einen benutzerfreundlichen Online-Sprachlehrer zu entwickeln, der diesen überragenden Effekt annähernd erreichen könnte. Die Gründer versuchten nicht, großartige Lehrer zu ersetzen. Aber als Einwanderer (aus Guatemala bzw. der Schweiz) erkannten sie, dass nicht jeder Zugang zu großartigen Lehrern hat. In den darauffolgenden Jahren dachte das wachsende Duolingo-Team weiter darüber nach, wie man drei Schlüsseleigenschaften guter Tutoren automatisieren kann: Sie kennen den Stoff gut, sie halten die Schüler bei der Stange und sie verfolgen, was jeder Schüler derzeit weiß, damit sie Material präsentieren können, das keines von beidem ist weder zu leicht noch zu schwer.

Duolingo nutzt maschinelles Lernen und andere Spitzentechnologien, um diese drei Eigenschaften eines guten Nachhilfelehrers nachzuahmen. Um Fachwissen zu gewährleisten, setzen wir zunächst Tools zur Verarbeitung natürlicher Sprache ein, um unsere Inhaltsentwickler bei der Prüfung und Verbesserung unserer rund 100 Kurse in mehr als 40 verschiedenen Sprachen zu unterstützen. Diese Tools analysieren den Wortschatz und den Grammatikinhalt des Unterrichts und helfen dabei, eine Reihe möglicher Übersetzungen zu erstellen (damit die App die Antworten der Lernenden akzeptiert, wenn es mehrere richtige Möglichkeiten gibt, etwas zu sagen). Zweitens haben wir, um die Motivation der Lernenden aufrechtzuerhalten, das Erlebnis mit Punkten und Levels spielerisch gestaltet, Text-to-Speech-Technologie genutzt, um benutzerdefinierte Stimmen für jeden der Charaktere zu erstellen, die die Duolingo-Welt bevölkern, und unsere Benachrichtigungssysteme verfeinert. Wenn es darum geht, in die Köpfe der Lernenden einzudringen und ihnen genau die richtige Lektion zu erteilen – hier kommt Birdbrain ins Spiel.

Birdbrain ist von entscheidender Bedeutung, da das Engagement der Lernenden und die Schwierigkeit des Unterrichts miteinander zusammenhängen. Wenn Schülern zu schwieriges Material vorgelegt wird, sind sie oft frustriert und geben auf. Material, das sich einfach anfühlt, fesselt sie vielleicht, fordert sie aber nicht so sehr heraus. Duolingo nutzt KI, um seine Lernenden genau in der Zone zu halten, in der sie engagiert bleiben, aber immer noch am Rande ihrer Fähigkeiten lernen.

Einer von uns (Settles) trat dem Unternehmen nur sechs Monate nach seiner Gründung bei, half beim Aufbau verschiedener Forschungsfunktionen und leitete dann bis letztes Jahr die KI- und maschinellen Lernbemühungen von Duolingo. Anfangs gab es nicht viele Organisationen, die interaktives Online-Lernen in großem Umfang durchführten. Das, was Duolingo am nächsten kam, waren Programme, die einen „Mastery-Learning“-Ansatz verfolgten, insbesondere für Mathematik-Nachhilfe. Diese Programme boten Probleme rund um ein ähnliches Konzept (oft als „Wissenskomponente“ bezeichnet) an, bis der Lernende ausreichende Kenntnisse zeigte, bevor er mit der nächsten Einheit, dem nächsten Abschnitt oder dem nächsten Konzept fortfuhr. Aber dieser Ansatz war nicht unbedingt die beste Lösung für die Sprache, wo eine einzelne Übung viele verschiedene Konzepte beinhalten kann, die auf komplexe Weise interagieren (wie z. B. Wortschatz, Zeitformen und grammatikalisches Geschlecht), und wo es für den Lernenden unterschiedliche Möglichkeiten gibt, dies zu tun antworten (z. B. einen Satz übersetzen, einen Audioausschnitt transkribieren und fehlende Wörter ergänzen).

Die frühen maschinellen Lernarbeiten bei Duolingo befassten sich mit relativ einfachen Problemen, etwa der Frage, wie oft man zu einem bestimmten Wort oder Konzept im Vokabular zurückkehren sollte (wobei man sich auf pädagogische Forschung zu räumlichen Wiederholungen stützte). Wir analysierten auch die Fehler der Lernenden, um Schwachstellen im Lehrplan zu identifizieren, und ordneten dann die Reihenfolge, in der wir das Material präsentierten, neu.

Anschließend konzentrierte sich Duolingo verstärkt auf die Entwicklung personalisierter Systeme. Etwa im Jahr 2017 begann das Unternehmen, gezielter in maschinelles Lernen zu investieren, und zu diesem Zeitpunkt traten die Co-Autoren Brust und Bicknell dem Team bei. Im Jahr 2020 haben wir die erste Version von Birdbrain auf den Markt gebracht.

Vor Birdbrain hatte Duolingo einige Nicht-KI-Versuche unternommen, um die Lernenden auf dem richtigen Niveau zu halten, einschließlich der Schätzung der Schwierigkeit von Übungen auf der Grundlage von Heuristiken wie der Anzahl der Wörter oder Zeichen in einem Satz. Allerdings stellte das Unternehmen häufig fest, dass es mit Kompromissen zwischen der tatsächlichen Lernmenge der Mitarbeiter und ihrem Engagement zu kämpfen hatte. Das Ziel von Birdbrain war es, die richtige Balance zu finden.

Die Frage, mit der wir begannen, lautete: Können wir für jeden Lernenden und jede gegebene Übung vorhersagen, wie wahrscheinlich es ist, dass der Lernende diese Übung richtig macht? Um diese Vorhersage zu treffen, muss Birdbrain sowohl die Schwierigkeit der Übung als auch die aktuellen Fähigkeiten des Lernenden einschätzen. Jedes Mal, wenn ein Lernender eine Übung abschließt, aktualisiert das System beide Schätzungen. Und Duolingo nutzt die resultierenden Vorhersagen in seinem Sitzungsgenerator-Algorithmus, um dynamisch neue Übungen für die nächste Lektion auszuwählen.

Eddie Guy

Als wir die erste Version von Birdbrain entwickelten, wussten wir, dass sie einfach und skalierbar sein musste, da wir sie auf Hunderte Millionen Übungen anwenden würden. Es musste schnell sein und wenig Rechenaufwand erfordern. Wir haben uns für eine Variante der logistischen Regression entschieden, die von der Item-Response-Theorie aus der psychometrischen Literatur inspiriert ist. Dieser Ansatz modelliert die Wahrscheinlichkeit, dass eine Person eine richtige Antwort gibt, als Funktion zweier Variablen, die als Schwierigkeit der Übung und Fähigkeit des Lernenden interpretiert werden können. Wir schätzen den Schwierigkeitsgrad jeder Übung ein, indem wir die Schwierigkeit ihrer Komponenten wie der Art der Übung, ihrer Vokabeln usw. zusammenfassen.

Die zweite Zutat in der Originalversion von Birdbrain war die Fähigkeit, rechnerisch einfache Aktualisierungen dieser Schwierigkeits- und Fähigkeitsparameter durchzuführen. Wir implementieren dies, indem wir jedes Mal, wenn ein Lernender eine Übung abschließt, einen Schritt des stochastischen Gradientenabstiegs für die relevanten Parameter durchführen. Dabei handelt es sich um eine Verallgemeinerung des Elo-Bewertungssystems, das zur Einstufung von Spielern im Schach und anderen Spielen verwendet wird. Wenn ein Spieler im Schach eine Partie gewinnt, steigt seine Fähigkeitseinschätzung und die seines Gegners sinkt. Wenn ein Lernender in Duolingo eine Übung falsch macht, verringert dieses System die Schätzung seiner Fähigkeiten und erhöht die Schätzung der Schwierigkeit der Übung. Genau wie beim Schach hängt das Ausmaß dieser Änderungen von der Paarung ab: Wenn ein unerfahrener Schachspieler gegen einen erfahrenen Spieler gewinnt, wird die Elo-Punktzahl des Experten erheblich gesenkt und die des Gegners erheblich erhöht. Ähnlich verhält es sich hier: Wenn ein Anfänger eine schwere Übung richtig macht, können sich die Fähigkeits- und Schwierigkeitsparameter dramatisch verschieben. Wenn das Modell jedoch bereits erwartet, dass der Lernende richtig ist, ändert sich keiner der Parameter wesentlich.

Um die Leistung von Birdbrain zu testen, haben wir es zunächst im „Schattenmodus“ ausgeführt, was bedeutet, dass es Vorhersagen machte, die lediglich zur Analyse protokolliert und noch nicht vom Sitzungsgenerator zur Personalisierung des Unterrichts verwendet wurden. Im Laufe der Zeit, als die Lernenden die Übungen absolvierten und die Antworten richtig oder falsch bekamen, sahen wir, ob die Vorhersagen von Birdbrain über ihren Erfolg mit der Realität übereinstimmten – und wenn nicht, nahmen wir Verbesserungen vor.

Die tägliche Bewältigung von rund einer Milliarde Übungen erforderte eine Menge erfinderischer Ingenieurskunst.

Sobald wir mit der Leistung von Birdbrain zufrieden waren, begannen wir mit der Durchführung kontrollierter Tests: Wir aktivierten die auf Birdbrain basierende Personalisierung für einen Teil der Lernenden (die Versuchsgruppe) und verglichen ihre Lernergebnisse mit denen derjenigen, die noch das ältere heuristische System verwendeten (die Kontrollgruppe). Wir wollten sehen, wie sich Birdbrain auf das Engagement der Lernenden auswirkt – gemessen an der Zeit, die für Aufgaben in der App aufgewendet wird – sowie auf das Lernen, gemessen daran, wie schnell Lernende zu schwierigerem Material übergehen. Wir fragten uns, ob wir Kompromisse eingehen würden, wie wir es so oft zuvor getan hatten, als wir versuchten, mithilfe konventionellerer Produktentwicklungs- oder Software-Engineering-Techniken Verbesserungen vorzunehmen. Zu unserer Freude sorgte Birdbrain dafür, dass sowohl das Engagement als auch die Lernmaßnahmen kontinuierlich zunahmen.

Von Anfang an standen wir vor einer Herausforderung durch den schieren Umfang der Daten, die wir verarbeiten mussten. Die tägliche Bewältigung von rund einer Milliarde Übungen erforderte eine Menge erfinderischer Ingenieurskunst.

Ein frühes Problem bei der ersten Version von Birdbrain bestand darin, das Modell in den Speicher einzupassen. Während des nächtlichen Trainings benötigten wir Zugriff auf mehrere Variablen pro Lernendem, einschließlich seiner aktuellen Leistungsschätzung. Da sich jeden Tag neue Lernende anmeldeten und wir keine Schätzungen für inaktive Lernende verwerfen wollten, falls sie zurückkamen, wuchs der Speicher jede Nacht. Nach ein paar Monaten wurde diese Situation unhaltbar: Wir konnten nicht alle Variablen in den Speicher einfügen. Wir mussten die Parameter jede Nacht aktualisieren, ohne alles auf einmal in den Speicher zu übernehmen.

Unsere Lösung bestand darin, die Art und Weise zu ändern, wie wir sowohl die Unterrichtsdaten jedes Tages als auch das Modell gespeichert haben. Ursprünglich haben wir alle Parameter für das Modell eines bestimmten Kurses in einer einzigen Datei gespeichert, diese Datei in den Speicher geladen und die Daten des Tages nacheinander verarbeitet, um die Kursparameter zu aktualisieren. Unsere neue Strategie bestand darin, das Modell aufzuteilen: Ein Teil repräsentierte alle Übungsschwierigkeitsparameter (die nicht sehr groß wurden), während mehrere Teile die Schätzungen der Lernfähigkeit darstellten. Außerdem haben wir die Lerndaten des Tages in separate Dateien aufgeteilt, je nachdem, welche Lernenden beteiligt waren, und – was entscheidend war – die gleiche Chunking-Funktion für alle Lernenden sowohl für das Kursmodell als auch für die Lernerdaten verwendet. Dadurch konnten wir nur die Kursparameter laden, die für eine bestimmte Gruppe von Lernenden relevant waren, während wir die entsprechenden Daten über diese Lernenden verarbeiteten.

Eine Schwäche dieser ersten Version von Birdbrain bestand darin, dass die App wartete, bis ein Lernender eine Lektion beendet hatte, bevor sie unseren Servern meldete, welche Übungen der Benutzer richtig gemacht hatte und welche Fehler er gemacht hatte. Das Problem bei diesem Ansatz besteht darin, dass etwa 20 Prozent der auf Duolingo begonnenen Lektionen nicht abgeschlossen werden, möglicherweise weil die Person ihr Telefon weglegt oder zu einer anderen App wechselt. Jedes Mal, wenn das passierte, verlor Birdbrain die relevanten Daten, was möglicherweise sehr interessante Daten waren! Wir waren uns ziemlich sicher, dass die Leute nicht willkürlich aufhörten – in vielen Fällen hörten sie wahrscheinlich auf, sobald sie auf Material stießen, das für sie besonders herausfordernd oder entmutigend war. Als wir also auf Birdbrain Version 2 aktualisiert haben, haben wir auch damit begonnen, die Daten während der gesamten Lektion in Blöcken zu streamen. Dadurch erhielten wir wichtige Informationen darüber, welche Konzepte oder Übungsarten problematisch waren.

Ein weiteres Problem beim ersten Birdbrain bestand darin, dass die Modelle nur einmal alle 24 Stunden aktualisiert wurden (während eines Tiefpunkts der weltweiten App-Nutzung, der nachts in der Duolingo-Zentrale in Pittsburgh stattfand). Mit Birdbrain V2 wollten wir alle Übungen in Echtzeit abarbeiten. Die Änderung war wünschenswert, da Lernen sowohl auf kurz- als auch auf langfristiger Ebene stattfindet; Wenn Sie sich jetzt mit einem bestimmten Konzept befassen, werden Sie sich wahrscheinlich in fünf Minuten daran erinnern, und mit etwas Glück werden Sie auch nächste Woche einiges davon behalten. Um das Erlebnis zu personalisieren, mussten wir unser Modell für jeden Lernenden sehr schnell aktualisieren. Daher aktualisiert Birdbrain V2 innerhalb weniger Minuten nach Abschluss einer Übung sein „mentales Modell“ seines Wissensstands.

Diese Aktualisierungen erfolgten nicht nur nahezu in Echtzeit, sondern funktionierten auch anders, da Birdbrain V2 eine andere Architektur hat und den Wissensstand eines Lernenden anders darstellt. Bisher wurde diese Eigenschaft einfach als Skalarzahl dargestellt, da wir die erste Version von Birdbrain so einfach wie möglich halten mussten. Mit Birdbrain V2 hatten wir die Zustimmung des Unternehmens, mehr Rechenressourcen zu nutzen, was bedeutete, dass wir ein viel umfassenderes Modell dessen erstellen konnten, was jeder Lernende weiß. Birdbrain V2 basiert insbesondere auf einem rekurrenten neuronalen Netzwerkmodell (insbesondere einem Modell des langen Kurzzeitgedächtnisses oder LSTM), das lernt, die Interaktionshistorie eines Lernenden mit Duolingo-Übungen in einen Satz von 40 Zahlen zu komprimieren – oder im Fachjargon der Mathematiker ein 40-dimensionaler Vektor. Jedes Mal, wenn ein Lernender eine weitere Übung abschließt, aktualisiert Birdbrain diesen Vektor basierend auf seinem vorherigen Zustand, der Übung, die der Lernende abgeschlossen hat, und darauf, ob er sie richtig gemacht hat. Es ist dieser Vektor und nicht ein einzelner Wert, der nun die Fähigkeiten eines Lernenden darstellt, die das Modell verwendet, um Vorhersagen darüber zu treffen, wie er bei zukünftigen Übungen abschneiden wird.

Die Fülle dieser Darstellung ermöglicht es dem System beispielsweise zu erfassen, dass ein bestimmter Lernender gut mit Übungen zur Vergangenheitsform umgehen kann, sich aber mit der Zukunftsform schwer tut. V2 kann beginnen, den Lernverlauf jeder Person zu erkennen, der erheblich vom typischen Verlauf abweichen kann, was eine viel stärkere Personalisierung der Lektionen ermöglicht, die Duolingo für diese Person vorbereitet.

Nachdem wir sicher waren, dass Birdbrain V2 genau und stabil ist, führten wir kontrollierte Tests durch, in denen wir das personalisierte Lernerlebnis mit dem des ursprünglichen Birdbrain verglichen. Wir wollten sicherstellen, dass wir nicht nur über ein besseres Modell für maschinelles Lernen verfügen, sondern auch, dass unsere Software ein besseres Benutzererlebnis bietet. Erfreulicherweise zeigten diese Tests, dass Birdbrain V2 kontinuierlich dazu führte, dass sowohl das Engagement als auch die Lernmaßnahmen noch weiter zunahmen. Im Mai 2022 haben wir die erste Version von Birdbrain abgeschaltet und vollständig auf das neue und verbesserte System umgestellt.

Vieles von dem, was wir mit Birdbrain und verwandten Technologien machen, gilt auch außerhalb des Sprachenlernens. Im Prinzip ist der Kern des Modells sehr allgemein gehalten und kann auch auf die neuen Mathematik- und Alphabetisierungs-Apps unseres Unternehmens angewendet werden – oder auf alles, was Duolingo als nächstes entwickelt.

Birdbrain hat uns einen großartigen Start bei der Optimierung des Lernens und bei der Gestaltung des Lehrplans anpassungsfähiger und effizienter ermöglicht. Wie weit wir mit der Personalisierung gehen können, ist eine offene Frage. Wir möchten adaptive Systeme schaffen, die auf die Lernenden nicht nur auf der Grundlage ihres Wissens, sondern auch auf der Grundlage der für sie am besten geeigneten Lehransätze reagieren. Auf welche Arten von Übungen achtet ein Lernender wirklich? Bei welchen Übungen scheinen Konzepte für sie greifbar zu sein?

Das sind die Art von Fragen, mit denen sich großartige Lehrer herumschlagen könnten, wenn sie sich mit verschiedenen Schülern in ihren Klassen befassen, die Schwierigkeiten haben. Wir glauben nicht, dass man einen großartigen Lehrer durch eine App ersetzen kann, aber wir hoffen, einige seiner Qualitäten besser nachahmen zu können – und durch Technologie mehr potenzielle Lernende auf der ganzen Welt zu erreichen.

Es ist Mittagszeit, wenn Sie