Eine Maschine lösen
Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.
Vorheriges Bild Nächstes Bild
Große Sprachmodelle wie GPT-3 von OpenAI sind riesige neuronale Netze, die menschenähnliche Texte generieren können, von Gedichten bis hin zu Programmiercode. Diese maschinellen Lernmodelle werden mithilfe von Internetdaten trainiert und nehmen einen kleinen Teil des eingegebenen Texts und sagen dann den Text voraus, der wahrscheinlich als nächstes kommt.
Aber das ist noch nicht alles, was diese Modelle können. Forscher erforschen ein merkwürdiges Phänomen namens In-Context-Lernen, bei dem ein großes Sprachmodell lernt, eine Aufgabe zu erfüllen, nachdem es nur wenige Beispiele gesehen hat – obwohl es nicht für diese Aufgabe trainiert wurde. Beispielsweise könnte jemand dem Modell mehrere Beispielsätze und deren Stimmungen (positiv oder negativ) zuführen und es dann mit einem neuen Satz auffordern, und das Modell kann die richtige Stimmung wiedergeben.
Typischerweise müsste ein maschinelles Lernmodell wie GPT-3 für diese neue Aufgabe mit neuen Daten neu trainiert werden. Während dieses Trainingsprozesses aktualisiert das Modell seine Parameter, während es neue Informationen verarbeitet, um die Aufgabe zu lernen. Beim Lernen im Kontext werden die Parameter des Modells jedoch nicht aktualisiert, sodass es den Anschein hat, als würde das Modell eine neue Aufgabe lernen, ohne überhaupt etwas zu lernen.
Wissenschaftler vom MIT, Google Research und der Stanford University versuchen, dieses Rätsel zu lösen. Sie untersuchten Modelle, die großen Sprachmodellen sehr ähnlich sind, um herauszufinden, wie sie lernen können, ohne Parameter zu aktualisieren.
Die theoretischen Ergebnisse der Forscher zeigen, dass diese massiven neuronalen Netzwerkmodelle in der Lage sind, kleinere, einfachere lineare Modelle in sich zu enthalten. Das große Modell könnte dann einen einfachen Lernalgorithmus implementieren, um dieses kleinere, lineare Modell so zu trainieren, dass es eine neue Aufgabe erledigt, wobei nur Informationen verwendet werden, die bereits im größeren Modell enthalten sind. Seine Parameter bleiben fest.
„Diese Forschung ist ein wichtiger Schritt zum Verständnis der Mechanismen hinter kontextbezogenem Lernen und öffnet die Tür für weitere Erforschung der Lernalgorithmen, die diese großen Modelle implementieren können“, sagt Ekin Akyürek, Informatik-Doktorand und Hauptautor einer Arbeit, die dieses Phänomen untersucht. Mit einem besseren Verständnis des Lernens im Kontext könnten Forscher Modelle in die Lage versetzen, neue Aufgaben zu erledigen, ohne dass eine kostspielige Umschulung erforderlich ist.
„Wenn Sie diese Modelle verfeinern möchten, müssen Sie normalerweise domänenspezifische Daten sammeln und einige komplexe technische Arbeiten durchführen. Aber jetzt können wir ihm einfach eine Eingabe und fünf Beispiele geben, und schon erreicht es, was wir wollen. Also, in.“ „Kontextlernen ist ein unverhältnismäßig effizientes Lernphänomen, das verstanden werden muss“, sagt Akyürek.
Neben Akyürek sind Dale Schuurmans, ein Forschungswissenschaftler bei Google Brain und Professor für Informatik an der University of Alberta, an der Arbeit beteiligt; sowie die leitenden Autoren Jacob Andreas, Assistenzprofessor des X-Konsortiums in der MIT-Abteilung für Elektrotechnik und Informatik und Mitglied des MIT-Labors für Informatik und künstliche Intelligenz (CSAIL); Tengyu Ma, Assistenzprofessor für Informatik und Statistik in Stanford; und Danny Zhou, leitender Wissenschaftler und Forschungsdirektor bei Google Brain. Die Forschung wird auf der International Conference on Learning Representations vorgestellt.
Ein Modell innerhalb eines Modells
In der Forschungsgemeinschaft zum maschinellen Lernen sind viele Wissenschaftler zu der Überzeugung gelangt, dass große Sprachmodelle aufgrund ihrer Schulung kontextbezogenes Lernen durchführen können, sagt Akyürek.
GPT-3 verfügt beispielsweise über Hunderte Milliarden Parameter und wurde durch das Lesen riesiger Textmengen im Internet trainiert, von Wikipedia-Artikeln bis hin zu Reddit-Beiträgen. Wenn also jemand die Modellbeispiele einer neuen Aufgabe zeigt, hat er wahrscheinlich schon etwas sehr Ähnliches gesehen, da sein Trainingsdatensatz Text von Milliarden von Websites enthielt. Es wiederholt Muster, die es während des Trainings gesehen hat, anstatt zu lernen, neue Aufgaben auszuführen.
Akyürek stellte die Hypothese auf, dass In-Context-Lernende nicht nur zuvor gesehene Muster abbilden, sondern tatsächlich lernen, neue Aufgaben auszuführen. Er und andere hatten experimentiert, indem sie diesen Modellen mithilfe synthetischer Daten, die sie vorher nirgendwo gesehen hatten, Aufforderungen gaben, und stellten fest, dass die Modelle immer noch aus nur wenigen Beispielen lernen konnten. Akyürek und seine Kollegen dachten, dass diese neuronalen Netzwerkmodelle möglicherweise kleinere Modelle für maschinelles Lernen enthalten, die die Modelle trainieren können, um eine neue Aufgabe zu erledigen.
„Das könnte fast alle Lernphänomene erklären, die wir bei diesen großen Modellen gesehen haben“, sagt er.
Um diese Hypothese zu testen, verwendeten die Forscher ein neuronales Netzwerkmodell namens Transformer, das die gleiche Architektur wie GPT-3 hat, aber speziell für das Lernen im Kontext trainiert wurde.
Durch die Untersuchung der Architektur dieses Transformators haben sie theoretisch bewiesen, dass er innerhalb seiner verborgenen Zustände ein lineares Modell schreiben kann. Ein neuronales Netzwerk besteht aus vielen Schichten miteinander verbundener Knoten, die Daten verarbeiten. Die verborgenen Zustände sind die Schichten zwischen der Eingabe- und der Ausgabeschicht.
Ihre mathematischen Auswertungen zeigen, dass dieses lineare Modell irgendwo in den frühesten Schichten des Transformators geschrieben ist. Der Transformator kann dann das lineare Modell aktualisieren, indem er einfache Lernalgorithmen implementiert.
Im Wesentlichen simuliert und trainiert das Modell eine kleinere Version seiner selbst.
Verborgene Schichten erforschen
Die Forscher untersuchten diese Hypothese mithilfe von Sondierungsexperimenten, bei denen sie in die verborgenen Schichten des Transformators schauten, um zu versuchen, eine bestimmte Menge wiederzugewinnen.
„In diesem Fall haben wir versucht, die tatsächliche Lösung des linearen Modells wiederherzustellen, und wir konnten zeigen, dass der Parameter in den verborgenen Zuständen geschrieben ist. Das bedeutet, dass das lineare Modell irgendwo da drin ist“, sagt er.
Aufbauend auf dieser theoretischen Arbeit können die Forscher möglicherweise einen Transformator in die Lage versetzen, kontextbezogenes Lernen durchzuführen, indem sie dem neuronalen Netzwerk nur zwei Schichten hinzufügen. Es müssten noch viele technische Details geklärt werden, bevor dies möglich sei, warnt Akyürek, aber es könnte Ingenieuren dabei helfen, Modelle zu erstellen, die neue Aufgaben erledigen können, ohne dass eine Umschulung mit neuen Daten erforderlich ist.
„Der Artikel beleuchtet eine der bemerkenswertesten Eigenschaften moderner großer Sprachmodelle – ihre Fähigkeit, ohne explizites Training aus den in ihren Eingaben gegebenen Daten zu lernen. Anhand des vereinfachten Falles der linearen Regression zeigen die Autoren theoretisch, wie Modelle Standards implementieren können.“ Lernalgorithmen beim Lesen ihrer Eingaben und empirisch, welche Lernalgorithmen am besten zu ihrem beobachteten Verhalten passen“, sagt Mike Lewis, ein Forschungswissenschaftler bei Facebook AI Research, der nicht an dieser Arbeit beteiligt war. „Diese Ergebnisse sind ein Sprungbrett zum Verständnis, wie Modelle komplexere Aufgaben lernen können, und werden Forschern dabei helfen, bessere Trainingsmethoden für Sprachmodelle zu entwickeln, um deren Leistung weiter zu verbessern.“
Für die Zukunft plant Akyürek, das kontextbezogene Lernen weiterhin mit Funktionen zu erforschen, die komplexer sind als die linearen Modelle, die sie in dieser Arbeit untersucht haben. Sie könnten diese Experimente auch auf große Sprachmodelle anwenden, um zu sehen, ob ihr Verhalten auch durch einfache Lernalgorithmen beschrieben wird. Darüber hinaus möchte er sich eingehender mit den Arten von Pretraining-Daten befassen, die kontextbezogenes Lernen ermöglichen können.
„Mit dieser Arbeit können Menschen nun visualisieren, wie diese Modelle von Vorbildern lernen können. Ich hoffe also, dass sie die Ansichten einiger Menschen über kontextbezogenes Lernen ändern“, sagt Akyürek. „Diese Modelle sind nicht so dumm, wie die Leute denken. Sie merken sich diese Aufgaben nicht nur. Sie können neue Aufgaben lernen, und wir haben gezeigt, wie das geht.“
Die Motherboard-Reporterin Tatyana Woodall schreibt, dass eine neue, von MIT-Forschern mitverfasste Studie herausgefunden hat, dass KI-Modelle, die anhand weniger Beispiele lernen können, neue Aufgaben auszuführen, in sich selbst kleinere Modelle erzeugen, um diese neuen Aufgaben zu erfüllen. „Lernen ist mit [vorhandenem] Wissen verknüpft“, erklärt Doktorand Ekin Akyürek. „Wir zeigen, dass es diesen Modellen möglich ist, spontan aus Beispielen zu lernen, ohne dass wir Parameteraktualisierungen auf das Modell anwenden müssen.“
Vorheriger Artikel Nächster Artikel
Vorheriger Artikel Nächster Artikel
Ein Modell innerhalb eines Modells. Verborgene Schichten untersuchen