Weit weg
Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.
Vorheriges Bild Nächstes Bild
Stellen Sie sich zwei Mannschaften vor, die auf einem Fußballfeld gegeneinander antreten. Die Spieler können zusammenarbeiten, um ein Ziel zu erreichen, und gegen andere Spieler mit widersprüchlichen Interessen antreten. So funktioniert das Spiel.
Die Entwicklung künstlicher Intelligenz-Agenten, die lernen können, genauso effektiv zu konkurrieren und zu kooperieren wie Menschen, bleibt ein heikles Problem. Eine zentrale Herausforderung besteht darin, KI-Agenten in die Lage zu versetzen, das zukünftige Verhalten anderer Agenten vorherzusehen, wenn sie alle gleichzeitig lernen.
Aufgrund der Komplexität dieses Problems neigen aktuelle Ansätze dazu, kurzsichtig zu sein; Die Agenten können die nächsten Züge ihrer Teamkollegen oder Konkurrenten nur erraten, was auf lange Sicht zu einer schlechten Leistung führt.
Forscher des MIT, des MIT-IBM Watson AI Lab und anderswo haben einen neuen Ansatz entwickelt, der KI-Agenten eine weitsichtige Perspektive bietet. Ihr Framework für maschinelles Lernen ermöglicht es kooperativen oder konkurrierenden KI-Agenten, darüber nachzudenken, was andere Agenten tun werden, wenn die Zeit sich der Unendlichkeit nähert, und nicht nur über ein paar nächste Schritte hinweg. Anschließend passen die Agenten ihr Verhalten entsprechend an, um das zukünftige Verhalten anderer Agenten zu beeinflussen und zu einer optimalen, langfristigen Lösung zu gelangen.
Dieses Framework könnte von einer Gruppe autonomer Drohnen genutzt werden, die zusammenarbeiten, um einen verirrten Wanderer in einem dichten Wald zu finden, oder von selbstfahrenden Autos, die darauf abzielen, die Sicherheit der Fahrgäste zu gewährleisten, indem sie zukünftige Bewegungen anderer Fahrzeuge auf einer stark befahrenen Autobahn vorhersehen.
„Wenn KI-Agenten kooperieren oder konkurrieren, kommt es vor allem darauf an, wann sich ihre Verhaltensweisen irgendwann in der Zukunft annähern. Es gibt viele vorübergehende Verhaltensweisen auf dem Weg, die auf lange Sicht keine große Rolle spielen. Dieses konvergierte Verhalten erreichen.“ ist das, was uns wirklich am Herzen liegt, und wir haben jetzt eine mathematische Möglichkeit, dies zu ermöglichen“, sagt Dong-Ki Kim, ein Doktorand am MIT Laboratory for Information and Decision Systems (LIDS) und Hauptautor einer Arbeit, die diesen Rahmen beschreibt.
Der leitende Autor ist Jonathan P. How, Richard C. Maclaurin-Professor für Luft- und Raumfahrt und Mitglied des MIT-IBM Watson AI Lab. Zu den Co-Autoren zählen andere vom MIT-IBM Watson AI Lab, IBM Research, dem Mila-Quebec Artificial Intelligence Institute und der Universität Oxford. Die Forschung wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Mehr Agenten, mehr Probleme
Die Forscher konzentrierten sich auf ein Problem, das als Multiagenten-Verstärkungslernen bekannt ist. Reinforcement Learning ist eine Form des maschinellen Lernens, bei dem ein KI-Agent durch Versuch und Irrtum lernt. Forscher geben dem Agenten eine Belohnung für „gutes“ Verhalten, das ihm hilft, ein Ziel zu erreichen. Der Agent passt sein Verhalten an, um diese Belohnung zu maximieren, bis er schließlich zum Experten für eine Aufgabe wird.
Wenn jedoch viele kooperative oder konkurrierende Agenten gleichzeitig lernen, werden die Dinge immer komplexer. Da Agenten mehr zukünftige Schritte ihrer Kollegen berücksichtigen und darüber nachdenken, wie ihr eigenes Verhalten andere beeinflusst, erfordert das Problem bald viel zu viel Rechenleistung, um es effizient zu lösen. Aus diesem Grund konzentrieren sich andere Ansätze nur auf die Kurzfristigkeit.
„Die KIs wollen wirklich über das Ende des Spiels nachdenken, aber sie wissen nicht, wann das Spiel endet. Sie müssen darüber nachdenken, wie sie ihr Verhalten bis ins Unendliche anpassen können, damit sie irgendwann in der Zukunft gewinnen können.“ „Unser Papier schlägt im Wesentlichen ein neues Ziel vor, das es einer KI ermöglicht, über die Unendlichkeit nachzudenken“, sagt Kim.
Da es jedoch unmöglich ist, die Unendlichkeit in einen Algorithmus einzubinden, haben die Forscher ihr System so konzipiert, dass sich die Agenten auf einen zukünftigen Punkt konzentrieren, an dem ihr Verhalten mit dem anderer Agenten konvergiert, was als Gleichgewicht bezeichnet wird. Ein Gleichgewichtspunkt bestimmt die langfristige Leistung von Agenten, und in einem Szenario mit mehreren Agenten können mehrere Gleichgewichte bestehen. Daher beeinflusst ein effektiver Agent aktiv das zukünftige Verhalten anderer Agenten, so dass diese ein aus Sicht des Agenten wünschenswertes Gleichgewicht erreichen. Wenn sich alle Akteure gegenseitig beeinflussen, konvergieren sie zu einem allgemeinen Konzept, das die Forscher ein „aktives Gleichgewicht“ nennen.
Das von ihnen entwickelte Framework für maschinelles Lernen, bekannt als FURTHER (was für „FUlly Reinforcing acTive influence with averagE Reward“ steht), ermöglicht es Agenten zu lernen, wie sie ihr Verhalten anpassen, wenn sie mit anderen Agenten interagieren, um dieses aktive Gleichgewicht zu erreichen.
FURTHER tut dies mithilfe von zwei Modulen für maschinelles Lernen. Das erste, ein Inferenzmodul, ermöglicht es einem Agenten, das zukünftige Verhalten anderer Agenten und die von ihnen verwendeten Lernalgorithmen allein auf der Grundlage ihrer vorherigen Aktionen zu erraten.
Diese Informationen werden in das Reinforcement-Learning-Modul eingespeist, mit dem der Agent sein Verhalten anpasst und andere Agenten so beeinflusst, dass seine Belohnung maximiert wird.
„Die Herausforderung bestand darin, über die Unendlichkeit nachzudenken. Wir mussten viele verschiedene mathematische Werkzeuge verwenden, um dies zu ermöglichen, und einige Annahmen treffen, damit es in der Praxis funktioniert“, sagt Kim.
Auf lange Sicht gewinnen
Sie testeten ihren Ansatz im Vergleich zu anderen Multiagenten-Learning-Frameworks in verschiedenen Szenarien, darunter zwei Roboter, die im Sumo-Stil kämpften, und ein Kampf, bei dem zwei Teams mit je 25 Agenten gegeneinander antraten. In beiden Fällen gewannen die KI-Agenten, die FURTHER nutzten, häufiger die Spiele.
Da ihr Ansatz dezentralisiert ist, was bedeutet, dass die Agenten lernen, die Spiele selbstständig zu gewinnen, ist er auch skalierbarer als andere Methoden, die einen zentralen Computer zur Steuerung der Agenten erfordern, erklärt Kim.
Die Forscher nutzten Spiele, um ihren Ansatz zu testen, aber FURTHER könnte zur Lösung jeglicher Art von Multiagentenproblemen eingesetzt werden. Es könnte beispielsweise von Ökonomen angewendet werden, die eine solide Politik in Situationen entwickeln möchten, in denen viele interagierende Anspruchsberechtigte Verhaltensweisen und Interessen haben, die sich im Laufe der Zeit ändern.
Wirtschaftswissenschaften sind ein Anwendungsbereich, auf den sich Kim besonders freut. Er möchte sich auch eingehender mit dem Konzept eines aktiven Gleichgewichts befassen und das FURTHER-Framework weiter verbessern.
Diese Forschung wird teilweise vom MIT-IBM Watson AI Lab finanziert.
Vorheriger Artikel Nächster Artikel
Mehr Agenten, mehr Probleme. Auf lange Sicht gewinnen