Wissenschaftler lehren Roboter das, was die Menschen wollen

Gesagt für Geschwindigkeit optimieren, während racing hinunter eine Spur in einem computer-Spiel, ein Auto, drückt das pedal, um das Metall … und geht zur Drehung in einem engen, kleinen Kreis. Nichts in der Anleitung gesagt, das Auto geradeaus zu fahren, und so improvisiert.

Dieses Beispiel-lustig in einem computer-Spiel, aber nicht so viel im Leben-ist unter denen, die motiviert Stanford University Forscher eine bessere Weise, sich Ziele zu setzen, die für autonome Systeme.

Dorsa Sadigh, assistant professor für informatik und Elektrotechnik, und Ihr Labor haben kombiniert zwei verschiedene Wege, die Ziele für Roboter in einem einzigen Prozess, der durchgeführt besser als jeder seiner Teile allein in den beiden Simulationen und realen Experimenten. Die Forscher präsentierten die Arbeit, Juni 24 an der Robotics: Science and Systems conference.

„In der Zukunft, ich voll erwartet, dass es mehr autonome Systeme in der Welt, und Sie gehen zu müssen einige Konzept von dem, was gut und was schlecht ist“, sagte Andy Palan, graduate student in computer science und co-lead-Autor des Papiers. „Es ist entscheidend, wenn wir wollen, dass die Bereitstellung solcher autonomen Systeme in der Zukunft, dass wir das richtig.“

Das team mit dem neuen system für die Bereitstellung Anweisung an Roboter-bekannt als reward-Funktionen-kombiniert Demonstrationen, in denen Menschen zeigen, der Roboter, was zu tun ist, und user-preference-Umfragen, in denen die Menschen zu beantworten Fragen über, wie Sie wollen, den Roboter zu Verhalten.

„Demonstrationen sind informativ, aber Sie können laut sein. Auf der anderen Seite, Vorlieben bieten, die meisten, die ein bit an information, aber viel genauer“, sagte Sadigh. „Unser Ziel ist es, das beste aus beiden Welten und kombinieren Sie Daten aus beiden Quellen zu intelligent, um besser zu lernen über die Menschen der bevorzugte belohnen Funktion.“

Demonstrationen und Umfragen

In früheren arbeiten, Sadigh konzentriert hatten-preference-Umfragen allein. Diese Leute bitten, zu vergleichen, Szenarien, wie zwei Trajektorien für ein Autonomes Auto. Diese Methode ist effizient, aber könnte so viel wie drei Minuten zu generieren, die nächste Frage, was ist noch zu langsam für die Erstellung von Anleitungen für komplexe Systeme wie ein Auto.

An Geschwindigkeit, bis die Gruppe entwickelte sich später eine Weise des Produzierens mehrere Fragen auf einmal, die beantwortet werden konnten, die in schneller Abfolge von einer person oder verteilt auf mehrere Personen. Dieses update beschleunigt den Prozess 15-bis 50-fache im Vergleich zum produzieren von Fragen, die one-by-one.

Das neue Kombi-system beginnt mit einer person, die ein Verhalten an den Roboter. Geben kann, dass autonome Roboter eine Menge Informationen, aber die Roboter oft kämpft, um zu bestimmen, welche Teile der demonstration sind wichtig. Menschen auch nicht immer wollen, dass ein Roboter sich Verhalten wie die Menschen, die trainiert.

„Wir können nicht immer Demonstrationen geben, und selbst wenn, wir können, wir können oft nicht verlassen sich auf die Informationen, die Menschen geben“, sagte Erdem Biyik, ein student in Elektrotechnik, führte die Arbeit bei der Entwicklung der multiple-Frage-Umfragen. „Zum Beispiel, frühere Studien haben gezeigt, die Menschen wollen autonome Autos fahren weniger aggressiv, als Sie es selbst tun.“

Das ist, wo die Umfragen kommen, was für die Roboter eine Art zu Fragen, beispielsweise, ob der Benutzer bevorzugt, wie es sich bewegt seinen arm, niedrig, um den Boden oder oben gegen die Decke. Für diese Studie verwendete die Gruppe die langsamer einzelnen Frage-Methode, aber Sie planen, integrieren mehrere-Frage Erhebungen in späteren arbeiten.

In tests, die das team gefunden, dass eine Kombination von Demonstrationen und Umfragen schneller war als nur die Angabe von Präferenzen und beim Vergleich mit Demonstrationen allein werden etwa 80 Prozent der Menschen, die bevorzugt, wie die Roboter verhielten sich, wenn mit Ihnen trainiert das kombinierte system.

„Das ist ein Schritt in ein besseres Verständnis, was die Leute wollen oder erwarten von einem Roboter“, sagte Sadigh. „Unsere Arbeit macht es einfacher und effizienter für den Menschen zu interagieren und zu lehren, Roboter, und ich bin begeistert über die Einnahme dieser Arbeit weiter, vor allem in dem Studium, wie Roboter und Menschen könnten voneinander lernen.“

Besser, schneller, schlauer

Menschen, die die kombinierte Methode berichtet, Schwierigkeiten zu verstehen, was das system wollte Sie sich mit Ihren Fragen, die manchmal fragte Sie wählen zwischen zwei Szenarien, schien die gleichen, oder schien irrelevant für die Aufgabe-ein häufiges problem in der Präferenz-basierte lernen. Die Forscher hoffen, um dieses Manko mit einfacher Umfragen, dass auch die Arbeit schneller.

„Mit Blick auf die Zukunft, es ist nicht zu 100 Prozent mir klar, was der richtige Weg, um Lohn-Funktionen ist, aber realistisch gesehen wirst du um irgendeine Art von Kombination, die Bewältigung komplexer Situationen, die mit der menschlichen Eingabe,“ sagte Palan. „Die design-reward-Funktionen für autonome Systeme ist ein großes, wichtiges problem, das noch nicht empfangen, ganz der Aufmerksamkeit in der Wissenschaft wie Sie es verdient.“

Das team ist auch daran interessiert, eine variation auf Ihrem system, die es erlauben würde, Menschen zu schaffen Sie gleichzeitig belohnen Funktionen für die verschiedenen Szenarien. Zum Beispiel, eine person kann wollen, dass Ihr Auto zu fahren, mehr konservativ im langsamen Verkehr und mehr aggressiv, wenn der Verkehr ist leicht.

Co-Autoren des RSS-2019 Papier sind Bachelor-Gleb Shevchuk und student im Aufbaustudium Nicholas C. Landolfi, beide an der Stanford University.

Diese Forschung wurde finanziert durch das Toyota Research Institute und die Zukunft der Life-Institut.