Bestärkendes Lernen - LinkFang.de





Bestärkendes Lernen


Bestärkendes Lernen oder Verstärkendes Lernen (englisch reinforcement learning) steht für eine Reihe von Methoden des Maschinellen Lernens, bei denen ein Agent selbständig eine Strategie erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält zu bestimmten Zeitpunkten eine Belohnung, die auch negativ sein kann. Anhand dieser Belohnungen approximiert er eine Nutzenfunktion, die beschreibt, welchen Wert ein bestimmter Zustand oder Aktion hat.

Der Begriff ist der Psychologie entlehnt und wurde bereits seit den Anfängen der Kybernetik verwendet. So benutzte schon Marvin Minsky den Begriff in seiner Dissertation von 1954.[1] Die Modelle des bestärkenden Lernens versuchen das Lernverhalten in der Natur nachzubilden.

Modell

Die Methoden des bestärkenden Lernens betrachten Interaktion eines lernenden Agenten mit seiner Umwelt. Letztere ist dabei als Markow-Entscheidungsproblem formuliert. So besitzt die Umwelt eine Menge von Zuständen. Der Agent kann aus einer Menge von Aktionen wählen und gelangt so zu einem anderen Zustand und erhält dabei eine Belohnung.

Ziel des Agenten ist es den erwarteten Gewinn

[math]B_t = \sum_{k=0}^N \delta^k\cdot b_{t+k}[/math] mit [math] 0\le\delta\le 1[/math]

zu maximieren. Der erwartete Gewinn ist also so etwas wie die erwartete Gesamtbelohnung. Dabei nennt man [math]\delta\,\![/math] den Diskontierungsfaktor, der zukünftige Belohnungen gewichtet. Bei episodischen Problemen, d. h. die Welt geht nach einer endlichen Anzahl von Schritten in einen Endzustand über (wie z. B. eine Schachpartie), eignet sich der Diskontierungsfaktor [math]\delta=1\,\![/math]. In diesem Fall wird jede Belohnung [math]b_{t+k}\,\![/math] gleich gewertet. Bei kontinuierlichen Problemen ([math]N=\infty[/math]) muss man ein [math]\delta\lt1\,\![/math] wählen, damit die unendliche Reihe [math]B_t\,\![/math] konvergiert. Für [math]\delta=0\,\![/math] zählt nur die aktuelle Belohnung [math]b_t\,\![/math]; alle zukünftigen Belohnungen werden ignoriert. Geht [math]\delta\,\![/math] gegen 1, wird der Agent weitsichtiger.

Zu diesem Zweck verfolgt der Agent eine Strategie (englisch policy), die er laufend verbessert. Üblicherweise wird die Strategie als eine Funktion [math]s:Z \rightarrow A(Z) [/math] betrachtet, die jedem Zustand eine Aktion zuweist. Jedoch sind auch nichtdeterministische Strategien (oder gemischte Strategien) möglich, sodass eine Aktion mit einer bestimmten Wahrscheinlichkeit ausgewählt wird. Im Allgemeinen wird eine Strategie demnach als bedingte Wahrscheinlichkeitsverteilung definiert: [math]s(z,a) = p(a|s) \quad[/math].

Lernverfahren

Zum Erlernen der Strategie des Agenten gibt es verschiedene Algorithmen. Sehr erfolgreich dabei sind Monte-Carlo-Methoden und Temporal Difference Learning. Bei diesen handelt es sich um eine Reihe von Algorithmen, bei denen der Agent eine Nutzenfunktion besitzt, welche einen bestimmten Zustand oder eine bestimmte Aktion in einem Zustand bewertet.

Bei kleinen Zustands- oder Aktionsräumen kann dies eine Tabelle sein, deren Felder anhand der erhaltenen Belohnung aktualisiert wird. Bei großen Zustandsräumen muss die Funktion jedoch approximiert werden. Dazu eignet sich beispielsweise die Fourierreihe oder auch ein Neuronales Netz.[2]

Soll mehr als ein Agent lernen, kann selbst bei kooperativen Agenten, außer in trivialen Fällen, die Konvergenz der Lernvorgänge (bislang) nicht mehr garantiert werden. Trotzdem kann unter Zuhilfenahme von Heuristiken oft ein in der Praxis nützliches Verhalten gelernt werden, da der worst case selten auftritt.[3]

Literatur

  • Richard Sutton, Andrew Barto: Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998 (Online-Version )
  • Dimitri P. Bertsekas, John Tsitsiklis: Neuro-Dynamic Programming. Athena Scientific, Cambridge, MA, 1996
  • Csaba Szepesvári, Algorithms for Reinforcement Learning, Morgan and Claypool, 2010 (Online-Version ).
  • Marc Patrick Deisenroth, Gerhard Neumann, Jan Peters: A Survey on Policy Search for Robotics. Foundations and Trends in Robotics, 21, pp.388-403, 2013 (Online-Version ).
  • Jens Kober, Drew Bagnell, Jan Peters: Reinforcement Learning in Robotics: A Survey. International Journal of Robotics Research, 32, 11, pp.1238-1274, 2013 (Online-Version ).
  • Warren B. Powell: Approximate Dynamic Programming. John Wiley and Sons, 2011
  • Stuart Russell, Peter Norvig: Künstliche Intelligenz: Ein moderner Ansatz. Pearson Studium, August 2004, ISBN 3-8273-7089-2 (deutsche Übersetzung der 2. Auflage) Kapitel 21.

Weblinks

Einzelnachweise

  1. Richard Sutton: Reinforcement Learning FAQ. 2. April 2004, abgerufen am 21. April 2016 (english).
  2. Michel Tokic: Reinforcement Learning an Robotern mit Neuronalen Netzen, M.Sc. Thesis, University of Applied Sciences Ravensburg-Weingarten, 2008. (Online-Version )
  3. J. F. Knabe: Kooperatives Reinforcement Lernen in Multiagentensystemen. B. Sc. Thesis, Universität Osnabrück, 2005. http://www.panmental.de/papers/CooperativeRLinMAS.pdf

Kategorien: Keine Kategorien vorhanden!

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Bestärkendes Lernen (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.