Reinforcement Learning

Das Reinforcement Learning ist ein Verfahren des Machine Learning. Es ähnelt in manchen Aspekten dem Supervised Learning und Unsupervised Learning, setzt jedoch auf die Strategie natürlichen Lernens.

Das Lernen kann mit einer Art Konditionierung verglichen werden, bei dem das System „belohnt“ wird, wenn es richtig reagiert hat, und „bestrafft“, wenn das Ergebnis nicht der Erwartung entspricht.

Der Begriff ist der Psychologie entlehnt und wurde bereits sehr früh in der Kybernetik verwendet. Die Modelle des bestärkenden Lernens versuchen das Lernverhalten in der Natur nachzubilden.

Reinforcement Learning Definition & Erklärung | Datenbank Lexikon

Vorgehensweisen beim Reinforcement Learning

Der Aufbau eines Reinforcement Learning-Systems ist sehr komplex, weswegen der Vorgang simplifiziert beschrieben wird. Der als Agent bezeichnete Lernprozess befindet sich in einer Umgebung, die eine distinkte endliche Menge an Status und Aktionen besitzt.

Zu jedem gegebenen Zeitpunkt ermittelt der Agent den Zustand der Umgebung und reagiert mit einer der vorhanden Aktionen darauf. Die Umgebung reagiert auf die Aktion und „belohnt“ oder „bestraft“ die Aktion des Agenten. Diese Reaktion der Umgebung nimmt der Agent auf und passt das Verhalten bei künftigen Entscheidungen an. Eine „Belohnung“ bestärkt dabei die Ausführung der Aktion, eine „Bestrafung“ führt zur Änderung künftiger Entscheidungen des Agenten, bei der Wahl einer Aktion.

Ein passender Vergleich ist ein Hundetraining. Hier wird dem Hund beigebracht, in welcher Situation, welche Aktion angemessen ist. Der oder die Besitzer/in belohnen den Hund, wenn dieser beispielsweise andere Hund ignoriert (Belohnung) oder bestrafen ihn, wenn er unaufgefordert Sachen im Wald frisst. In dieser Art und Weise lernt der Agent eines Reinforcement Learning-Systems auch.

Algorithmen für Reinforcement Learning-Verfahren

Das System bzw. der Agent befinden sich in einem Markov Decision Process, in dem die Umgebung, die Status und die Aktionen festgelegt sind.

Es bringt den Agenten dazu, herauszufinden, wie es zu einer maximalen „Belohnung“ gelangt. Die Entwicklung eines Reinforcement Learning Systems ist auf unterschiedlichen Wegen möglich. Oft kommt dabei das Q-Learning zum Einsatz.

Einsatzbereiche für Reinforcement Learning

Das „natürliche“ Lernen soll zu einem berechenbaren Verhalten führen, das auf die Menschen und Situationen im Umfeld reagiert. Darüber hinaus soll hierdurch ein selbstständig agierendes System entstehen, dass keine menschliche Kontrolle mehr benötigt. Angesichts dessen spielt es in der Robotik und der Planung, beispielsweise in der Logistik, eine große Rolle.

In Umgebungen, die das System bzw. der Agent nicht kennt, ist der Einsatz nicht möglich, da es weder über den geeigneten Status noch die erwarteten Aktionen verfügt, die für eine andere Umgebung notwendig sind.

Das bedeutet ganz einfach, ein Roboter der zur Lagerlogistik eingesetzt wird, kann kein Auto zusammenbauen.