Ενισχυτική μάθηση

Η βιολογία πίσω από την Ενισχυτική μάθηση μπορεί να βρεθεί στο Operant conditioning, και Reward

Η ενισχυτική μάθηση (RL) είναι η διδασκαλία ενός πράκτορα λογισμικού πώς να συμπεριφέρεται σε ένα περιβάλλον λέγοντάς του πόσο καλά τα καταφέρνει. Είναι ένας τομέας της μηχανικής μάθησης εμπνευσμένος από τη συμπεριφοριστική ψυχολογία.

Η ενισχυτική μάθηση διαφέρει από την επιβλεπόμενη μάθηση επειδή οι σωστές είσοδοι και έξοδοι δεν εμφανίζονται ποτέ. Επίσης, η ενισχυτική μάθηση συνήθως μαθαίνει καθώς προχωρά (online μάθηση) σε αντίθεση με την επιβλεπόμενη μάθηση. Αυτό σημαίνει ότι ένας πράκτορας πρέπει να επιλέξει μεταξύ της εξερεύνησης και της εμμονής σε αυτό που γνωρίζει καλύτερα.

Εισαγωγή

Ένα σύστημα ενισχυτικής μάθησης αποτελείται από μια πολιτική ( π {\displaystyle \pi }{\displaystyle \pi } ), μια συνάρτηση ανταμοιβής ( R {\displaystyle R}{\displaystyle R} ), μια συνάρτηση αξίας ( v {\displaystyle v}{\displaystyle v} ) και ένα προαιρετικό μοντέλο του περιβάλλοντος.

Μια πολιτική λέει στον πράκτορα τι πρέπει να κάνει σε μια συγκεκριμένη κατάσταση. Μπορεί να είναι ένας απλός πίνακας κανόνων ή μια περίπλοκη αναζήτηση της σωστής ενέργειας. Οι πολιτικές μπορεί να είναι ακόμη και στοχαστικές, πράγμα που σημαίνει ότι αντί για κανόνες η πολιτική αναθέτει πιθανότητες σε κάθε ενέργεια. Μια πολιτική από μόνη της μπορεί να κάνει έναν πράκτορα να κάνει πράγματα, αλλά δεν μπορεί να μάθει από μόνη της.

Μια συνάρτηση ανταμοιβής ορίζει τον στόχο για έναν πράκτορα. Λαμβάνει μια κατάσταση (ή μια κατάσταση και την ενέργεια που έγινε σε αυτή την κατάσταση) και επιστρέφει έναν αριθμό που ονομάζεται ανταμοιβή, ο οποίος λέει στον πράκτορα πόσο καλό είναι να βρίσκεται σε αυτή την κατάσταση. Η δουλειά του πράκτορα είναι να πάρει το μεγαλύτερο δυνατό ποσό ανταμοιβής που μπορεί μακροπρόθεσμα. Εάν μια ενέργεια αποφέρει χαμηλή ανταμοιβή, ο πράκτορας θα προβεί πιθανότατα σε μια καλύτερη ενέργεια στο μέλλον. Η βιολογία χρησιμοποιεί σήματα ανταμοιβής όπως η ευχαρίστηση ή ο πόνος για να διασφαλίσει ότι οι οργανισμοί παραμένουν ζωντανοί για να αναπαραχθούν. Τα σήματα ανταμοιβής μπορεί επίσης να είναι στοχαστικά, όπως ένας κουλοχέρης σε ένα καζίνο, όπου άλλοτε πληρώνουν και άλλοτε όχι.

Μια συνάρτηση αξίας λέει σε έναν πράκτορα πόση ανταμοιβή θα πάρει ακολουθώντας μια πολιτική π {\displaystyle \pi }{\displaystyle \pi } ξεκινώντας από την κατάσταση s {\displaystyle s}{\displaystyle s} . Αντιπροσωπεύει πόσο επιθυμητό είναι να βρίσκεται κανείς σε μια συγκεκριμένη κατάσταση. Δεδομένου ότι η συνάρτηση αξίας δεν δίνεται απευθείας στον πράκτορα, πρέπει να καταλήξει σε μια καλή εικασία ή εκτίμηση με βάση την ανταμοιβή που έχει πάρει μέχρι τώρα. Η εκτίμηση της συνάρτησης αξίας είναι το πιο σημαντικό μέρος των περισσότερων αλγορίθμων ενισχυτικής μάθησης.

Το μοντέλο είναι το νοητικό αντίγραφο του περιβάλλοντος από τον πράκτορα. Χρησιμοποιείται για το σχεδιασμό μελλοντικών ενεργειών.

Γνωρίζοντας αυτό, μπορούμε να μιλήσουμε για τον κύριο βρόχο ενός επεισοδίου ενισχυτικής μάθησης. Ο πράκτορας αλληλεπιδρά με το περιβάλλον σε διακριτά χρονικά βήματα. Σκεφτείτε το σαν το "τικ-τακ" ενός ρολογιού. Με τον διακριτό χρόνο, τα πράγματα συμβαίνουν μόνο κατά τη διάρκεια των "τικ" και των "τακ" και όχι ενδιάμεσα. Σε κάθε χρονική στιγμή t = 0 , 1 , 2 , 3 , . . . {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}, ο πράκτορας παρατηρεί την κατάσταση του περιβάλλοντος S t {\displaystyle S_{t}}{\displaystyle S_{t}} και επιλέγει μια ενέργεια A t {\displaystyle A_{t}}{\displaystyle A_{t}} με βάση μια πολιτική π {\displaystyle \pi } {\displaystyle \pi }. Στο επόμενο χρονικό βήμα, ο πράκτορας λαμβάνει ένα σήμα ανταμοιβής R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} και μια νέα παρατήρηση S t + 1 {\displaystyle S_{t+1}} {\displaystyle S_{t+1}}. Η συνάρτηση αξίας v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} ενημερώνεται χρησιμοποιώντας την ανταμοιβή. Αυτό συνεχίζεται μέχρι να επιτευχθεί μια τελική κατάσταση S T {\displaystyle S_{T}} . {\displaystyle S_{T}}

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3