Η βιολογία πίσω από την Ενισχυτική μάθηση μπορεί να βρεθεί στο Operant conditioning, και Reward

Η ενισχυτική μάθηση (RL) είναι η διδασκαλία ενός πράκτορα λογισμικού πώς να συμπεριφέρεται σε ένα περιβάλλον λέγοντάς του πόσο καλά τα καταφέρνει. Είναι ένας τομέας της μηχανικής μάθησης εμπνευσμένος από τη συμπεριφοριστική ψυχολογία.

Η ενισχυτική μάθηση διαφέρει από την επιβλεπόμενη μάθηση επειδή οι σωστές είσοδοι και έξοδοι δεν εμφανίζονται ποτέ. Επίσης, η ενισχυτική μάθηση συνήθως μαθαίνει καθώς προχωρά (online μάθηση) σε αντίθεση με την επιβλεπόμενη μάθηση. Αυτό σημαίνει ότι ένας πράκτορας πρέπει να επιλέξει μεταξύ της εξερεύνησης και της εμμονής σε αυτό που γνωρίζει καλύτερα.