Évaluation comparative d'algorithmes d'apprentissage par renforcement - Claude
Bloqué à -1.000 du début à la fin, ça ne bouge pas. Le réseau est coincé dans un minimum local où il choisit toujours la mauvaise action. C'est un résultat parfaitement documentable dans le rapport : AlphaZero sur LineWorld est un cas d'algorithme surdimensionné pour le problème. Le réseau neural n'arrive pas à apprendre une politique triviale (aller à droite) parce que le signal de reward est trop rare et l'architecture trop lourde pour 5 états. C'est exactement le genre d'insight que le prof attend — savoir quand un algorithme n'est PAS adapté.
local optimum under standard stochastic approximation conditions for decreasing α. However, as a Monte Carlo method REINFORCE may be of high variance and thus produce slow learning.
First time, sharing my thoughts, so exited !
I really enjoy.