magicAyyub's Thoughts

Évaluation comparative d'algorithmes d'apprentissage par renforcement - Claude

Bloqué à -1.000 du début à la fin, ça ne bouge pas. Le réseau est coincé dans un minimum local où il choisit toujours la mauvaise action. C'est un résultat parfaitement documentable dans le rapport : AlphaZero sur LineWorld est un cas d'algorithme surdimensionné pour le problème. Le réseau neural n'arrive pas à apprendre une politique triviale (aller à droite) parce que le signal de reward est trop rare et l'architecture trop lourde pour 5 états. C'est exactement le genre d'insight que le prof attend — savoir quand un algorithme n'est PAS adapté.

2026/4/26 10:37:09(UTC+0)

bookdraft2017nov5.pdf

local optimum under standard stochastic approximation conditions for decreasing α. However, as a Monte Carlo method REINFORCE may be of high variance and thus produce slow learning.

2026/4/24 15:07:34(UTC+0)

First time, sharing my thoughts, so exited !

I really enjoy.

2025/10/8 10:53:33(UTC+0)