Introduction au RL et aux bandits multi-armés

Emmanuelle Claeys (IRIT) [distanciel]


Date
01 mars 2024

Résumé : Dans cet exposé nous présenterons l’intérêt des modèles de bandits dans les problématiques de RL (gestion de l’exploration/exploitation) ainsi que dans un exemple industriel. Nous ferons une introduction aux algorithmes Policy, Value Iteration et Q-learning puis nous présenterons comment les modèles de bandits permettent de limiter le coût de l’exploration en présentant des garanties théoriques. Nous donnerons enfin une application industrielle dans le cas d’un AB Test.