Offre de stage M2 : Apprentissage par renforcement pour de la robotique frugale

Pour toute candidature, envoyez votre CV ainsi qu’une lettre de motivation à leo.saulieres@inrae.fr, meritxell.vinyals@inrae.fr ou regis.sabbadin@inrae.fr.

Sujet

L’adoption croissante de la robotique agricole a motivé la recherche sur des systèmes autonomes capables d’effectuer des interventions ciblées dans les champs. Parmi celles-ci, la détection et l’élimination des mauvaises herbes constituent un défi majeur, car celles-ci représentent une source importante de pertes de récoltes et leur gestion a un impact direct sur le rendement, le coût et la durabilité environnementale. Une piste prometteuse consiste à apprendre ou à modéliser la distribution spatio-temporelle des mauvaises herbes, de manière à ce que les décisions robotiques puissent s’appuyer sur une représentation sous-jacente de la façon dont les mauvaises herbes apparaissent et évoluent au fil du temps.

Le déploiement d’un robot pour surveiller un environnement agricole entraîne des coûts non négligeables, tant en termes de consommation d’énergie que de temps. La surveillance continue de l’ensemble du champ n’est donc pas pratique, ce qui nécessite des agents décisionnels qui déterminent quand le robot doit être activé et quelles sous-régions du champ doivent être inspectées. L’objectif n’est pas de maintenir une carte complète et à jour de la présence de mauvaises herbes, mais plutôt d’acquérir suffisamment d’informations pour guider les opérations de désherbage sélectif. En concentrant les interventions uniquement là où elles sont nécessaires, le système peut assurer un contrôle efficace des mauvaises herbes tout en minimisant le déploiement et les déplacements inutiles du robot. Bien que des méthodes d’exploration actives aient été proposées en robotique, celles-ci ne prennent pas en compte le compromis entre prise d’information et un coût antagoniste comme la consommation d’énergie [1]. En effet, le but final n’est pas d’avoir la carte la plus précise possible (e.g. [2]), mais d’optimiser la santé du champ agricole tout en minimisant l’énergie et le temps consommé par le robot.

Pour répondre à cette problématique, l’apprentissage par renforcement (AR) semble pertinent. L’AR est un paradigme dans lequel un agent évolue au sein d’un environnement au travers d’actions. Dans ce problème de prise de décision séquentielle, l’objectif de l’agent est de maximiser une récompense en apprenant une politique. Dans la problématique du stage, l’AR sera utilisé, dans un premier temps, pour apprendre une politique de prise d’information parcimonieuse de l’état du champ. Dans un second temps, l’AR sera utilisé pour apprendre une politique déterminant quand et dans quelle sous-région du champ le robot doit effectuer une opération de désherbage. L’implémentation de l’environnement ainsi que d’algorithmes d’AR s’effectuera au travers des librairies Gymnasium [3] et RLlib [4].

Objectifs du stage

  • Effectuer une brève revue de la littérature.
  • Développer un algorithme d’apprentissage par renforcement pour répondre à la problématique.
  • Implémenter et évaluer l’algorithme sur une simulation de robot évoluant dans un champ à désherber.

Profil de candidat souhaité

  • Connaissances en apprentissage par renforcement.
  • Expérience en programmation Python.
  • Autonomie et capacité de travail en équipe, de rédaction, de synthèse.
  • Des compétences en développement collaboratif (utilisation de GIT, tests unitaires, documentation…) sont un plus, même si elles pourront être acquises pendant le stage.

Cadre de travail

Le stage, d’une durée de 5 à 6 mois et rémunéré, se déroulera au sein de l’unité MIAT (Mathématiques et Informatique Appliquées de Toulouse) de l’INRAE, située à Toulouse (24, chemin de Borde Rouge, 31320 Auzeville-Tolosane).
Le Centre Inrae est facilement accessible en transports en commun (ou en vélo), dispose d’un restaurant d’entreprise, et d’une association qui propose de nombreuses activités sportives et autres.

Encadrement

Le stage sera encadré par Léo Saulières, Meritxell Vinyals, Régis Sabbadin (MIAT, INRAE, Toulouse) et Johann Laconte (TSCF, INRAE, Clermont-Ferrand), dont les sujets de recherche gravitent autour de l’apprentissage par renforcement et la robotique mobile.

Références

  • [1] Nicholas Harrison, Nathan Wallace, and Salah Sukkarieh. Automated testing of spatially-dependent environmental hypotheses through active transfer learning. In 2024 IEEE Inter-national Conference on Robotics and Automation (ICRA), pages 17941–17947. IEEE, 2024.
  • [2] Marija Popovic, Gregory Hitz, Juan I. Nieto, Inkyu Sa, Roland Y. Siegwart, and Enric Gal-ceran. Online informative path planning for active classification using uavs. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 5753–5758, 2016.
  • [3] Mark Towers, Ariel Kwiatkowski, Jordan Terry, John U Balis, Gianluca De Cola, Tristan De-leu, Manuel Goulao, Andreas Kallinteris, Markus Krimmel, Arjun KG, et al. Gymnasium : Astandard interface for reinforcement learning environments. arXiv preprint arXiv :2407.17032, 2024.
  • [4] Zhanghao Wu, Eric Liang, Michael Luo, Sven Mika, Joseph E. Gonzalez, and Ion Stoica.RLlib flow : Distributed reinforcement learning is a dataflow problem. In Conference onNeural Information Processing Systems (NeurIPS), 2021.