Sélection de variables par approximation de la norme L0 dans un modèle de Poisson log-normal

Togo Jean Yves KIOYE (UMRF, INRAE)


Date
15 nov. 2024

Résumé : Les méthodes de sélection de variables sont nécessaires en modélisation statistique pour identifier et inclure uniquement les prédicteurs les plus pertinents, facilitant ainsi l’interprétabilité du modèle. Ces méthodes sont généralement utilisées dans les modèles de régression, comme c’est le cas dans ce travail pour le modèle de Poisson Log-Normal (PLN, Chiquet et al., 2021). Ce modèle vise à expliquer des données de comptage multivariées en utilisant des variables explicatives, et son utilité a été démontrée dans des domaines scientifiques tels que l’écologie et l’agronomie. Dans le cas du modèle Poisson Log-Normal (PLN), les travaux les plus récents se concentrent sur l’inférence de réseaux parcimonieux en combinant une borne inférieure de la vraisemblance avec une pénalisation L1 appliquée à la matrice de précision. Dans ce travail, nous proposons de nous appuyer sur une méthode de pénalisation récente (SIC, O’Neill and Burke, 2023), qui consiste à approcher de manière lisse la pénalisation L0 et qui évite la calibration d’un paramètre de régularisation par une procédure de validation croisée. De plus, ce travail se concentre sur la matrice des coefficients du modèle PLN et propose une procédure d’inférence qui assure une sélection efficace des variables. Ainsi, le modèle ajusté obtenu explique les données de comptage multivariées en utilisant exclusivement les variables explicatives pertinentes. Notre approche consiste à mettre en œuvre une procédure qui combine l’algorithme de pénalisation SIC (ε-telescoping) et l’algorithme d’ajustement du modèle PLN (un algorithme EM variationnel). Pour appuyer notre approche, nous fournissons des interprétations sur la méthode de pénalisation et réalisons des études de simulation pour évaluer la méthode, qui est également appliquée sur des ensembles de données réels.