List of past seminars

De MIAT INRA
Aller à : navigation, rechercher

Sommaire

2020-2021

25/12/2020 et 01/12/0202 : Pas de séminaire (vacances scolaires)

18/12/2020 : De l’aide à la décision à l’aide à la réflexion, un glissement paradigmatique… Franck Taillandier (INRAE/RECOVER)

Résumé : Décider est une préoccupation partagée par tous les domaines d’application ; l’étudier, accompagner les gens vers de bons choix est une préoccupation majeure, hier comme aujourd’hui. La recherche scientifique a ainsi investi le champ de l’aide à la décision sous de multiples angles, du plus théorique au plus appliqué. Cela offre un corpus d’une richesse rare et un panel d’outils propres à répondre à de nombreuses problématiques. Mais cela ne va pas sans soulever de questions… Est-on toujours sûr d’utiliser ces outils à bon escient ? Qu’est-ce qu’une bonne décision ou qu’une bonne démarche d’aide à la décision ? D’ailleurs, qu’entend-on par « aide » à la décision ? Ce séminaire n’aura pas vocation à vous apporter toutes les réponses, mais fidèle à la démarche que je prône, à vous faire réfléchir quant à ces questions…

11/12/2020 : Analyse de données spectroscopiques par clustering de variables et réduction de dimension interprétables Rebecca Marion (UCLouvain - Belgique) diaporama

Résumé : En métabolomique, la spectroscopie par résonance magnétique nucléaire (RMN) est un moyen courant de quantifier les concentrations de métabolites. Les spectres RMN sont très reproductibles, ce qui implique que la plupart des variations entre les spectres représentent des différences biologiques entre les échantillons. De plus, comme la spectroscopie RMN peut quantifier des molécules connues et inconnues, elle est particulièrement utile pour identifier et caractériser de nouveaux composés, ce qui en fait une plate-forme importante pour la découverte de biomarqueurs. L'identification des biomarqueurs dans un spectre RMN se résume à l'identification des groupes de variables ou des régions spectrales qui prédisent le mieux le résultat biologique qui nous intéresse. Dans ce séminaire, nous présentons notre nouvelle méthode, Adaptive Clustering around Latent Variables (AdaCLV), qui permet d’identifier de tels clusters de variables de façon non-supervisée. AdaCLV s'inspire des méthodes multivariées existantes de la famille Clustering around Latent Variables (CLV), tout en offrant plusieurs avantages clés par rapport à ces méthodes, tels que sa meilleure précision et son interprétabilité, ainsi que de sa robustesse aux changements de valeurs d’hyperparamètres.

04/12/2020 : Journée des doctorants du pôle IMABS : programme

27/11/2020 : Simulation en recherche médicale. Généralités, exemple et problème connexe. Nicolas Savy (IMT) diaporama

Résumé : Un des axes du projet Big Data financé par la Région Occitanie et porté par l’Institut de Mathématiques de Toulouse était une réflexion générale sur la notion de simulation en recherche médicale et sur la pertinence de méthodes de simulation dans ce contexte. Une présentation des fruits de cette réflexion qui soyons honnête à fait émerger plus de problèmes que de solutions, sera présenté dans un première partie. Dans une deuxième partie sera présenté un exemple de modèle à agents développé dans le contexte médico-économique du passage aux génériques des anti retro-viraux. Enfin un des points saillants pour la mise au place de méthodes par simulation en recherche médicale est la calibration des modèles sous-jacents. Si des bases existent elles sont souvent difficiles à exploiter dans un contexte dédié pour des questions d’homogénéité des codages. C’est une question très vaste pour laquelle nous avons développé un début de solution par l’algorithme “OT”. Il s’agit d’un algorithme de recodage de variables basé sur le transport optimal qui sera présenté en troisième partie de cet exposé.

20/11/2020 : Development of decision support systems for application in agronomy. Marko Debeljak (Jožef Stefan Institute, Ljubljana) diaporama

Résumé : Agronomy is increasingly embedded in the broader social and economic context. Its obligations and commitments to meet the objectives of sustainable development goals and ecosystem services are increasing. Due to the rapid development of other fields of research, agronomy is intensively introducing digitisation, which is leading to the accumulation of ever-increasing amounts of data. In parallel with digitisation, extensive informatisation is taking place in agronomy too. It increases the exchange and collection of large amount of knowledge and experiences. Agronomy is in a position where it must make quick and correct decisions about the growing number of problems and expectations of society. Therefore, decision-making in agronomy has become an extremely complex process that can only be managed with an objective scientific approach. Experiences from systems ecology and ecological modelling for the development of decision support systems have proven to be very helpful. The application of methods developed in the field of systems ecology allows us to build a high quality architecture of decision support systems that takes into account the specifics of the agronomic system. The design of a decision support system (DSS) should be a problem driven process. This requires a clear definition and role of all stakeholders which are directly or indirectly involved in the development and application of the DSS. When developing the elements of the DSS structure, the advantages of modern information and computer technology must be used. The structure of the decision models as central elements of the DSS must meet all criteria to ensure their quality and reliability. Decision models must therefore be constructed according to a clearly defined procedure for building ecological models. Any possibility that the DSS might propose wrong decisions that could be the result of a non-functional decision model, must be excluded. In this seminar, I will present the methodology of building decision support systems on three selected cases. The first example is the system for the assessment and management of the risk of surface and groundwater pollution with pesticides, which we developed for ARVALIS - Institut du végétal, France. Another example is the DSS for the simultaneous assessment of five soil functions, which we developed in the H2020 project LANDMARK. The third system, which is still under development, will assess the sustainability of the agronomic value chain based on legumes. We are developing it as part of the H2020 project TRUE. In all systems, the method DEX is used to build qualitative multi-attribute decision models. We complement the existing agricultural expertise with knowledge obtained from data mining. All three decision support systems interact with the users via internet interfaces.

13/11/2020 : Conception et mise en œuvre d’un système modulaire de mini-bioréacteurs pour la culture continue de microorganismes. Cyprien Guérin (Inrae, MaIAGE)

Résumé : Les systèmes de culture continue en bioréacteurs restent, malgré leur intérêt, peu utilisés dans les laboratoires de microbiologie. L’objectif de ce projet de thèse est de faciliter leur mise en œuvre en proposant un nouveau système modulaire de mini-bioréacteurs pilotés par ordinateur en s’appuyant sur les opportunités offertes par l’essor des technologies de fabrication numérique et des microcontrôleurs programmables. Les volumes de culture visés sont de l’ordre de 5 à 10 mL afin de permettre des plans d’expériences complexes pouvant impliquer de nombreux bioréacteurs (en parallèle, en cascade, avec suivi et contrôle en temps réel, ...). Comme preuves de concept, plusieurs applications chez la bactérie Gram-positive Bacillus subtilis sont envisagées aussi bien dans des contextes d’évolution expérimentale et dirigée que pour des études physiologiques s’appuyant sur de la comparaison de transcriptomes.

06/11/2020 : ComMod une posture ! Etienne Delay (CIRAD, GREEN) diaporama

Résumé : Les modèles multi-agents et les jeux de rôles sont des outils de représentation et de simulation du fonctionnement des socio-écosystèmes qui aident à franchir les frontières disciplinaires pour étudier les processus de coordination entre acteurs et de décision collective. Depuis 20 ans l'UPR GREEN au CIRAD les utilisons dans le cadre d’une approche qualifiée de « modélisation d'accompagnement » (companion modeling approach). Cette présentation sera l'occasion de présenter la construction méthodologique de l'approche et ses évolutions à travers mes yeux de « dernier recruté » dans l'unité GREEN. Une occasion de raccrocher ce travail avec des problématiques de gestion des ressources naturelles, de bien commune, et de liens sociaux.

23-30/10/2020 : Pas de séminaire (vacances scolaires)

16/10/2020 : Estimation of species environmental niches and sampling effort from presence only records and illustration on the Pl@ntNet citizen-science flora data. Christophe Botella (LECA)

Résumé: Naturalist mobile applications have been deployed worldwide in the last years and enabled access to a considerable amount of geolocated species presences records. This novel type of data represents a step forward to address ecological and conservation questions through the use of species distribution models (SDMs). However, in the absence of a sampling protocol, the sampling effort often concentrates on specific locations (cities, riverside walks, etc.) located in specific environments, resulting in estimation biases in SDMs. During my PhD, I studied methods to minimize bias in the estimation of inhomogeneous Poisson point processes (IPP) modelling species habitats preferences. I will present two approaches: (i) pooling occurrences from many species, using them as background points in the IPP and conditions under which it yields unbiased estimates, and (ii) the joint modeling of multiple species densities along with a common sampling effort component. Finally, I will show an illustration on Pl@ntNet's citizen science data over the whole French territory, integrating several hundred plant species and hundreds of thousands of observations over France with a highly biased sampling.

09/10/2020 : Model Exploration in Practice. Romain Reuillon (CNRS, ISC-PIF)

Résumé : The use of simulation models has widely spread in recent years, in various fields of academic research. Models are being developed to represent and try to better understand all kinds of systems: population dynamics, epidemics, transportation systems, macro-scale systems, micro-scale systems, etc. In some scientific areas, models and in silico simulations have become essential to help study in vivo situations.
However, simulation models are necessarily a simplification of reality, and hypotheses have to be made when developing a model. Thus every model can (and needs to?) be questioned: Is it relevant to tackle the research question behind it? How to extract significant knowledge from the model? What kind of dynamics can it exhibit? How does each mechanism of the model impact those dynamics? Is every mechanism really necessary? These are just some of the many questions a model developer has to answer in order to really know and understand his/her model!
This talk focuses on the worldwide zombie epidemic of the past few years. It raises the question of what can modelers say about it, and, it attempts to use model exploration, OpenMOLE (openmole.org) and the associated exploration methodology to build knowledge on this forefront phenomenon.

02/10/2020 : Méthodes mathématiques en écologie. Tri Nguyen-Huu (IRD) (diaporama)

Résumé : Le développement de modèles mathématiques ont permis d'apporter un point de vue neuf sur des questions écologiques d'ordre général ou bien appliquées. Des modèles abstraits permettent de mieux comprendre les processus régissant certains écosystèmes, tandis que des modèles plus descriptifs permettent d'avoir une vision plus quantitative des phénomènes étudiés. Nous présenterons quelques modèles mathématiques issus des systèmes dynamiques (équations différentielles, équations aux différences finies) et nous intéresserons à ce qu'ils peuvent apporter à l'étude de quelques problèmes écologiques, à savoir la dynamique bio-économique des pêcheries, la connectivité d'espèces marines récifales, et la conservation des grands herbivores dans les parcs nationaux du Kenya.

25/09/2020 : Learning with pangenomes. Laurent Jacob (CNRS, LBBE)

Résumé : As the number and variety of sequenced genomes grows, representing them by comparison to a single reference leads to an increasing level of approximation, discarding accessory genes, rearrangements and repeated regions. This problem is particularly acute when studying microbial genomes or metagenomes, and hinders essential statistical tasks such as GWAS or prediction in this context. I will discuss genome representations which are well suited to statistical analysis when genomes are ill-suited to alignment or even assembly.

18/09/2020 : Partager de l'information pour faire face à un virus. Etude de cas en ostréiculture via un modèle multi-agent. Nicolas Paget (CIRAD)

Résumé : Le postulat selon lequel le partage d'information permet de meilleures prises de décisions est fortement ancré. En développant un modèle multi-agent sur la plateforme Cormas, nous avons questionné ce postulat. Depuis quelques années, les ostréiculteurs font face à un virus (os-hv1) au fort taux de létalité. Ce virus n'est que mal connu. Dans le modèle, les agents, de rationalités variées, partagent leurs expériences et en tirent des leçons pour leurs pratiques. Nous étudions alors le type de décision prise par les agents en fonction de scénarios de partage de l'informations et d'hétérogénéité des agents. Les résultats montrent que l'hétérogénéité des agents permet une meilleure exploration de l'espace des possibles et qu'un partage et une interprétation trop radicaux des expériences de chacun à un effet contreproductif. Ce travail a été effectué en thèse. Lors de cette présentation, j'évoquerai aussi des travaux ou pistes de travaux plus récents ou en cours d'initialisation dans l'idée de susciter des collaborations.

11/09/2020 : Thigmoimmunité végétale. Comment la mécanoperception participe à la réponse immunitaire. Adelin Barbacci (LIPM)

Résumé : Les attaques de parasites sont responsables chaque année de pertes de récolte considérables à travers le monde. La recherche de sources génétiques de résistance durable chez les plantes constitue un levier important pour répondre à la demande alimentaire mondiale. Sclerotinia sclerotiorum est le champignon pathogène responsable de la maladie de la pourriture blanche sur plus de 400 espèces végétales, causant plusieurs millions d’euros de pertes de récolte chaque année, notamment sur colza. Comme la majorité des agents pathogènes, S. sclerotiorum utilise la sécrétion de molécules effectrices pour manipuler la physiologie des plantes hôtes et favoriser son développement. La mise en place de la QDR est consécutive à la perception du champignon. Toutefois, contrairement à la résistance gène-pour-gène plus largement étudiée, la QDR mobilise de nombreux réseaux de gènes qui sont encore méconnus et ne sont pas tous spécifiquement dédiés à l’immunité. Or, l'interaction plante-champignon met en jeu des signaux mécaniques importants, intrinsèques à la pénétration des tissus de l’hôte.
Au cours de ces deux dernières années nous avons réussi à montrer que les signaux mécaniques jouent un rôle de premier plan dans la mise en place de la réponse immunitaire et qu’il était possible de moduler fortement le niveau de résistance des plantes grâce à des ondes mécaniques. Ce travail est le fruit d’une collaboration étroite entre des équipes de physique (Aroune Duclos Laboratoire d’Acoustique de l’Université du Mans), de physiologie végétale (Nathalie Leblanc-Fournier INRA PIAF Clermont, Tou-Cheu Xiong INRA BPMP Montpellier) de biologie moléculaire (Adelin Barbacci LIPM) et de modélisation mathématique et informatique (Frédérick Garcia MIAT). C’est également le point de départ de la thèse de Khaoula Hadj-Amor coencadrée par MIAT et le LIPM. L’exposé s’attachera à présenter nos aventures entre mécanoperception, proprioception et réponse immunitaire.

2019-2020

10/07/2020 : Modeling for Sustainabiity. Alexis Drogoul (IRD) (diaporama)

Résumé : Cette présentation a pour objectif de montrer comment un nouveau concept (les Sciences de la Durabilité) est en train de redéfinir une partie de la recherche scientifique menée avec les pays en voie de développement, mais aussi les approches et les pratiques de la modélisation au service de l'aide à la décision publique dans ces pays. Je montre, en prenant appui sur quelques exemples de projets menés au Vietnam par l'IRD et ses partenaires, comment l'interdisciplinarité s'impose peu à peu comme la norme pour aborder les problèmes socio-environnementaux dans une perspective "durable" et comment cette exigence modifie en retour les pratiques et les besoins en termes de modélisation et de simulation: représentation fine du comportement humain, participation des acteurs, construction de ponts entre disciplines.

26/06/2020 : Les modèles basés sur l'allocation de resources: un cadre prometteur pour réconcilier les échelles microscopiques (cellulaires) et macrocopiques (individu) des organismes vivants. Anne Goelzer (INRAE/MaIAGE/BioSys)

Résumé : Mieux comprendre comment un organisme vivant (e.g. une plante) assimile et mobilise ses ressources pour produire de la biomasse, un composé d'intérêt ou pour répondre à différents stress environnementaux est un enjeu majeur en biologie. L'allocation des ressources a d'abord été étudiée chez les organismes supérieurs en utilisant des modèles mathématiques empiriques basés sur la distribution de masse (modèles à compartiments). Depuis une dizaine d'années, de nouveaux modèles basés sur de l'optimisation convexe permettent d'étudier et de prédire l'allocation des ressources entre les processus cellulaires (i.e. aux échelles infra-cellulaires). Ces modèles sont basés sur une décomposition de la cellule en sous-systèmes, où les machines moléculaires, et la fonction de chaque processus cellulaire sont explicitement décrites. Le cadre sous-jacent garantit un bon compromis entre la complexité/tractabilité et la capacité de prédiction du modèle.
Dans cet exposé, j'introduirai rapidement le cadre de modélisation, ainsi que sa validation sur les bactéries. Je présenterai ensuite comment le cadre peut s'étendre aux organismes multi-cellulaires, comme la plante.

19/06/2020 : Sensitivity analysis with generalized chaos expansion. Olivier Roustant (INSA/IMT)

Résumé : cf Project Eclid. The so-called polynomial chaos expansion is widely used in computer experiments. For example, it is a powerful tool to estimate Sobol’ sensitivity indices. In this paper, we consider generalized chaos expansions built on general tensor Hilbert basis. In this frame, we revisit the computation of the Sobol’ indices with Parseval equalities and give general lower bounds for these indices obtained by truncation. The case of the eigenfunctions system associated with a Poincaré differential operator leads to lower bounds involving the derivatives of the analyzed function and provides an efficient tool for variable screening. These lower bounds are put in action both on toy and real life models demonstrating their accuracy.

05/06/2020 : Apports de l'informatique et de la fouille de données à l'agriculture. David-Camilo Corrales-Munoz (AGIR, VASCO) (diaporama)

Résumé : Les acteurs du monde agricoles doivent prendre quotidiennement de très nombreuses décisions de tous ordres. Une question essentielle est l'estimation précise des rendements des cultures. L’informatique et la science des données, en particulier la fouille de données, contribuent fortement à l’aide à la décision. Dans cette présentation, différentes études de cas mobilisant la fouille de données appliquée à l'agronomie seront présentées. Par ailleurs, différentes approches d'intelligence artificielle potentiellement utiles à l’agriculture seront également abordées.

Supprimé pour cause de COVID : Approches “deep learning” pour la prédiction d’interactions protéine-protéine. Guillaume Lamoureux (Rutgers University)

Résumé : Pour comprendre les détails moléculaires d'un processus biologique, il faut généralement connaître la structure tridimensionnelle d’un grand nombre de complexes protéine-ligand et protéine-protéine. Comme très peu de ces structures sont connues expérimentalement, il est habituellement nécessaire de les prédire à l’aide de méthodes computationnelles dont la fiabilité et la transférabilité restent à améliorer.
Je présenterai nos récents travaux axés sur le développement de modèles “deep learning” reliant séquence, structure, et fonction de protéines. Suivant une approche unifiée dite “end-to-end”, ces modèles visent à découvrir de nouvelles représentations moléculaires utiles à la fois pour prédire la fonction d’une protéine à partir de sa structure, et la structure d’une protéine à partir de sa séquence. Bien que nos intérêts actuels portent sur la prédiction de structure de protéines et d'interactions protéine-protéine, les modèles développés sont généralisables à toute autre classe de biomolécules.

13/03/2020 : Inférence de réseaux de régulation de gènes à partir de données transcriptomiques et génomiques d'hybrides de tournesol. Lise Pomiès (MIAT)

Résumé : Dans le cadre du projet SUNRISE, nous étudions la réponse du tournesol à la sécheresse combinée au phénomène d'hétérosis. Pour cela, nous disposons, pour un pool de 350 hybrides de tournesol, de l'expression de 180 gènes impliqués dans l'hétérosis et/ou la sécheresse ainsi que des SNP présents sur ces différents hybrides. Nous avons créés différents jeux de données artificiels possédant des caractéristiques biologiques proches de notre jeux de données mesuré afin de trouver la méthode d'inférence la mieux adaptée. Cette méthode a ensuite été appliquée sur les données mesurées.

06/03/2020 : Inférence démographique en génétique des populations : comment tenir compte de la structure ? Olivier Mazet (Institut de Mathématiques de Toulouse)

Résumé : Après un rappel des modèles mathématiques issus du coalescent de Kingman, je présenterai quelques méthodes d'inférence démographique devenues classiques (PSMC, MSMS), leurs limites pour ce qui est de l'hypothèse de structuration de la population, et nos dernières avancées pour tenter de dépasser ces limites.

Pas de séminaire le 28 février (Journée IA & Agriculture)

Pas de séminaire le 14 et le 21 février (vacances scolaires)

07/02/2020 : Favoriser la ré-utilisations de données publiques en transcriptomique et épigénomique par des visualisations interactives. Guillaume Devailly (GenPhySE)

Résumé : Un neurone, un adipocyte et une cellule du foie partagent le même génome et sont issu de la même cellule œuf, mais présentent des aspects radicalement différents. Ces différences résultent d’une expression différentielle des gènes dans chaque type cellulaire, mise en place par la combinaison de signaux extérieurs à la cellule (environnement, signalisation hormonale, métabolites circulants, etc.) et par le remodelage de la chromatine en domaines favorisant ou défavorisant l’expression de tels ou tels gènes.
L’étude de la transcription et de l’épigénome des différents types cellulaire a abouti à la production massive de données de séquençage haut-débit par des consortiums internationaux (ENCODE, Roadmap Epigenomics, FAANG, etc.) et de multiples laboratoires. De nombreux jeux de données sont disponibles publiquement, mais les données sont lourdes, complexes à analyser, et très sensibles à différents biais expérimentaux et d’analyses, ce qui décourage leur réutilisation.
Nous avons commencé à offrir des visualisations interactives de données publiquement disponibles au travers d’applications web : http://www.heatstarseq.roslin.ed.ac.uk/ (matrices de corrélations entre expériences) et https://joshiweb.cbu.uib.no/perepigenomics_app/ (liens entre marques épigénétique et régulation de la transcription) et allons proposer d’offrir directement de genre de visualisations sur le portail de données FAANG dans le cadre du projet VizFaDa.

31/01/2020 : A GDEC-MIAT collaboration on ncRNA annotation on wheat CNSs region - the FR5BS project. Philippe Leroy (GDEC)

Résumé : Wheat (Triticum aestivum L.) is the most widely cultivated crop on Earth, an important crop contributing about a fifth of the total calories consumed by humans. Consequently, wheat yields and production affect the global economy, and failed harvests can lead to social unrest (IWGSC Science (2018) 361:661). The first coordinated efforts towards obtaining a reference wheat genome date to 2005, when the International Wheat Genome Sequencing Consortium (IWGSC) was established (Tulpova et al. (2019) New BIOTECHNOLOGY 48:12–19). Fortunately, since August 2018, the IWGSC RefSeq v1.0 assembly of pseudomolecules provided a high-quality linear assembly of each chromosome from one terminal region through the centromere to the other terminal region in the form of 70 to 80 super-scaffolds per chromosome (Keeble-Gagnère et al. Genome Biology (2018) 19:112). Consequently, the IWGSC data repository, URGI (INRA research unit in genomics and bioinformatics dedicated to plants and crop parasites) provides tools and browsers to explore wheat genomics data and the IWGSC RefSeq v1.0 assembly. Furthermore, the RefSeq v2.0 assembly is now available to download at INRA URGI since July 2019 (https://wheat-urgi.versailles.inra.fr/Seq-Repository/Assemblies. Moreover, very recently, the 10+ Wheat Genome Project (http://www.10wheatgenomes.com) has released several more wheat new genome reference sequences that can be download from this site: https://webblast.ipk-gatersleben.de/wheat_ten_genomes/.
Therefore, we have nowadays a huge amount of resources to study wheat genome structure and dynamic evolution. In this context, the WheatOMICS project (https://www.france-genomique.org/projet/wheatomics/) aims at harnessing the latest NGS technologies to unravel the genomic-transcriptomic-epigenomic variations (DNA-seq, RNA-seq, ChIP-Seq, BS-seq) driving phenotypic response to biotic and abiotic constraints on five important genotypes (Chinese Spring, Renan, Recital, Courtot, Apache) for the research groups of the INRAE GDEC Unit, in France. These researches will deliver new highly strategic knowledge as key regulators to improve current wheat pre-breeding scheme for key agronomical traits. Furthermore, one of this genotype (Renan) has been selected to produce a new high quality reference genome sequence based on long-reads sequence data and optical maps (BioNano). Since we may have in the future new wheat genome assemblies to assess, we have proposed with NAAC through an INRA-NARO 2019 bilateral call, to build a “Plant Automatic Assembly Pipeline” (PAAP) aiming at providing a preliminary sequence assembly of long reads (PacBio sequel) and optical map (Bionano Saphyr) data (alternatively including 10x and Hi-C data when available). The ultimate goal would be to link PAAP with the TriAnnot structural and functional automatic annotation pipeline (Leroy et al. (2012) Frontiers in Plant Sciences 3:1-14) developed few years ago with NAAC (NIAS at this time). All these data, tools and projects will be valorized to study an important ~2 Mb region (5BSFR) of the wheat chromosome 5BS carrying a gene (Skr) responsible of cross incompatibility between wheat and rye, and other genes controlling important wheat traits. A precise manual curated analysis will be carried out across all genomes 5BSFR available in term of genes, Transposable Elements (TEs) and ncRNA in collaboration with several INRA and international research teams. We will present the new GDEC research scheme, and described the ongoing results obtained so far within the wheatOMICS project with a focus on the Skr project lead by Pierre Sourdille at INRA GDEC. Highlight will be also presented within our new bioinformatics team lead by Frederic Choulet.

Pas de séminaire le 24 janvier (vœux de la présidence du centre)

17/01/2020 : Exceptionnellement à 11h Enhancing robots autonomy through sequential decision making : from robust perception and mission planning to mixed-initiative human-robot(s) interaction. Caroline Chanel (ISAE, DCAS)

Résumé : Missions involving humans interacting with automated systems become increasingly common. On one hand, the use of automated planning for artificial agents actions has been amplified by the recent technical advances in artificial intelligence and machine learning, encouraging human supervision of such automated systems. It may includes efficient perception or path planning for autonomous vehicles in cluttered environments under uncertainty. On another hand, due to the non-deterministic behavior of the human and possibly high risk of failing due to human factors, such an integrated system should react smartly by adapting its behavior when necessary. Due to the increase of the decision autonomy of artificial agents, the role of the human operator is reduced regarding direct control, and concentrated on higher level decisions, that are not automated for practical, ethical or legal reasons. However, human operators are still vital in numerous scenarios because they are able to produce tactical, moral, social and ethical decisions. This drastic change of the human operator role, in favor of system’s autonomy, results in a new paradigm also known as mixed-initiative. Mixed-initiative human-robot interaction considers human operators and artificial agents as a team, in which each agent can seize the initiative from the other. From the human operator’s point of view it is not always bearable or acceptable that such an artificial system could seize the initiative, except if human cognitive capabilities or human performance are degraded. In this context, this talk will present our current research on those topics, ranging from perception and mission planning scenarios, in-situ and online human-robot interaction experiments, and methods to predict human operators decisions and performance, methods to learn the interaction model of a mixed-initiative human-robot(s) mission, to finally treat mixed-initiative AI methods to drive human-robot(s) interactions.

10/01/2020 : Méthodes régularisées pour l’analyse de données multivariées en grande dimension: théorie et applications. Marie Perrot-Dockes (MIA Paris)

Résumé : Dans cette présentations nous nous intéressons au modèle linéaire général (modèle linéaire multivarié) en grande dimension. Nous proposons un nouvel estimateur parcimonieux des coefficients de ce modèle qui prend en compte la dépendance qui peut exister entre les différentes réponses. Cet estimateur est obtenu en estimant dans un premier temps la matrice de covariance des réponses puis en incluant cette matrice de covariance dans un critère Lasso. Les propriétés théoriques de cet estimateur sont étudiées lorsque le nombre de réponses peut tendre vers l’infini plus vite que la taille de l’échantillon. Plus précisément, nous proposons des conditions générales que doivent satisfaire les estimateurs de la matrice de covariance et de son inverse pour obtenir la consistance en signe des coefficients. Nous avons ensuite mis en place des méthodes, adaptées à la grande dimension, pour l’estimation de matrices de covariance qui sont supposées être des matrices de Toeplitz ou des matrices avec une structure par blocs, pas nécessairement diagonaux. Ces différentes méthodes ont enfin été appliquées à des problématiques de métabolomique, de protéomique et d’immunologie.

Pas de séminaire le 27 décembre et le 3 janvier (vacances scolaires)

Pas de séminaire le 20 décembre : Soutenance de thèse de Léonard Torossian à l'IMT le mardi 17 décembre à 13h30

13/12/2019  : T'ouIST: a friendly language for propositional logic and more, application to planning with SAT or QBF solversFrédéric Maris (UMR IRIT, Université Toulouse III)

Résumé : we present the automatic translator TouIST that allows us to use a simple language to generate logical formulas from a problem description. Our tool allows us to model many static or dynamic combinatorial problems as Sudoku, Takuzu or Nim game, and to benefit from the regular improvements to SAT, QBF or SMT solvers to solve them efficiently. We present reference encodings to solve classical planning problems with SAT and QBF solvers and show how to use TouIST to solve such planning problems. Finally, we may show how to encode with TouIST some combinatorial problems given by the audience.

Pas de séminaire le 6 décembre : Chromosome Conformation Symposium (4-5 décembre) et Journée AIGM (5 décembre)

29/11/2019  : Contributions to probabilistic non-negative matrix factorization - Maximum marginal likelihood estimation and Markovian temporal models. Louis Filstroff (UMR IRIT) diaporama

Résumé : Non-negative matrix factorization (NMF) has become a popular dimensionality reduction technique, and has found applications in many different fields, such as audio signal processing, hyperspectral imaging, or recommender systems. In its simplest form, NMF aims at finding an approximation of a non-negative data matrix (i.e., with non-negative entries) as the product of two non-negative matrices, called the factors. One of these two matrices can be interpreted as a dictionary of characteristic patterns of the data, and the other one as activation coefficients of these patterns. This low-rank approximation is traditionally retrieved by optimizing a measure of fit between the data matrix and its approximation. As it turns out, for many choices of measures of fit, the problem can be shown to be equivalent to the joint maximum likelihood estimation of the factors under a certain statistical model describing the data. This leads us to an alternative paradigm for NMF, where the learning task revolves around probabilistic models whose observation density is parametrized by the product of non-negative factors. This general framework, coined probabilistic NMF, encompasses many well-known latent variable models of the literature, such as models for count data.
In this talk, we consider specific probabilistic NMF models in which a prior distribution is assumed on the activation coefficients, but the dictionary remains a deterministic variable. The objective is then to maximize the marginal likelihood in these semi-Bayesian NMF models, i.e., the integrated joint likelihood over the activation coefficients. This amounts to learning the dictionary only; the activation coefficients may be inferred in a second step if necessary. We proceed to study in greater depth the properties of this estimation process. In particular, two scenarios are considered. In the first one, we assume the independence of the activation coefficients sample-wise. Previous experimental work showed that dictionaries learned with this approach exhibited a tendency to automatically regularize the number of components, a favorable property which was left unexplained. In the second one, we lift this standard assumption, and consider instead Markov structures to add statistical correlation to the model, in order to better analyze temporal data.

22/11/2019  : Critical points of Gaussian isotropic random fields. Céline Delmas (GenPhySE, MIAT)

Résumé : Let X = {X(t) : t in RN} be an isotropic Gaussian random field with real values. In a first part we study the mean number of critical points of X with index k, above a level, using random matrices tools. We obtain an exact expression for the probability density of the eigenvalue of rank k of a N-GOE matrix. We deduce exact expressions for the mean number of critical points with a given index and their distribution as a function of their index. In a second part we study attraction or repulsion between these critical points again as a function of their index. A measure is the correlation function. We prove attraction between critical points when N>2, neutrality for N=2 and repulsion for N=1. We prove that the attraction between critical points that occurs when the dimension is greater than 2 is due to attraction between critical points with adjacent indexes. We prove a strong repulsion between maxima and minima and we study the correlation function between maxima (or minima).

15/11/2019 : How to Lie With Graphics. Christophe Bontemps (GREMAQ) (diaporama, site Web)

Résumé : We use and read data visualizations (dataviz) in our everyday lives as researchers, engineers, and citizens. Most of the time, our goal is to visually test some basic hypotheses either while exploring datasets or for presenting some findings. These dataviz also serve to convince people and ourselves that some hypotheses are valid. But what if these convincing graphics were lies? Many graphics convey information that could be misleading, by mistake, misuse or on purpose. I propose a short tutorial to visual fallacies and lies. My goal here is not to encourage cheating and lying, but on the contrary to highlight the techniques used to elaborate misleading data visualizations. This introduction should help researchers, and decision makers to distinguish visual lies from unambiguous and consistent graphics.

8/11/2019 : Modélisation multi-agent et intégration culture-élevage dans les territoires. Myriam Grillot (INRA, AGIR)

Résumé : Les interactions entre cultures et élevage peuvent être modélisées par l'intermédiaire de modèle multi-agents. Dans un contexte agro-sylvo-pastoral au Sénégal, un modèle de ce type a été développé et implémenté (plateforme de modélisation GAMA) pour répondre à des questions relatives aux impacts des changements dans l’organisation du paysage et des systèmes d’élevage sur les flux de biomasse et d’azote. Différents niveaux d’organisation du territoire son pris en compte : la parcelle, le troupeau, le ménage et le terroir villageois. Quelles réflexions pour des utilisations de tels modèles et sur le travail sur l'interaction culture-élevage dans les territoires en France ?

Pas de séminaire le 25 octobre et le 1er novembre (vacances scolaires)

18/10/2019 : Distribution "Dirichlet-Multinomiale" et modèles neutres: une hypothèse nulle pour l'analyse de données de biodiversité. Fabien Laroche (Unité EFNO, IRSTEA)

Résumé : L'écologie des communautés vise à comprendre comment les conditions environnementales et les interactions entre organismes génèrent la diversité des espèces, phénotypes et génotypes que l'on observe dans les écosystèmes. Sur des systèmes naturels ou semi-naturels en conditions non-contrôlées, une approche possible consiste en la mise en œuvre de tests statistiques sur des échantillonnages spatiaux d'individus, afin de détecter une contribution significative de processus écologiques ciblés, facteurs environnementaux ou interactions. Dans cet exposé, je propose d'illustrer comment la théorie neutre de la biodiversité - qui suppose une équivalence écologique des espèces - peut fournir un cadre de test général et une hypothèse nulle, la distribution Dirichlet-Multinomiale, à même de compléter voire corriger les méthodes plus classiques à base de permutation de données ou de rééchantillonnage.

11/10/2019 : Copules et tests non-paramétriques de détection de rupture dans la dépendance entre les composantes d'observations multivariées. Tom Rohmer (GenPhySE)

Résumé : L'étude des copules est un phénomène relativement récent et en plein essor. Ces dernières permettent notamment de caractériser la dépendance entre les différentes composantes de données multivariées. Elles sont ainsi utilisées dans de nombreuses applications, que ce soit en hydrologie, finance ou encore en génétique. Si l'on considère un vecteur aléatoire (v.a.) dont les marges sont continues, le théorème de Sklar affirme qu'il existe une unique fonction "copule", caractérisant la structure de dépendance du v.a., telle que la donnée de la copule et des fonctions de répartitions marginales caractérisent la loi du vecteur aléatoire. Dans la littérature, on retrouvera un certain nombre de tests non-paramétriques de détection de rupture dans la distribution d'observations multivariées. Cependant, ces tests se révèlent souvent très peu sensibles pour détecter un changement dans la dépendance entre les composantes des v.a. Je présenterai dans cet exposé un test non paramétrique basé sur le processus de copule empirique séquentiel (approche CUSUM) et sur un rééchantillonage à base de multiplicateurs. Ce test se révèle particulièrement sensible à un changement dans la copule lorsque les lois marginales sont inchangées, et s'adapte à des données sériellement dépendantes (strong mixing). Ce test ne permet pas de conclure en une rupture dans la copule en présence de changement dans les lois marginales. Il est néanmoins possible d'adapter les procédures pour prendre en compte ces potentiels changements. J'illustrerai ces travaux à l'aide d'exemple sur des données et des simulations de Monte Carlo sur des classes d'alternatives pertinentes. Pour finir je présenterai quelques-unes de mes perspectives de recherche à l'Inra qui pourront s'appuyer sur cette recherche.

Pas de séminaire le 4 octobre (Journée Bioinfo/biostat)

27/09/2019 : Effondrement : et si on en parlait vraiment ? Quelles perspectives pour nos recherche ? Marc Deconchat (Dynafor) diaporama image supplémentaire

Résumé : Que l’on parvienne ou non à prendre les mesures requises pour faire face aux changements globaux, cela aboutira quasi inévitablement à des changements si profonds de nos sociétés et modes de vie qu’on peut parler de leur effondrement. Cela concernera bien évidemment et plus particulièrement les activités agricoles et d’usage des ressources naturelles, et cela nous concerne donc dans nos recherches. Pourtant, avons-nous bien pris la mesure de ce que cela signifie ? Pour P Servigne et ses co-auteurs ce n’est pas le cas car les implications seraient trop désespérantes et nous refuserions de nous y confronter. Si vous êtes prêts à en discuter, ce séminaire sera l’occasion de partager une vue d’ensemble de la Collapsologie, qui s’intéresse à ce phénomène particulier que serait un effondrement général, sans prétention d’en faire le tour. Les débats, car il y en aura sans doute tant le sujet est polémique, seront orientés vers les questions de recherche que nous posent ces perspectives.
Autres références: http://www.labos1point5.org et https://pabloservigne.com/

20/09/2019 : Component-wise approximate Bayesian computation via Gibbs-like steps. Julien Stoehr (CEREMADE)

Résumé : Approximate Bayesian computation methods are useful for generative models with intractable likelihoods. These methods are however sensitive to the dimension of the parameter space, requiring exponentially increasing resources as this dimension grows. To tackle this difficulty, we explore a Gibbs version of the ABC approach that runs component-wise approximate Bayesian computation steps aimed at the corresponding conditional posterior distributions, and based on summary statistics of reduced dimensions. While lacking the standard justifications for the Gibbs sampler, the resulting Markov chain is shown to converge in distribution under some partial independence conditions. The associated stationary distribution can further be shown to be close to the true posterior distribution and some hierarchical versions of the proposed mechanism enjoy a closed form limiting distribution. Experiments also demonstrate the gain in efficiency brought by the Gibbs version over the standard solution.
Référence : arxiv.org/abs/1905.13599

13/09/2019 : Impact of tree choice in metagenomics differential abundance studies. Antoine Bichat (LaMME - Enterome)

Résumé : We consider the problem of incorporating evolutionary information (e.g. taxonomic or phylogenic trees) in the context of metagenomics differential analysis. Recent results published in the literature propose different ways to leverage the tree structure to increase the detection rate of differentially abundant taxa. Here, we propose instead to use a different hierachical structure, in the form of a correlation-based tree, as it may capture the structure of the data better than the phylogeny. We first show that the correlation tree and the phylogeny are significantly different before turning to the impact of tree choice on detection rates. Using synthetic data, we show that the tree does have an impact: smoothing p-values according to the phylogeny leads to equal or inferior rates as smoothing according to the correlation tree. However, both trees are outperformed by the classical, non hierachical, Benjamini-Hochberg (BH) procedure in terms of detection rates. Other procedures may use the hierachical structure with profit but do not control the False Discovery Rate (FDR) a priori and remain inferior to a classical Benjamini-Hochberg procedure with the same nominal FDR. On real datasets, no hierarchical procedure had significantly higher detection rate that BH. Although intuition advocates the use of a hierachical structure, be it the phylogeny or the correlation tree, to increase the detection rate in microbiome studies, current hierachical procedures are still inferior to non hierachical ones and effective procedures remain to be invented.

2018-2019

28/06/2019 : Agent-based modelling of cancer cell proliferation. Sylvain Cussat-Blanc (UT1, IRIT)

Résumé : Created in 2016 and hosted at ITAV, the Onko3D project-team aims at simulating cancer cell proliferation, mostly in a multicellular tumor spheroid study case. In collaboration with the IP3D team (ITAV), we are developing an agent-based simulation of these 3D structures with the aim to fully understand the impact of environmental conditions on the spheroid regionalisation and propose new strategies to improve therapeutical protocols of tumors. We are also using agent-based modelling to simulate the interaction between the immune system (CTL) and cancer cells in collaboration with Valitutti’s Team at CRCT. This talk will present both projects and their results.

21/06/2019 : Journée des stagiaires

  Stagiaire Encadrant Intitulé de stage
9h15-9h30 Mohamed Anwar Abouabdallah Nathalie Peyrard Modèle à blocs stochastiques pour la caractérisation de la biodiversité
9h30-9h45 Abdelkader Beldjilali Simon de Givry, David Allouche Parallélisation d'une recherche arborescente hybride et partielle
9h45-10h Loukas Benazet Stéphane Couture Vers une gestion multicritère et spatiale d'une forêt en contexte risqué
10h-10h15 Auxane Calmont Lise Pomies, Simon De Givry Validation de réseaux de régulation de gènes par recherche de motifs
10h15-10h30 Lycia Fezzoua Ronan Trépos, Laurence Puillet Automatisation d’un algorithme de phénotypage de trajectoires biologiques en élevage
10h30-10h45 Camille Guilmineau Nathalie Vialaneix, Laurence Liaubet, Gaëlle Lefort, Rémi Servien Analyse et intégration de données métabolomiques avec ASICS
10h45-11h --- Pause ---
11h-11h15 Cyril Kurylo Matthias Zytnicki, Sylvain Foissac Evaluation et conception de méthodes bioinformatiques d'analyses de données Hi-C
11h15-11h30 Thyphaine Madelaine Stéphane Couture Exploration du processus de décision dans les chois techniques de maïsiculture agroécologique
11h30-11h45 Sylvain Mesplou Frédérick Garcia Electro-acoustique des plantes
11h45-12h Alexandre Schiavinato Régis Sabbadin Jeux difficiles : Algorithmique des calculs d'équilibre dans les jeux hypergraphique et les jeux bayesiens
12h-12h15 Joévin Testi Magali San Cristobal, Michel Goulard Exploration de méthodes statistiques multi-tableaux pour l’agro-écologie

14/06/2019 : ASICS : identifier et quantifier des métabolites à partir d’un spectre RMN 1H. Gaëlle Lefort (MIAT).

Résumé : La résonance magnétique nucléaire du proton ( 1H-RMN) est une technologie haut-débit permettant d’obtenir des profils métaboliques, sous forme de spectres, à un coût relativement faible. C’est un outil prometteur pour détecter des biomarqueurs facilement mesurables. Cependant, les métabolites présents dans un mélange complexe ne sont pas identifiables et quantifiables directement, ce qui limite l’interprétabilité de ces approches. Pour faciliter l’utilisation de ces données, nous avons développé une méthode d’analyse automatique, encapsulée dans un nouveau package R/Bioconductor, ASICS, qui permet l’identification et la quantification globale et automatique des métabolites dans un spectre RMN. Le package permet d’enchaı̂ner facilement toutes les étapes de l’analyse (pré-traitements, quantification, outils de diagnostic pour juger de la qualité des quantifications, analyses statistiques post-quantification). La méthode de quantification, préexistante (Tardivel et al., 2017), a été testée sur un jeu de données réel (ANR PORCINET). Le but était de juger des performances de la méthode comparativement à celles existantes et de l’améliorer grâce à un paramétrage plus fin. De plus, je présenterais des méthodes permettant de faire de l'alignement de spectres, étape nécessaire avant de faire de la quantification.

07/06/2019 : Analyse du Cycle de Vie (ACV) Territoriale : principes, limites et perspectives. Eléonore Loiseau (IRSTEA, ITAP).

Résumé : L’Analyse du Cycle de Vie (ACV) est un outil d’évaluation environnementale normalisé (ISO 14044) et largement utilisé à travers le monde dans la sphère publique et privée à des fins d’éco-conception et d’affiche environnemental. L’ACV a été initialement conçue pour évaluer les performances d’un produit / service sur la base d’un inventaire détaillé de tous les polluants émis dans l’eau, l’air et les sols ainsi que de toutes les ressources naturelles consommées au cours de son cycle de vie (de l’extraction des matières premières, à leur transformation, à l’usage du produit et la gestion de sa fin de vie). Cet inventaire permet de calculer un panel d’impacts environnementaux (12 à 18) qui peuvent être agrégés en 3 indicateurs de dommages sur la santé humaine, la qualité des écosystèmes et l’épuisement des ressources. Ces impacts sont rapportés à une unité de service rendu. Des développements récents ont été formulés pour adapter le cadre méthodologique de l’ACV à l’évaluation de systèmes à des échelles intermédiaires comme les territoires. L’objet de cette présentation est de décrire les grands principes de l’ACV territoriale en termes de définitions de services rendus, périmètre du système, collecte des données, et quantification des impacts environnementaux, et de discuter l’intérêt, les limites et les perspectives de cette approche à travers des exemples d’applications. 

31/06/2019 : Pas de séminaire (pont)

24/05/2019 : Optimisation sous contraintes distribuée : modèles, algorithmes et applicationsGauthier Picard (Ecole Nationale Supérieure des Mines de Saint-Etienne, Laboratoire Hubert Curien)

Résumé : Le raisonnement sous contraintes est une des techniques majeures en intelligence artificielle et en recherche opérationnelle, pour modéliser des problèmes de décision et concevoir des méthodes de résolution efficaces. Sa déclinaison distribuée, le raisonnement sous contraintes distribué (DCR) est un outil puissant pour mettre œuvre des décisions coopératives dans le cadre des systèmes multi-agents. De tels problèmes se déclinent en (i) des problèmes de satisfaction de contraintes (DisCSP) où l'on recherche une solution satisfaisant toutes les contraintes et en (ii) des problèmes d'optimisation sous contraintes (DCOP) où l'on recherche une solution minimisant un coût global induit par les contraintes. Cette présentation se focalise sur le cas des DCOP, qui ont démontré leur forte applicabilité à des problèmes réels. Nous présenterons les principales familles de méthodes de résolution, ainsi que des exemples d'applications. Nous nous concentrerons également sur deux techniques pour améliorer et mettre en œuvre de tels méthodes : la résilience et la décimation.

17/05/2019 : Séminaire IMABS - salle de conférence Marc Ridet & retransmit en visio-conférence à Saint Martin

Anne Siegel (Univ Rennes, Inria, CNRS, IRISA Dyliss team) : Reasoning-based systems for the study of large-scale metabolic networks and microbiomes.

Résumé : Systems modeled in the context of molecular and cellular biology are highly difficult to model in a unique way. In this context, we will describe how several approaches based on reasoning allow the systems to be identified, validated, improved and finally studied despite lacks of data. To that goal, we rely on Answer Set Programming, a paradigm of logical programming. We will illustrate this approach on the reconstruction and study of genome-scale metabolic network with an application to the reduction of microbiomes according to expected metabolic phenotypes.

Vincent FROMION (Inra, MaIAGE, BioSys) : Titre à venir

Résumé : À venir


10/05/2019 : Séminaire des doctorants

  • 9h10-9h30   Nathanaël Randriamihamison   Classification hiérarchique sous contrainte de contiguité pour l'analyse de données Hi-C
  • 9h30-9h50   Leo Gerlin   Modélisation métabolique d'une interaction plante-pathogène
  • 9h50-10h10   Cyriel Paris   Détection de locus sous sélection à partir de données génomiques temporelles
  • 10h10-10h30   Leila Khajavi-Ettouati   Régulation transcriptionnelle des lymophocytes T pathogènes dans le cadre d'affections inflammatoire du système nerveux central
  • 10h30-10h50   Céline Bougel   Classification de profils d'évolution des fonctions cognitives
  • 10h50-11h10   Jelena Vucinic   Modèles pour des problèmes de design de proteines multi-états. Modélisation, application et évaluation
  • 11h10-11h30   Pause
  • 11h30-11h50   Fulya Ural   Méthodes exactes pour l'apprentissage de la structure d'un réseau bayésien
  • 11h50-12h10   Sandrine Longis   Apports méthodologiques aux expérimentations système
  • 12h10-12h30   Ivana Aleksovska   Améliorer les prévision à court et moyen termes des modèles agronomiques en prenant mieux en compte l'incertitude des prévisions météorologiques
  • 12h30-12h50   Adrien Lagrange   Cofactorisation de matrices pour le démélange et la classification conjoints d’images hyperspectrales
  • 12h50-13h10   Dennis Best   Wildfire, forest and energy system resilicence: critical drivers and opportunitites in managing for risk, electricity reliability and ecological security
  • 13h10-13h30   Marie-Anne Vedy-Zecchini   Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique.

Pas de séminaire le 26 avril et le 3 mai (vacances scolaires)

19/04/2019 : Markov et le Duché de Savoie: segmentation d'un siècle d'histoire avec des modèles à changements de régime. Madalina Olteanu (Panthéon Sorbonne / MaIAGE)

Résumé : Le temps est au cœur du travail de recherche de l'historien. Pour le statisticien, le temps n'est en général qu'un paramètre ou une variable supplémentaire, que les modèles développés doivent intégrer ou prendre en compte. Ce travail est le fruit d'une collaboration entre historiens et mathématiciens, prenant le temps comme point de départ. Nous étudions une série temporelle particulière, recensant la législation liée à la logistique militaire, émise par le Duché de Savoie pendant les XVIème et XVIIème siècles. Le résultat attendu est une meilleure compréhension de la temporalité et du fonctionnement de l'Etat. A cette fin, plusieurs modèles basés sur des chaines de Markov cachées et prenant en compte les spécificités des données sont introduits. Ils sont ensuite estimés sur les données historiques et fournissent des résultats intéressants, qui soit confirment les hypothèses historiques existantes, soit apportent de nouvelles perspectives sur la période étudiée.

12/04/2019 : Exploring metabolic modulations using genome-scale network modelling and omics data in the context of toxicological studies: application for deciphering metabolic shifts occurring during the differentiation of the human hepatic cell line HepaRG. Nathalie Poupin (INRA Toulouse, Toxalim)

Résumé : Many man-made chemicals present as contaminants in food and/or water are strongly suspected to induce adverse metabolic effects in Human. Liver is the key organ for xenobiotics biotransformation, and the use of metabolically competent cell lines is essential to explore the mechanisms underlying the metabolic effects of these substances. The hepatic cell line HepaRG, which is increasingly used in toxicity studies, has the particularity to differentiate from progenitor to mature hepatocyte-like cells. We combined multi-omics data and in silico methods in order to better characterize the metabolic capacities of this cell line and to explore the metabolic shifts occurring during this differentiation process. We integrated transcriptomic and metabolomic data in the context of the global human genome-scale metabolic network Recon2, which gathers the metabolic reactions the organism can perform and their associated genes, to compute a relevant sub-network, more specifically representing the functional hepatic metabolic network of HepaRG cells at each developmental stages: day 3 (progenitors) and day 30 (differentiated cells). We used a modified version of the iMAT algorithm developed by Shlomi et al. to identify, based on these data, the sub-networks of reactions specifically active in HepaRG cells at each developmental stage. For each stage, we identified several sub-networks of active reactions, having an equivalent adequacy to experimental data. We applied classification analysis methods to explore intra- and inter-stages variability among these sub-networks. We showed that, for each stage, the heterogeneity between sub-networks was mainly caused by the occurrence of several alternative reactions or the relative low contribution of transcriptomic data in some pathways. To better characterize the systemic metabolic capacities of the cells, we chose, contrary to most approaches, to consider the whole set of similarly adequate sub-networks, since it allows taking into account various metabolic alternatives. Through simulations and pathway enrichment analyses, we predicted that differentiated cells would globally be able to perform a larger number of liver-specific functions (e.g., urea production) and we identified several sets of reactions that were differently active between the two stages. These reactions mostly belong to pathways specific to hepatic activity (e.g., bile acid synthesis) but also to fatty acid synthesis and oxidation pathways. About 50% of the predicted modulated reactions were not evidenced from transcriptomic data and were « newly » inferred by the computational models. Globally, we showed that combining in silico methods with omics data enables to characterize global shifts in the developing hepatic metabolic network.

05/04/2019 : Trois outils sur le traitement de données RNA-Seq. Matthias Zytnicki (MIAT)

Résumé : Je vous parlerai de trois outils que j'ai développés (en collaboration) ces dernières années sur le traitement de données (s)RNA-Seq, issues de l'expression de gènes, et de petits ARN. Je présenterai tout d'abord mmquant/mmannot, des outils de quantification de gènes, qui traitent de façon originale les gènes dupliqués. Ensuite, je présenterai srnaDiff, qui tente de trouver les régions de petits ARN différentiellement exprimés, sans connaître a priori les gènes. Enfin, je présenterai srnaMapper, un outil de mapping de petits ARNs.

Séminaire IMABS (salle de conférence Marc Ridet)

29/03/2019 : Gestion durable des résistances dans les paysages agricoles: la modélisation à la rescousse (?). Frédéric Fabre (INRA Bordeaux, SAVE)

Résumé : Le contournement des résistances des plantes par les agents pathogènes met en jeu de nombreuses forces évolutives qui sont en partie contrôlées génétiquement par les plantes et représentent donc des leviers d’action potentiels pour gérer les maladies. Or, ces forces évolutives interagissent entre elles à différentes échelles de temps et d’espace. Il est donc difficile d’appréhender seulement expérimentalement leurs rôles respectifs afin d’orienter les choix des sélectionneurs lors de la création variétale et des agriculteurs lors du déploiement des variétés. Dans ce contexte, la modélisation constitue un outil intégrateur des connaissances acquises sur les interactions entre les structures paysagères et les dynamiques épidémiologiques et évolutives des agents pathogènes. Différentes approches couplant expérimentations sur l’adaptation des virus aux gènes de résistance des plantes et modélisation seront présentées. A l’échelle des plantes hôtes, des travaux estimant l’importance relative de la mutation, de la sélection et de la dérive génétique lors des dynamiques évolutives des populations virales seront présentées (Rousseau et al., 2017). A l’échelle des paysages, l’expérimentation est particulièrement difficile. Aussi, le rôle de ces forces évolutives dans les étapes impliquées dans le contournement des résistances à cette échelle est étudié essentiellement par modélisation. Des travaux comparant les grandes familles de stratégies de déploiement des gènes de résistance (pyramidage, rotation, mosaïques et mélanges variétaux) vis-à-vis de la durabilité des gènes de résistances et de leur efficacité pour réduire l’impact des épidémies seront présentées (Djidjou-Demasse et al, 2017 ; Rimbaud et al., 2018a, 2018b).
Références :
    • Djidjou-Demasse R, Moury B, Fabre F (2017). Mosaics often outperform pyramids: Insights from a model comparing strategies for the deployment of plant resistance genes against viruses in agricultural landscapes. The New Phytologist 216:239-253.
    • Rousseau E, Moury B, Mailleret L, Senoussi R, Palloix A, Simon V, Valière S, Grognard F, Fabre F. (2017). Estimating virus effective population size and selection without neutral markers. PLoS Pathogens 13:e1006702.
    • Rimbaud, L., Papaïx, J., Rey, J.-F., Barrett, L. G., and Thrall, P. H. (2018a). Assessing the durability and efficiency of landscape-based strategies to deploy plant resistance to pathogens. PLoS Computational Biology 14:e1006067.
    • Rimbaud, L., Papaïx, J., Barrett, L. G., Burdon, J. J., and Thrall, P. H. (2018b). Mosaics, mixtures, rotations or pyramiding: What is the optimal strategy to deploy major gene resistance? Evolutionary Applications 11:1791-1810.

    22/03/2019 : Probing sequence-level instructions for gene expression. Charles Lecellier (Institut de Génétique Moléculaire de Montpellier / Institut de Biologie Computationnelle, CNRS)

    Résumé : Gene expression is orchestrated by distinct regulatory regions to ensure a wide variety of cell types and functions. A challenge is to identify which regulatory regions are active, what are their associated features and how they work together in each cell type. This is all the more warranted as GWAS studies show that the vast majority of the human genome harbors plethora of regulatory elements lying in unannotated regions and their characterization is a necessary step towards the development of medical genomics. In that context, we develop machine learning methods to integrate and interpret diverse types of genomics data, delineate relevant genomic regions and identify novel regulatory elements. I will specifically present our work demonstrating the existence of instructions for gene expression lying at the level of DNA sequence. Our approach positions nucleotide composition as a critical component of gene expression and unveils a strong influence of intronic sequences. We further show that these instructions can be linked to co-regulations associated with genome 3D architecture and to associations of genes within topologically associated domains.

    15/03/2019 : Median-of-means : Sélection robuste d'estimateur. Joon Kwon (MIA Paris)

    Résumé : On se place dans un contexte d'apprentissage statistique où les données peuvent être polluées par des exemples absurdes. On propose un algorithme qui construit un estimateur performant (en sélectionnant d'un sous-ensemble sain de données) et dont les hyper-paramètres ont été automatiquement optimisés. Travail et collaboration avec G. Lecué et M. Lerasle.

    Pas de séminaire le 1er et 8 mars (vacances scolaires)

    22/02/2019 : Utilisabilité des indices de végétation MODIS pour la prévision du rendement de la culture de maïs aux Etats Unis. Ronan Trepos (MIAT, INRA)

    Résumé : La télédétection permet de fournir en routine des indices de végétation  calculés à partir de la réfléctance des couverts végétaux. L'étude des séries temporelles de ces indices  peut être une façon d'évaluer le niveau de production des culture et ses impacts. En parallèle, les modèles de culture (STICS,  DSSAT, ...) simulent la dynamique des cultures en considérant un  peuplement homogène sur une surface donnée (parcelle, placette). Les entrées et paramètres de  ces modèles sont nombreux et difficiles a acquérir ou estimer, et impactent fortement la simulation. Les indices de végétation issus de la  télédétection sont donc souvent utilisés pour recalibrer les modèles, ou alors ils sont assimilés pour corriger  les trajectoires des variables simulées. Dans le cadre d'un projet visant ce type de couplage entre les indices  de végétation et les modèles de culture, je vais présenter une étude préliminaire sur l'utilisabilité des indices  de végétation MODIS pour la prévision du rendement du maïs aux Etats Unis.

    15/02/2019 : Au-delà des conteneurs : Environnements logiciels reproductibles avec GNU Guix. Ludovic Courtès (INRIA Bordeaux, SED). Diaporama

    Résumé : La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Docker et Singularity peuvent répliquer un environnement logiciel mais permettent difficilement d’aller au-delà et d’expérimenter. Peut on concilier reproductibilité et expérimentation pour les environnements logiciels ? GNU Guix est comparable à apt-get, yum ou CONDA, mais il fournit des binaires reproductibles et un suivi de leur provenance. Il peut aider à la gestion d’environnements comme VirtualEnv ou encore provisionner des conteneurs. J’évoquerai notre expérience avec Guix en calcul intensif (HPC) et son positionnement par rapport à des outils comme Singularity ou EasyBuild. Enfin j'expliquerai comment nous cherchons à intégrer la notion de déploiement au cœur d’applications telles que Jupyter ou les outils de gestion de pipelines. Liens : https://guix-hpc.bordeaux.inria.fr/ et https://gnu.org/s/guix

    8/02/2019 : Approaches for predicting phenotypic plasticity of agronomical traits. Pierre Casadebaig (UMR AGIR, INRA Toulouse)

    Résumé : Ce séminaire présente deux approches numériques pour prédire des traits complexes agronomiques dans une diversité d'environnements. Un premier cas d'étude considère que l'on dispose d'informations sur le génotype des variétés étudiées et propose des approches de modélisation adaptées (gene-based models, whole genome prediction models). Ce cas d'étude sera illustré par quelques exemples avec la culture de tournesol. Dans un second cas d'étude, nous disposons de moins d'informations sur la plante et présenterons une approche de modélisation basée sur les traits fonctionnels. Nous illustrerons cette approche avec un récent projet de recherche sur les cultures associées (mélange de deux espèces dans un même champ).

    1/02/2019 : Sociétés rurales du passé et du présent : Une approche par Modélisation sociale multi-agents spatialisée. Mehdi Saqalli (UMR GEODE, CNRS). diaporama.

    Résumé : Cette présentation traite de la démarche élaborée pour la reconstitution des socio-écosystèmes au sens de Elinor Ostrom, à savoir la combinaison populations et règles sociales d’une part, territoire et environnement d’autre part, qui interagissent par l’intermédiaire des aménités et services écosystémiques qui les relient et en particulier via les systèmes agraires. Nous présentons plusieurs exemples d’application actuels (dynamiques sociales, modes d’organisation familiale et héritages au Sahel nigérien ; contamination pétrolière et colonisation de l’Amazonie équatorienne) et passés (populations et systèmes agraires de la culture rubanée sur les 1000 ans entourant l’expansion et la disparition finale de cette culture sur l’Europe tempérée). La construction de ces modélisations multi-agents spatialisées passe par la formalisation des paramètres environnementaux et agro-zootechniques mais aussi des règles socio-anthropologiques et économiques qui, fonctionnant et s’adaptant aux mailles les plus petites, sociales (la famille et l’individu), temporelle (la saison, le mois voire la semaine) et spatiale (l’hectare le plus souvent) et évoluant selon les conditions du milieu local (écologie, dynamique passée, démographie) permettent de reconstituer des dynamiques sociales et spatiales passées mais aussi, pour l’actuel, d’envisager une exploration de la résilience des systèmes et de la prospective sur leurs futurs, au travers de scénarios dont la légitimité est toujours à formaliser collectivement.

    25/01/2019 : Développements récents et ouvertures pour la détection de segments atypiques au sein de séquences. Sabine Mercier (UT2J, IMT).

    Résumé : Nous commencerons par définir le score local et présenter le contexte historique des travaux théoriques sur sa distribution. Deux résultats récents seront ensuite développés. Une approximation asymptotique de la loi du score local pour une chaîne de Markov, améliorant les résultats de Karlin et Dembo de 1992 passés sous silence, sera tout d'abord présentée. Nous proposons ensuite de probabiliser l'espace de tous les segments possibles, optimaux et sous optimaux, sans se limiter aux segments réalisant le score local ; de mettre cet espace en relation avec celui provenant naturellement de l'utilisation des chaînes de Markov cachées. Cette dualité permet alors un transfert de compétences pour la détection de segments atypiques. Les ouvertures prometteuses de ces travaux, ainsi que les résultats sur le score local de manière générale, seront abordées : application en Maîtrise statistique des Procédés ; inférence sur le score local ; approximation du nombre de régions de scores dépassant un seuil donné ; test multiple...

    18/01/2019 : Classification des essences arborées à partir de séries temporelles d'images satellitaires. David Sheeren (ENSAT, Toulouse)

    Résumé : La connaissance précise de la localisation des peuplements forestiers et leur composition en essences est une donnée incontournable pour les  gestionnaires réalisant des opérations sylvicoles. C’est aussi un préalable indispensable pour étudier la réponse des forêts au changement climatique et prédire la répartition potentielle des essences dans le futur. Dans cet exposé, je montrerai le potentiel qu'offre les séries  temporelles d'images optiques à haute résolution spatiale pour discriminer automatiquement les essences dominantes dans des forêts de feuillus et conifères. Après une présentation des données et de la démarche méthodologique adoptée faisant appel à des techniques d'apprentissage statistique, je décrirai les résultats obtenus sur 9 années à partir de séries Formosat-2, leur stabilité inter-annuelle, et l'impact de la prise en compte de l'auto-corrélation spatiale des échantillons sur la performance des modèles. Dans un second temps, un travail spécifique sur la détection de peupleraies avec des données Sentinel-2 sera évoqué, en montrant l'intérêt de l'apprentissage actif pour adapter progressivement le modèle et le rendre exploitable à large échelle. 

    11/01/2019 : Argumentation ReasoningSylvie Doutre(Université Toulouse 1, UMR IRIT). diaporama

    Résumé : Abstract argumentation is an elegant way to tackle reasoning problems in presence of conflicting information. This reasoning model finds applications in various domains such as medicine, law, or agriculture. The seminal paper by Dung defines an argumentation framework as a digraph whose nodes are abstract entities called arguments, and edges are attacks representing the conflicts between these arguments. Several acceptability semantics allow to decide which sets of arguments are accepted, depending on the properties which are expected to be satisfied by a set of arguments to be a rational “outcome” of the framework. Numerous enrichments of Dung’s framework have been proposed, for example, to take into account some supports between arguments besides the attacks, or some preferences between arguments. This talk presents some of these formal frameworks, and addresses a challenging issue that has been addressed in the past few years in this context: the dynamics of abstract argumentation settings

    Exceptionnellement mardi 8/01/2019 : Une méta-analyse transcriptomique identifie une réponse globale aux stress chez la plante modèle Arabidopsis. Marie-Laure Martin-Magniette (MIA Paris & IPS2).

    Résumé : La réponse des plantes aux stress est contrôlée par de nombreux réseaux d’interactions moléculaires. Au niveau transcriptomique, ces réseaux peuvent être explorés par des approches de « coupable par association » pour identifier des modules fonctionnels contrôlant la physiologie de la plante. La quantité des jeux transcriptomiques disponibles dans les bases de données publiques internationales constituent une ressource génomique importante mais leur diversité peut également être considérée comme une limitation pour des méta-analyses car les jeux de données peuvent être très hétérogènes dans leur construction. Pour limiter cet inconvénient, dans notre projet, nous avons considéré presque 400 comparaisons transcriptomiques décrivant des réponses aux stress de la plante modèle Arabidopsis thaliana, toutes produites au cours des 15 dernières années par la plateforme de notre institut avec des protocoles standardisés (Gagnot et al (2008) NAR 36:D986-90). Ces comparaisons ont été divisées en 18 catégories (9 stress biotiques et 9 stress abiotiques) et pour chaque catégorie, nous avons identifié des groupes de gènes co-exprimés à l’aide d’un modèle de mélange gaussien. Au total, 634 groupes de co-expression ont été identifiés et leur annotation a montré de nombreux enrichissements fonctionnels. Tous les résultats par catégorie de stress sont disponibles dans le module GEM2Net (https://tools.ips2.u-psud.fr/GEM2NET) de la base de données CATdb (Zaag et al (2015) NAR 43:D1010–D1017). Les analyses de co-expression étant faites par catégorie de stress, nous les avons ensuite intégrées pour construire à l’aide de modèle de mélange de graphes un réseau de co-régulation impliquant 2274 gènes regroupés en 43 communautés stables. Une analyse topologique de ce réseau de co-régulation a permis d’identifier 4 grandes fonctions biologiques et une organisation hiérarchique entre ces 4 grandes fonctions qui est la réponse globale aux stress des plantes. L’objectif de cet exposé est de présenter les différentes étapes de ce projet, la méthodologie employée et l’apport de la modélisation statistique.

    Pas de séminaire le 28 décembre, ainsi que le 4 janvier (vacances scolaires)

     

    14/12/2018 : Les temps de coalescence pour trois gènes permettent de distinguer entre changement de taille et structure. Simona Grusea (INSA Toulouse).

    Résumé : La quantité croissante de données génomiques actuellement disponibles élargit les horizons de l'inférence en génétique des populations. Un large éventail de méthodes a été publié permettant de détecter et de dater les changements majeurs dans la taille d'une population au cours de l'histoire de l'espèce. En même temps, il est de plus en plus reconnu que la structure d'une population peut générer des données génétiques similaires à celles générées dans les modèles de changement de taille. Récemment, nous avons montré que, quel que soit le modèle de structure de population, il est toujours possible de trouver un modèle panmictique, avec une fonction particulière de changement de taille, ayant une distribution identique de Tk (le premier temps de coalescence pour un échantillon de taille k). Cela implique que l'on ne peut pas distinguer entre un modèle panmictique et un modèle structuré lorsque nous basons notre analyse uniquement sur un seul temps de coalescence. Je présenterai dans cet exposé un travail récent dans lequel, basé sur une étude analytique de la matrice de taux du processus des lignées ancestrales, nous obtenons de nouveaux résultats théoriques sur la distribution jointe des temps de coalescence T3 et T2 pour un échantillon de trois gènes dans une modèle à n îles symétrique. En particulier, nous montrons que cette distribution est toujours différente de celle obtenue dans une population panmictique, quel que soit le scénario de changement de taille de population. La distribution jointe des temps de coalescence (T3, T2) pour un échantillon de trois gènes contient donc suffisamment d'information pour permettre de distinguer entre une population panmictique et un modèle à n îles symétrique.

    07/12/2018 : Recent algorithmic advances for combinatorial optimization in graphical models. Simon de Givry (MIAT).

    Résumé : By representing the constraints and objective function in fac-torized form, graphical models can concisely define various NP-hard combinatorial optimization problems. They are therefore extensively used in several areas of computer science and artificial intelligence. Graphical models can be deterministic or stochastic, optimize a sum or product of local functions, defining a joint cost or probability distribution. Simple transformations exist between these two types of models, but also with MaxSAT and integer programming. During the past ten years, we have been developing a graphical model solver called toulbar2 and we report on a large comparison of exact solvers which are all state-of-the-art for their own target language. We present recent algorithmic advances in toulbar2 including generalized clique cuts and parallel variable neighborhood search methods that make the solver very competitive on several benchmarks coming from probabilistic inference, computer vision and pattern recognition, weighted MaxSAT, and weighted MaxCSP competitions. Solver toulbar2 is available at http://www.inra.fr/mia/T/toulbar2.

    30/11/2018 : Inférence de traits fonctionnels à partir de données métagénomiques par NMF. Sandra Plancade (INRA MAIAGE, ISBA Louvain)

    Résumé : La métagénomique étudie le matériel génétique d'un écosystème bactérien, qui désigne l'ensemble des bactéries présentes dans un milieu donné, dans le but de caractériser l'écosystème et les fonctions qui y sont réalisées, ainsi que leur association avec des phénotypes. Dans ce contexte, la NMF (Nonnegative Matrix Factorization), une technique de réduction de dimension sous contraintes de positivité, permet simultanément la comparaison d'échantillons biologiques et l'inférence de structures existantes dans l'écosystème. Dans cet exposé, je présenterai une méthode d'exploration des voies métaboliques associées au processus de digestion des fibres, à partir de mesures métagénomiques dans l'intestin. Cette approche s’appuie sur la construction préalable d’une liste de traits fonctionnels élémentaires caractérisés par un groupe de gènes microbiens, à partir d’une base d’annotation fonctionnelle rassemblant des connaissances biologiques. Une matrice d'abondances en traits fonctionnels pour un ensemble d’individus est alors calculée à partir de mesures métagénomiques. Le modèle biologique considéré suppose l’existence de voies métaboliques caractérisées par une proportion en chacun des traits fonctionnels, et de profils métaboliques individuels définis par une composition en chacune des voies, ce qui correspond à une décomposition NMF. La modélisation est complétés par des contraintes permettant l'inclusion de connaissances biologiques et biochimiques.

    23/11/2018 : Viability theory and management of sustainability.  Guillaume Deffuant (IRSTEA, LISC)

    Résumé : This talk introduces viability theory and its potential in the management of sustainability. Viability theory addresses the problem of maintaining a dynamical system within a given subset of states, generally called the constraint set. Instead of optimising a criterion, the control strategy thus aims at avoiding crossing the limits of this constraint set. In the case of deterministic dynamics, the main theoretical concept of this theory is the viability kernel. This set includes all states from which there exists a control strategy maintaining the system indefinitely in the constraint set. Different viable control policies can be derived from the viability kernel, which makes this set of high practical interest. The viability kernel has also been used in a mathematical definition of resilience: the resilient states are the ones from which the viability kernel is reachable. Recently, this theory has been completed by other types of sets in a general theory of sustainable management, when making the hypothesis that standard or emergency controls can be applied depending on the situation. The practical application of these theories depends on the algorithms approximating viability kernels and reachable sets, which, unfortunately, face the famous dimensionality curse. The talk finally reports recent progress in improving these algorithms and some remaining challenges.

    16/11/2018 : How much maths does a biologist need, and vice versa? Toni Reverter-Gomez (CSIRO, Australie) en salle de conférence Marc Ridet

    Séminaire IMABS
    Résumé : “Every new body of discovery is mathematical in form, because there is no other guidance we can have” (Charles Darwin, 1809–1882). Biology is now awash with information, often with gigabytes of molecular data (DNA sequences; RNA expression levels; protein, metabolic, and methylation profiles) for each individual in a study. Hidden within this vast mass of data are hopefully strong signals that can be exploited for novel insight, and the search for such signals goes under a number of different names such as bioinformatics and systems biology. A number of molecular biologists are very proficient in generating such data, but only a handful of researchers have the requisite skills to develop and use the next generation of high dimensional statistics needed to find true associations. From a diametrically opposed side, Mathematicians have devoted enormous efforts to develop quantitative theory of the structure, organization, and dynamics of living systems. Questions such as at what speed should humans change from walking to running? Or how should an individual animal divide its resources, between growth and reproduction, to maximize its fitness? Are illuminated by the powerful methods of optimization theory. With a preference for quantitative genetics and genomics, in this seminar I will offer an opinionated overview of positives, and not so positives synergies between biology and mathematics.

    Exceptionnellement mercredi7/11/2018 : Inference for high-dimensional Poisson regression problems. Vincent Rivoirard (Université Paris-Dauphine, CEREMADE).

    Résumé : Sparse linear regression problems appear in a variety of settings, but often the noise contaminating observations cannot accurately be described as bounded by or arising from a Gaussian distribution. Poisson observations in particular are a characteristic feature of several real-world applications. Previous work on sparse Poisson regression problems encountered several limiting technical hurdles. This talk describes a novel alternative analysis approach for sparse Poisson inverse problems that (a) sidesteps the technical challenges present in previous work, (b) admits estimators that can readily be computed using off-the-shelf LASSO algorithms, and (c) hints at a general weighted LASSO framework for broad classes of problems. At the heart of this new approach lies a weighted LASSO estimator for which data-dependent weights are based on Poisson concentration inequalities. Unlike previous analyses of the weighted LASSO, the proposed analysis depends on conditions which can be checked or shown to hold in general settings with high probability.

    Pas de séminaire le 2 novembre (vacances scolaires)

    26/10/2018 : De la recherche à l'innovation à l'INRA. Exemple du domaine d'Innovation "Agriculture Numérique". Denis Allard (BioSP -- CPI Agriculture Numérique, Dept. MIA, INRA)

    Résumé : Le domaine d'innovation (DI) "Agriculture de Précision", comme les 15 autres domaines de l'innovation définis à l'INRA sont l'un des éléments de la politique partenariat-transfert-innovation (PTI) mise en place à l'INRA depuis 2015 environ. Après avoir rappeler quelques éléments généraux concernant la PTI de l'INRA, et les missions couvertes par un DI, je détaillerai quelques enjeux de recherche relevant du DI "Agriculture Numérique".

    19/10/2018 : Séminaire remplacé par la soutenance de thèse de A. Imbert: Intégration de données hétérogènes complexes à partir de tableaux de tailles déséquilibrées qui débutera à 14h en salle Marc Ridet

    Résumé : Les avancées des nouvelles technologies de séquençage ont permis aux études cliniques de produire des données volumineuses et complexes. Cette complexité se décline selon diverses modalités, notamment la grande dimension, l'hétérogénéité des données au niveau biologique (acquises à différents niveaux de l'échelle du vivant et à divers moments de l'expérience), l'hétérogénéité du type de données, le bruit (hétérogénéité biologique ou données entachées d'erreurs) dans les données et la présence de données manquantes (au niveau d'une valeur ou d'un individu entier). L'intégration de différentes données est donc un défi important pour la biologie computationnelle. Cette thèse s'inscrit dans un projet de recherche clinique sur l'obésité, DiOGenes, pour lequel nous avons fait des propositions méthodologiques pour l'analyse et l'intégration de données. Ce projet est basé sur une intervention nutritionnelle menée dans huit pays européens et vise à analyser les effets de différents régimes sur le maintien pondéral et sur certains marqueurs de risque cardio-vasculaire et de diabète, chez des individus obèses. Dans le cadre de ce projet, mes travaux ont porté sur l'analyse de données transcriptomiques (RNA-Seq) avec des individus manquants et sur l'intégration de données transcriptomiques (nouvelle technique QuantSeq) avec des données cliniques. La première partie de cette thèse est consacrée aux données manquantes et à l'inférence de réseaux à partir de données d'expression RNA-Seq. Lors d'études longitudinales transcriptomiques, il arrive que certains individus ne soient pas observés à certains pas de temps, pour des raisons expérimentales. Nous proposons une méthode d'imputation multiple hot-deck (hd-MI) qui permet d'intégrer de l'information externe mesurée sur les mêmes individus et d'autres individus. hd-MI permet d'améliorer la qualité de l'inférence de réseau. La seconde partie porte sur une étude intégrative de données cliniques et transcriptomiques (mesurées par QuantSeq) basée sur une approche réseau. Nous y montrons l'intérêt de cette nouvelle technique pour l'acquisition de données transcriptomiques et l'analysons par une approche d'inférence de réseau en lien avec des données cliniques d'intérêt.

    12/10/2018 : Inférence de données de réseaux multipartites par modèles à blocs latents et stochastiques. Application en écologie et ethnobiologie. Sophie Donnet (MIA Paris, INRA)

    Résumé : Modéliser les relations entre entités (individus, insectes, plantes...) est une problématique classique en sciences sociales et en écologie et regrouper les entités étudiées en fonction des motifs observés dans le réseau permet de comprendre la topologie du réseau. Les modèle à blocs stochastiques ou latents sont une approche répandue pour regrouper les individus partageant le même comportement d'interaction. Dans ce travail, nous nous intéressons au cas où nous cherchons à modéliser des réseaux multipartites, i.e. des réseaux dans lesquels les entités appartiennent à des groupes fonctionnels prédéfinis. Les modèles à blocs stochastiques ou latents reposent sur l'introduction des variables latentes, rendant leur vraisemblance incalculable de façon explicite dès que la taille des réseaux augmente. Nous utilisons alors une version stochastique de l'algorithme EM. La pertinence de notre modèle et de notre méthode d'inférence est illustrée sur données simulées et réelles.

    05/10/2018 : Input output kernel regression for protein-protein interaction prediction and metabolite identification. Céline Brouard (INRA, MIAT) diaporama

    Résumé : Many real world learning tasks require predicting outputs that correspond to complex structured objects or to multiple interdependent outputs. Structured prediction approaches making use of the statistical  dependencies between the output parts, have been shown to achieve an improved prediction performance in several applications. I will present  a kernel-based structured output prediction approach, called Input Output Kernel Regression. In this approach the internal structure of the output data is encoded using a kernel function, that measures the similarity between two outputs. This approach is based on the idea of  using the kernel trick in the output space and making predictions in a feature space associated with the output kernel. I will focus in my presentation on two applications of this work. The first application is the prediction of protein-protein interactions. Another application will be presented on the metabolite identification problem, that consists in determining the molecular structure of an  unknown metabolite from tandem mass spectrometry data.

    28/09/2018 : La plateforme Souk. Gilles Tredan (LAAS, Toulouse)

    Résumé : Depuis 2012, une partie de nos recherches porte sur la caractérisation des structures d’interaction sociales. Nous avons pour cela développé une plateforme d’observation sociale des « cinétiques » humaines : SOUK (Social Observation of hUman Kinetics). Le principe de cette plateforme est de pouvoir collecter avec une grande précision spatiale et temporelle la position des individus d’une foule dense. SOUK fonctionne à la manière d’un GPS inversé plutôt précis (15cm) et rapide (1-4 hz). Grâce à ce système, il est possible de suivre le déplacement de groupes d'individus (jusqu'à 60 personnes) dans des espaces délimités, et d’analyser les mobilités et interactions au sein de ces groupes. Cet outil a été déployé lors de plusieurs campagnes expérimentales à Toulouse et à Milan dans des contextes variés : personnes dans une foule, danseurs, évènements sociaux (buffets), animaux au sein d’un troupeau... Lors de cette présentation a vocation panoramique, j'aborderai quelques résultats et perspectives issus de l’analyse des données ainsi collectées.

    21/09/2018 : Données de la recherche… Vers l’ouverture Nathalie Gandon (CODIR - Département MIA, INRA) diaporama

    Résumé : Présentation des contextes (international, national et institutionnel), du cadre juridique et des offres de service inra autour de l’open data.

    14/09/2018 : Inférence des causes de la reprogrammation cellulaire par abduction Franck Delaplace (IBISC, Université d'Evry) diaporama

    Résumé : La médecine de réseau a pour objectif de définir la maladie à l’échelle des réseaux biologiques afin de mieux comprendre les mécanismes causaux de celle-ci. Des études dans ce domaine ont montré que la reprogrammation comportementale observée dans des maladies complexes telles que le cancer est causée par une modification du câblage du réseau moléculaire. La transition entre cellule saine et malade et inversement peuvent s'interpréter à l'échelle moléculaire comme une reprogrammation cellulaire induite par des perturbations topologiques des réseaux moléculaires induisant des changements du destin cellulaire. Pour la modélisation, l’objectif est d’inférer les actions topologiques sur un réseau induisant une variation de la dynamique incarnant ces transitions. Nous proposons un cadre théorique étendant les réseaux Booléens, appelé réseau booléen contrôlé où les actions de réseau topologique sont définies comme des contrôles de la dynamique. Sur la base de ce cadre, nous présentons un nouvel algorithme utilisant des principes de raisonnement abductif qui infère les perturbations causales minimales conduisant à un comportement attendu aux états stables de la dynamique. Ce cadre de modélisation s’applique à priori à un grand nombre de situation biologique d’alteration du destin cellulaire reposant sur sa reprogrammation. Nous l’illustrerons sur un modèle du cancer du sein, que nous considérons comme une preuve de concept, en inférant à la fois les oncogènes, les suppresseurs de tumeurs et des cibles thérapeutiques. Travail joint avec Célia Biane

    7/09/2018 : SAA-ILP approach for multi-objective landscape optimization under uncertainty: theory and application Yann Dujardin (MIAT)

    Résumé : Theory: The Graph-based Markov Decision Process (GMDP) framework forms a class of MDP with factored state and action spaces, which has been studied for the past ten years. Since state and action spaces share the same graphical structure, it may be useful to model the control of spatial processes or collaborative multi-agent decision problems with local interactions. The concept of local policies in GMDP is especially useful, since it leads to interpretable objects, unlike optimal global policies which usually require exponential space to represent. Several time efficient algorithms to compute approximate local policies in GMDP have been proposed in the last decade. On the other hand, while efficient in practice, existing algorithms come without any performance guarantee on the returned local policies. Furthermore, while real-world collaborative decision problems modeled by GMDP generally contain several objectives to be optimized, no attention has been given yet, to our knowledge, to multi-objective GMDP. Our first contribution is to propose a Sample Average Approximation (SAA) approach for GMDP combined with an original ILP formulation. Unlike existing algorithms for GMDP, we provide theoretical hardness results and performance guarantees. Then, we show how the SAA-ILP approach can model and solve multi-objective GMDP. Application: An agricultural landscape can be devised according to various criteria,often antagonist (all of them cannot be optimized simultaneously). When managing agro-ecosystems, finding "good compromise" solutions between these criteria is therefore critical. However, finding landscape management strategies that enable to reach satisfying trade-offs on different criteria is difficult for several reasons: 1) the processes involved in these strategies making are spatio-temporal processes, 2) decision must been made under uncertainty, 3) modeling and solving multi-objective optimization problems is more difficult that mono-objective ones. We consider the problem of finding best compromise solutions to a particular multi-objective landscape management problem under uncertainty. Possible decisions consist in assigning a sequence of cultures, over a time horizon, to every site of an agricultural network. These sequences will directly influence three criteria: total profit, biodiversity, and equity between the stakeholders. Sequences also influence pollinators dynamics, the position of which can itself influence the criteria in another way. Criteria are computed over a time horizon. The dynamics of the pollinators are spatio-temporal and subject to uncertainty. To solve this problem, we propose a multi-objective SAA-ILP-based solver that allows a decision-maker to interactively discover the agricultural landscape that corresponds to a (subjective) best compromise between the criteria.


    2017-2018

    Pas de séminaire en juillet et août (vacances scolaires)

    Pas de séminaire le 29 juin (journée des stagiaires le 26)

    • 22/06/2018 : Recent evolutions in genome assembly : our experiences with data and tools Christophe Klopp (MIAT) diaporama
    Résumé : The availability of a good quality reference genome enables and simplifies a lot of genomic analysis. Therefore, for the last thirty years, communities have agreed to spend a lot of money and time to produce such a reference. The estimated cost for generating the initial 'draft' human genome sequence is ~$300 million worldwide (1). Second generation short read sequences have been used to produce new reference genomes of often low to medium quality. The now available third generation sequencers, producing long reads, have opened an new area of numerous, cheap, high quality reference genomes. First PacBio and then Oxford nanopore machines have been acquired by the Get-Plage local sequencing platform and enabled local teams to produce assemblies which are acknowledged by their community on the international level. The best examples in the last years is the sunflower and in the last months, the rose. Sigenae and Genotoul Bioinfo take also part in this adventure. The talk will present third generation sequencing data quality, assembly steps and results. It will also explain how other new data types help to go from contigs to chromosomes. (1) https://www.genome.gov/27565109/the-cost-of-sequencing-a-human-genome/

    Pas de séminaire le 15 juin (visite du département).

    • 8/06/2018 : How computers break (serious) puzzles Thomas Schiex (MIAT, INRA)
    Résumé : Exposé de vulgarisation scientifique donné dans le cadre de la journée « Machine Learning for Artificial Intelligence » à l'Académie des Sciences.

    Pas de séminaire le 1e juin (JFRB 2018).

    • 25/05/2017 : Séminaire des doctorants - salle Marc Ridet Programme détaillé
      • 09h30 - 09h50 Manon Ruffini (MIAT) Models and methods for computational protein design
      • 09h50 - 10h10 Camille Champion (IMT) Research and development of innovative mathematical algorithms using cluster-based statistical interactions of metagenomic data in biomedicine
      • 10h10 - 10h30 Ivana Aleksovska (Meteo-France, MIAT) Improve short and medium term predictions of agronomic models by taking into account the uncertainty of weather forecast
      • 10h30 - 11h00 pause
      • 11h00 - 11h20 Arij Azzabi (Institut supérieur de gestion de Tunis, MIAT) La représentation compacte des jeux ordinaux
      • 11h20 - 11h40 Céline Bougel (INSERM) Amélioration des outils statistiques utilisés dans les essais de prévention du déclin des fonctions cognitives
      • 11h40 - 12h00 Malo Le Boulch (GenPhySE) Inférence fonctionnelle des communautés bactériennes complexes à partir de données issues de métagénomiques
      • 12h00 - 14h00 déjeuner partagé
      • 14h00 - 14h20 Walid Ben Saoud Benjerri (MIAT) Algorithmes d'alignement de petits ARN
      • 14h20 - 14h40 Adrien Lagrange (Dynafor) Du démélange pixellique à la classification thématique - Apprentissage multirésolution pour l'analyse hiérarchique d'images hyperspectrales et hypertemporelles
      • 14h40 - 15h00 Marie-Anne Vedy-Zecchini (AGIR) Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique
      • 15h00 - 15h20 Sara Maqrot (MIAT) Méthodes approchées d'optimisation combinatoire en programmation mathématique. Application à la conception des systèmes vergers-maraîchers
      • 15h20 - 15h50 pause
      • 15h50 - 16h10 Étienne Auclair (MIAT) Réseau bayésien dynamique étiqueté multicontact pour l'apprentissage de réseaux écologiques
      • 16h10 - 16h30 Alyssa Imbert (MIAT) Imputation multiple hot-deck pour l'inférence de réseaux RNA-Seq
      • 16h30 - 16h50 Sébastian Le Coz (MIAT) Modélisation de la dynamique des adventices dans un agrosystème
    • 18/05/2018 : Mémoire et apprentissage chez les plantes Frédérick Garcia (futur MIAT, INRA)
    Résumé : Dans cet exposé, je développerai l'idée qu'au delà de la vision traditionnelle orientée croissance et développement, les plantes peuvent être étudiées en tant qu’entités actives dont la dynamique au cours du temps est l'expression d'un comportement propre. Ces comportements semblent en particulier le siège de phénomènes d'apprentissage, où des mémoires biologiques sont exploitées, et je décrirai les principaux résultats expérimentaux soutenant cette hypothèse. Je présenterai enfin des pistes pour de nouvelles expérimentations et pour la modélisation de ces processus.

    Pas de séminaire le 11 mai (pont de l'ascension).

    • 4/05/2018 : Statistical model of non-Gaussian process with wavelet scattering moments Sixin Zhang (ENS, Paris)
    Résumé : One of the most challenging problems in statistical modeling is to define a minimal set of statistics so as to infer a stochastic model from few observational data of the underlying random process. We propose such set of statistics based on the wavelet scattering transform. Our goal is to model the non-Gaussianarity and the long-range interaction of the data, in particular when there is complex geometry and transient structures at multiple scales such as Turbulence. We follow the maximum entropy principle to infer a stochastic model given a set of statistical moment constraints. It results in a Gibbs distribution which is common in statistical physics to describe the equilibrium states. In this talk, I will discuss the current state-of-art methods to model the texture as a stationary and ergodic random process, including convolutional neural network based approach. We compare different methods quantitatively by estimating the power spectrum, and the entropy of the random process. Numerical results on isotropic Turbulence will be presented.

    Pas de séminaire les 20 et 27 avril (vacances scolaires).

    • 13/04/2018 : How to support Cooperative Decision Making ? Pascale Zaraté (IRIT)
    Résumé : Decision Support Systems are designed to support decision makers facing unstructured problems. They were developed to interactively simulate the problem in order to propose part of the solution to the user. In organizations, decision making processes generally involve a group of individuals, rather than just one person. Cooperative Decision Making processes are defined as processes in which several decision makers are involved. We developed two kinds of support for such Cooperative Decision Making Processes. These two approaches are based on a Multi-Criteria Decision Analysis paradigm. In one hand, we developed Recommender Systems able to recommend a solution to a given decision problem adapted to the user’s preferences. These systems are based on a preference mining approach. In another hand, Group Decision Support Systems (GDSS) are designed to support groups involved in a decisional process. An overview of GDSS is presented, and a particular system called GRoUp System (GRUS) is demonstrated. A new methodology to use it, is also presented in order to promote cooperation among stakeholders.
    • 6/04/2018 : Bacterial populations in the Durance river: a data-driven analysis on the causes of spatial and genetic heterogeneity Davide Martinetti (BIOSP, INRA)
    Résumé : Sampled bacterial populations from the Durance river water and its tributaries show high variability and heterogeneity. The most natural hypothesis of a bacterial flow that follows the orography of the river, from upstream to downstream, seems to be too weak and it is sometimes not verified. We hence look for other possible explanations that can bring some light on the sources and potential dissemination of a family of bacteria, /Pseudomonas Syringae,/ a potential plant pathogen. Amongst the possible causes of biological heterogeneity in the bacterial population, we investigate the effects of land use at different spatial scales (circular buffer of different radius and watershed), geographical distance and rainfall patterns. To the date, we are pioneering the introduction of rainfall patterns in such type of studies. This involves handling big amounts of data of different types, such as historical air-mass trajectories and precipitation records. The preliminary results of this study shows that geographical distance between sampling sites is seldom an efficient predictor of bacterial diversity, while rainfall patterns and land use seem to play a major role. Key words: bacterial populations, land use, air-mass trajectories, precipitations, comparison of distance matrices, clustering, R
    • 30/03/2018 : Clustering transformed compositional data using K-means, with applications in gene expression and bicycle sharing system data Antoine Godichon (INSA Rouen)
    Résumé : We present a relevant strategy for clustering compositional data (i.e., data blonging to the simplex). This work is motivated by the analysis of two sets of compositional data, both focused on the categorization of profiles but arising from considerably different applications : (1) identifying groups of co-expressed genes from high-throughput RNA sequencing data, in which a given gene may be completely silent in one or more experimental conditions ; and (2) finding patterns in the usage of stations over the course of one week in the Velib bicycle sharing system in Paris, France. For both of these applications, we focus on the use of appropriately chosen data transformations, including the Centered Log Ratio and a novel extension we propose called the Log Centered Log Ratio, in conjunction with the K-means algorithm.
    • 23/03/2018 : Computational approaches for high-resolution profiling of immune responses: applications to vaccine studies Nicolas Tchitchek (CEA)
    Résumé : Flow, hyperspectral and mass cytometry are experimental techniques measuring cell marker expressions at the single cell level. The recent increase in the number of markers simultaneously measurable has led to the development of new automatic gating algorithms. Especially, the SPADE algorithm has been proposed as a novel way to identify clusters of cells having similar phenotypes in high-dimensional cytometry data. While SPADE or other cell clustering algorithms are powerful approaches, complementary analysis approaches are needed to characterize better and interpret the identified cell clusters. I will present here two new bioinformatics tools, named SPADEVizR and CytoCompare, that have been developed to better characterize and interpret cell clusters. The capabilities of these algorithms will be illustrated using mass cytometry profiles obtained in the context of vaccine studies in non-human primates. On the one hand, SPADEVizR can identify cell clusters having relevant biological behaviors, to integrate them with additional biological variables, and to construct predictive models. Several visualization methods, such as volcano plots, streamgraphs, parallel coordinates, heatmaps are available to better define the phenotypes of the cell clusters. On the other hand, CytoCompare can statistically compare the phenotypes of cell clusters identified by different automatic gating algorithms or using different cell clustering settings. Such phenotypic comparisons allow quantifying the sensitivity of cell clustering algorithms. This software is essential to optimize the clustering parameters and to property interpreter complex cytometry data. I will also outline the current computational and data mining challenges in high-dimensional cytometry analysis.
    • 16/03/2018 : Attribuer un événement météorologique extrême au changement climatique : le problème de la définition Julien Cattiaux (Météo France, Toulouse)
    Résumé : Canicule, vague de froid, sécheresse, forte pluie... A chaque événement météorologique marquant, la même question revient : est-ce dû au changement climatique ? Une manière d'y répondre est d'évaluer de combien le changement climatique a modifié la probabilité que l'événement se produise, i.e. calculer la "fraction de risque attribuable". Le résultat est cependant sensible à la définition choisie pour l'événement, et en particulier à l'échelle spatio-temporelle sélectionnée. Jusqu'à présent, ce choix est souvent fait de façon arbitraire, sur la base de régions géographiques et/ou périodes de temps prédéfinies. Nous proposons ici une méthode plus objective, consistant à identifier automatiquement l'échelle de temps et d'espace à laquelle l'événement a été le plus extrême. La méthode est illustrée sur deux cas d'étude (canicule européenne de l'été 2003, précipitations intenses de septembre 2013 au Colorado) et les conséquences sur la fraction de risque attribuable sont discutées.
    • 09/03/2018 : Destination prediction by trajectory distribution based model Brendan Guillouet (INSA de Toulouse)
    Résumé : Monitoring and predicting road traffic is of great importance for traffic managers. With the increase of mobile sensors, such as GPS devices and smartphones, much information is at hand to understand urban traffic. In the last few years, a large amount of research has been conducted in order to use this data to model and analyze road traffic conditions. In this talk we propose a new method to predict the final destination of vehicle trips based on their initial partial trajectories. We first review how we obtained clustering of trajectories that describes user behaviour. Then, we explain how we model main traffic flow patterns by a mixture of 2d Gaussian distribution. This yielded a density based clustering of locations, which produces a data driven grid of similar points within each pattern. We present how this model can be used to predict the final destination of a new trajectory based on their first locations using a two step procedure: We first assign the new trajectory to the clusters it mot likely belongs. Secondly, we use characteristics from trajectories inside these clusters to predict the final destination. Finally, we present experimental results of our methods for classification of trajectories and final destination prediction on datasets of timestamped GPS-Location of taxi trips. We test our methods on two different datasets, to assess the capacity of our method to adapt automatically to different subsets.

    Pas de séminaire les 23 février et 2 mars 2018 (vacances scolaires).

    • 16/02/2018 : A constrained kernel density estimator for location-scale mixture models based on copulas Gildas Mazo (MaIAGE, INRA)
    Résumé : In this communication we shall present copula-based semiparametric mixture models as a way to model heterogeneous populations. Copulas can cope with complex dependence structures while the nonparametric estimation of the marginals alleviate one's effort in the modeling task. Estimation is performed by two EM-like algorithms and one of them will be shown to perform better by taking into account the inherent structure of the problem into account.
    • 9/02/2018 : Maladie de Parkinson: une entité cliniquement définie, une seule entité étiologique ? Maria Martinez (INSERM Toulouse) diaporama
    Résumé : Élucider la relation génotype-phénotype d'une maladie hétérogène et complexe, comme la maladie de Parkinson (PD), est l'un des défis majeurs pour le démembrement de son étiologie. La caractérisation génomique de patients ou sous-groupes de patients est une étape clé vers l'amélioration de l'utilité de la médecine génomique et de la précision de l'estimation du risque/progression de la maladie. S'affranchir de la simple stratification empirique des patients soulève plusieurs défis du fait du mélange de types de données (binaires, catégorielles, quantitatives ; longitudinales ou pas) et de la haute dimensionnalité des données, combinées ou pas aux données pan-génomiques. Après une revue de l'épidémiologie, des symptômes cliniques et outils de diagnostique de PD, des succès récents des méta-GWAS et aussi de leurs limites, j'exposerai un projet qui vient de débuter dont l'objectif général est d'identifier des sous-groupes de patients dans lesquels les mécanismes biologiques impliqués pourraient être plus homogènes. Le design d'étude repose sur le développement d'analyses de clustering et de modèles linéaires multivariés à effets mixtes. Les avantages et limites de chaque approche seront discutés.
    • 2/02/2018 : Metagenomic and clinical impact Nicolas Pons (MetaGénoPolis, INRA Jouy-en-Josas)
    Résumé : The human body is inhabited by many different microbial communities, which are especially abundant (~2kg) in the gut. The intestinal microbiota is now considered as an organ and plays a major role in health and disease. Perturbation of this ecosystem could be responsible for a plethora of multifactorial complex diseases such as obesity, diabetes and cancer, for which few curative approaches exist. Recently the new science of metagenomics emerged along with the appearance of high-throughput sequencing technologies. Metagenomics constitutes a powerful “microscope” that allows us to characterize composition, properties and dynamics of a microbial ecosystem by studying their genetic repertoire (the metagenome). This is helping our holistic view of complex microbial ecosystems as well as our understanding of their role in human diseases. Considerable effort from the scientific community in the context of international consortiums have already shown the importance of gut microbiota in diseases such as obesity, diabetes, liver cirrhosis and others are ongoing. However, many problems are yet to be solved such as data processing of increasingly bigger datasets as well as the misadaptation of actual bio-statistical approaches. Indeed actual statistical methods are not well adapted in problems such as variable selection in a context of a big dimensions and complex interdependence. Even though metagenomics offers a great potential in exploring and understanding the role of microbial ecosystems in human health, this research field needs strong interdisciplinary collaborations between clinicians, biologists, bioinformaticians and biostatisticians.
    • 26/01/2018 : Exact and Approximate Inference in Graphical Models -- Variable Elimination and beyond Régis Sabbadin (MIAT, INRA)
    Résumé : Dans cet exposé, qui se veut didactique, je présenterai le cadre des modèles graphiques stochastiques, utilisé pour la représentation de connaissances incertaines. Ce modèle, très général, regroupe la plupart des modèles stochastiques à variables de domaines finis (chaines de Markov, HMM, Réseaux Bayesiens, Champs Markoviens...). Je présenterai les questions d'inférence (calcul de mode, de marginales) classiquement associées à ce cadre, ainsi que des outils algorithmiques basiques d'inférence exacte ("variable elimination") et approchée ("(loopy) belief propagation") applicables pour résoudre ces questions. Cette présentation est basée sur l'article suivant: N. Peyrard et al. Exact and approximate inference in graphical models: variable elimination and beyond, 2017. https://arxiv.org/pdf/1506.08544.pdf
    • 19/01/2018 : Maximum du mouvement brownien réfléchi sur un horizon fini et autres quantités d'intérêt - Application au score local Agnès Lagnoux (Institut de Mathématiques de Toulouse)
    Résumé : Le score local est un outil probabiliste très utilisé par les biologistes pour comparer ou étudier les séquences d'acides aminés ou de nucléotides comme l'ADN. En modélisant le score local à l'aide d'une marche aléatoire et après normalisation, le processus à temps continu sous-jacent est le mouvement brownien. Nous étudions notamment le maximum du mouvement brownien réfléchi afin d'en déduire des propriétés sur le score local. Travail en collaboration avec Claudie Chabriac, Sabine Mercier et Pierre Vallois.
    • 12/01/2018 : Algorithmes gradient-proximaux pour l'inférence statistique Gersende Fort
    Résumé : L'estimation statistique sous contraintes comme l'approche bayésienne de l'estimation statistique, peuvent être vues comme un problème d'optimisation d'une fonction objectif se décomposant en la somme d'un terme explicite, et d'un terme non calculable de façon exacte. Le bien-fondé des solutions algorithmiques proposées reste souvent un problème ouvert. Après avoir introduit des motivations en inférence statistique dans des modèles à vraisemblance non explicite (modèles à données cachées, ou modèles de Gibbs avec constante de normalisation incalculable), nous présenterons tout d'abord des solutions algorithmiques exploitant des techniques d'optimisation d'ordre 1, pour répondre à ces problèmes d'optimisation dans le cas où la fonction objectif est la somme d'un terme régulier de gradient non explicite mais approchable par des techniques Monte Carlo, et d'un terme convexe dont l'opérateur proximal associé est explicite. Nous donnerons ensuite des résultats de convergence dans le cas où la fonction objectif est convexe, et où la perturbation Monte Carlo dans l'approximation du gradient est biaisée (l'intérêt de cela étant de traiter des approximations Monte Carlo de type "par Chaînes de Markov (MCMC)"). Nous commenterons notamment le lien avec les algorithmes d'Approximation Stochastique. Enfin, nous discuterons des conséquences de ces résultats théoriques sur la mise en oeuvre de l'algorithme : lien entre pas d'apprentissage et nombre de points Monte Carlo; techniques d'accélération à la Nesterov.
    • Vendredi 5 janvier : soutenance de thèse de Franck Cerutti Évolution et coévolution des petits ARNs régulateurs et des gènes codants chez les bactéries

    La soutenance aura lieu à partir de 14h, salle Marc Ridet (INRA Toulouse).

    Pas de séminaire du 23 décembre au 5 janvier (vacances scolaires).

    • 22/12/2017 : La génétique des populations “non usuelle” Diane Bailleul
    Résumé : Les modèles de génétique des populations ne considèrent que les cas extrêmes : reproduction strictement sexuée, reproduction asexuée, équilibre d’Hardy-Weinberg... Et pourtant, la clonalité partielle est un trait d’histoire de vie largement répandu dans l’Arbre du vivant. Les espèces cultivées subissent des pressions anthropiques qui altèrent les cycles de vie. Les espèces marines à large taille de populations et à fort potentiel de migration ne montrent généralement pas de structuration génétique, même lorsque les données de tags indiquent des stocks séparés. Comprendre la dynamique et l’évolution de ces espèces marginales du point de vue des modèles de génétique est donc un défi majeur pour la préservation des écosystèmes variés auxquelles elles se rattachent. Le package RClone a été créé pour gérer les jeux de données partiellement clonaux, permettant (i) de vérifier la fiabilité de l'ensemble de données pour discriminer les génotypes multi-locus (MLG), (ii) la détermination de MLG et la détermination semi-automatique des lignées clonales (iii) le calcul des indices de richesse et d’uniformité basé sur les MLG ou les MLL, et (iv) la description de plusieurs composantes spatiales de la clonalité. Une amélioration majeure par rapport aux logiciels existants est la capacité à déterminer le seuil permettant de regrouper des MLG similaires en MLL sur la base de simulations. A l’échelle d’un agroécosystème, l’étude de données génotypiques couplées à des méthodes d’assignations aux variétés commerciales existantes a permis de mettre en évidence un lien entre la diversité variétale des champs de colza cultivés et la diversité variétale des populations férales de l’année suivante. La modélisation des flux efficaces de graines par une méthode de maximum de vraisemblance a permis d’identifier des dynamiques de dispersion locales au sein des agroécosystèmes. Les distances moyennes de dispersion estimées varient de la dizaine de mètres au kilomètre. Le requin peau bleu est un top prédateur pélagique avec l’une des aires de distribution les plus large. L'analyse génétique de plus de 200 échantillons a permis de détecter des signatures de goulots d'étranglement génétiques mais une homogénéité génétique quasi-complète. Cette panmixie apparente pourrait être expliquée par un effet de retard génétique, illustré par des simulations de changements démographiques non détectables par l'analyse génétique standard avant une longue phase de transition introduite ici comme la « population grey zone ». Ces résultats peuvent englober des scénarios explicatifs distincts s'étendant d'une population démographique unique à plusieurs populations indépendantes. Cette limitation empêche la délimitation génétique des stocks et donc la capacité d'anticiper les conséquences des appauvrissements sévères à toutes les échelles.
    • Lundi 18 décembre : soutenance de thèse de Clément Viricel Contributions au développement d'outils computationnels de design de protéines : méthodes et algorithmes de comptage avec garantie

    La soutenance aura lieu à partir de 10h à l'INSA de Toulouse (amphithéâtre Fourier) et sera suivie d'un pot dans la salle de repos du bâtiment GPE de l'INSA à 16h.

    • Pas de séminaire le 15 décembre : soutenance de thèse de Jérôme Mariette. Apprentissage statistique pour l'intégration de données omiques

    La soutenance aura lieu à partir de 13h30 à l'INSA de Toulouse (salle des thèses) et sera suivie d'un pot dans le hall génome de l'INRA de Toulouse.

    • 8/12/2017 : Quelques problèmes d'optimisation sous contraintes de la vigne à la cave Philippe Vismara (LIRMM, Montpellier SupAgro)
    Résumé : Dans cet exposé nous verrons quelques applications de la Programmation par Contraintes à des problèmes en viticulture et en œnologie : l'assemblage de vin sous contraintes, l'optimisation du trajet en vendange sélective ou d'autres problèmes de tournées qui nous ont amenés à définir une nouvelle contrainte de circuit adaptée aux tournées incomplètes.
    • 1/12/2017 : Modélisation probabiliste de la co-évolution dans les communautés proies-prédateurs Manon Costa (Institut de Mathématiques de Toulouse)
    Résumé : Dans cet exposé nous étudions la co-évolution de phénotypes de proies et de prédateurs sous l'effet de la sélection naturelle. Nous présenterons plusieurs modèles pour étudier ce problème, tout d'abord en utilisant des échelles de temps proche des dynamiques adaptatives puis en s'intéressant à des communautés de type arbres-insectes dans lesquelles les dynamiques des prédateurs sont plus rapides que celles de leurs proies.
    • 24/11/2017 : Techniques for de novo genome and metagenome assembly Rayan Chikhi (CNRS, Université de Lille) diaporama
    Résumé : This talk will cover recent techniques in genome and metagenome de novo assembly for Illumina data. It will provide insights into what assembly quality to expect, and the implications for secondary analysis. It can be useful to understand what assemblers do, in order to set expectations with respect to how repetitions are handled, why coverage is imperfect, whether strain-variation is kept, etc. I'll present our resource-efficient genome and metagenome assembly pipeline, Minia 3, and also discuss other assemblers (SPAdes, MEGAHIT). Some technical ingredients that will be covered are: fast unitigs construction, multi-k assembly, assembly graph simplifications.
    • 17/11/2017 : Cross-validation issues in genomic selection Andres Legarra-Albizu (GenPhySE, INRA, Toulouse)
    Résumé : Performance of genomic selection is typically evaluated by cross-validation. In this work we review and point out some problems and features of the cross-validation metrics, including which statistics should be used, how to split the data, and problems of precorrected data. Then we propose a semiparametric alternative using statistics derived from the "Method R".
    • 10/11/2017 : Revue des travaux réalisés dans le projet Sal Host Trop Ludovic Mallet (MIAT)
    Résumé : Host tropism and host-pathogen interplay of typhoidal Salmonella enterica The species Salmonella enterica is one of the most prevalent human and animal pathogens, it includes Non Typhoïdal Salmonella (NTS) serovars like Typhimurium and Enteridis, that are generalist pathogens with broad host specificity and Typhoïdal Salmonella (TS) serovars, like Typhi and Paratyphi A, that are specialized pathogens strictly adapted to the human host and the cause of an invasive, dangerous disease known as enteric (typhoid) fever. The SalHostTrop project aims at identifying, characterizing and understanding the human-restricted tropism of Typhoidal Salmonella (TS) using comparative dual-RNAseq sequencing and other complementary approaches. We combine state of the art genome and transcriptome sequencing methods to decipher the molecular basis of host-tropism in clinical strains. We contrast the comparative genomics and differential expression analyses to explore and assess the variability and plasticity of pathogenesis routes among and between typhoidal and non-typhoidal serovars. We present our on-going work including the Pacbio long-read genomic sequencing, assembly and annotation of a new S. Typhi strain (120130191) and the dual RNAseq data analysis of a pilot experiment of S. Typhimurium and S. Paratyphi A during human epithelial cells infection. The new S. Typhi strain includes one circularized complete chromosome and one plasmid of about 4.78 Mb with 4638 coding genes and 106.7 kb with 128 coding genes, respectively. The dual RNAseq pilot first analyses demonstrate the feasibility of the protocol to target both pathogen and host transcripts simultaneously during infection. We also built a S. enterica subsp. enterica reference phylogenetic tree from the super-alignment of Salmonella core genes in 214 complete genomes of various serotypes that is in agreement with previous studies and will be used to explore pseudogene content of serotypes according to their evolutionary history.

    Pas de séminaire les 27 octobre et 3 novembre (vacances scolaires).

    • 20/10/2017 : Sensibilité des peupliers à la flexion : Analyse transcriptomique et inférence de réseau de gènes Lise Pomies (MIAT)
    Résumé : Les arbres sont capables de percevoir les flexions de leur tronc et branches causées par le vent et d’y répondre. Au niveau physiologique la réponse se traduit par des modifications de croissances et de structure du bois. Au niveau moléculaire, seuls quelques acteurs de cette réponse ont été identifiés à des temps très précoces. Mes travaux de thèse consistaient à : (1) Caractériser et comprendre la réponse transcriptomique du peuplier à la flexion à partir de mesures cinétiques de l’expression obtenues avec des puces ADN. (2) Modéliser le réseau de régulation de gènes contrôlant cette réponse, bien que le ratio nombre de gènes sur nombre de mesures de l’expression était très défavorable à cette modélisation.

    Pas de séminaire le 13/10 pour cause d'invité le 09/10.

    • 09/10/2017 à 11h : Overview of first-order optimization methods for the LP relaxation of the Weighted CSP Problems: classification, experience, comparison Bogdan Savchynskyy and Stefan Haller (Heidelberg University, Allemagne)
    Résumé : We will review a majority of existing solvers for the local polytope relaxation of the weighted constraint satisfaction problem. The problem is also known as maximum a posteriori/maximum probable explanation inference in undirected graphical models. The relaxation is often referred to as "linear programming (LP) relaxation". We will consider several dual formulations of the relaxation and treat them as unconstrained large-scale concave problems. The core of our talk is a comparison of approximate solvers for this problem. These solvers are based on subgradient, proximal point, smoothing and block-coordinate descent techniques. Based on the comparison, we will conclude about key properties of an "ideal" (so far non-existing) solver.

    Pas de séminaire le 6 octobre (journée RECORD).

    • 29/09/2017 : Vers une prévision des incertitudes en météorologie Laure Raynaud (Météo France)  diaporama
    Résumé : Malgré les progrès réguliers des prévisions météorologiques, celles-ci demeurent imparfaites et, surtout, incertaines. Ces erreurs de prévision combinent de façon indissociable les imperfections des observations, d'autres de la modélisation, qui peuvent faire l’objet d'améliorations sans pouvoir être totalement supprimées. C'est pourquoi on affiche parfois une confiance limitée dans les prévisions annoncées : les prévisions sont incertaines et l'intérêt pour quantifier cette incertitude ne cesse de grandir. Pour ce faire, le recours à des techniques de prévision probabiliste s'impose. Après quelques quelques rappels autour de la notion de prévisibilité de l'atmosphère, on présentera les méthodes probabilistes mises en oeuvre quotidiennement dans les centres de prévision opérationnels, ainsi que l'information utile que les utilisateurs peuvent en retirer.
    • 22/09/2017 : Annotating long non-coding RNAs in model and non-model organisms using a Random Forest strategy Valentin Wucher (CRG, Barcelone, Espagne) diaporama
    Résumé : Le séquençage du transcriptome (RNA-seq) est devenu un standard pour identifier et caractériser les différentes populations d'ARN. Néanmoins, l'une des principales difficultés consiste à pouvoir classer les nouveaux transcrits et notamment différencier les ARN qui seront traduits en protéines (ARNm/mRNA) des ARN longs non-codants (ARNlnc/lncRNA). Dans ce but, nous avons développé FEELnc (FlExible Extraction of LncRNAs), un programme ne nécessitant pas d'alignements de séquences (alignment-free) et qui permet d'annoter les ARNlnc via une stratégie Random Forest basée/entraînée sur les fréquences de multiples k-mer et une définition d'ORF relâchée. Comparées avec 5 autres méthodes, les performances de FEELnc montrent des résultats similaires ou meilleurs sur des jeux de données connus de lncRNA/mRNAs issus de l'annotation de référence GENCODE (homme et souris) et NONCODE (base de données d'ARNlnc chez des espèces non-modèles). FEELnc automatise aussi l'annotation des ARNlnc en sous-classes distinctes (génique et intergéniques) et permet d'identifier des ARNlnc même sans séquences d'ARN longs non-codants en apprentissage, ce qui permet son utilisation pour des espèces non-modèles. FEELnc a été utilisé chez 3 espèces non-modèles : le chien, le poulet et l'algue (Ectocarpus), permettant l'identification de plusieurs ARNlnc.
    • 15/09/2017 : Mesures de dépendance et échantillonnage Monte-Carlo multi-niveaux pour la quantification d'incertitudes et l'analyse de sensibilité Matthias De Lozzo (CERFACS Toulouse) diaporama
    Résumé : Les outils de quantification d'incertitudes et d'analyse de sensibilité permettent d'étudier l'impact des paramètres incertains d'un simulateur numérique sur sa sortie (moments centraux, quantiles, probabilités de dépassement de seuil, parts de variabilité de la sortie imputables aux différents paramètres, etc.). Requérant un nombre important d'évaluations du simulateur, il est courant de remplacer ce dernier par un modèle de substitution (krigeage, chaos polynomial, ...). Néanmoins, une erreur de métamodèle vient dans ce cas s'ajouter à celle d'échantillonnage. Pour palier ceci, cet exposé présente deux types de travaux récents et en cours se passant de métémodèle. Un premier consiste à remplacer les indices de sensibilité usuels par des nouveaux basés sur des mesures de dépendance s'appuyant sur la théorie des RKHS et moins gourmand en simulations. Un second vise à remplacer les méthodes d'échantillonnage de type Monte-Carlo par des méthodes d'échantillonnage de type Monte-Carlo multi-niveaux faisant appel à des évaluations de versions dégradées et plus rapides du simulateur. Ces travaux sont appliquées à des problématiques de sciences de l'environnement.
    Résumé : Integrating the increasing number of available multi-omics cancer data remains one of the main challenges to improve our understanding of cancer. Our approach is based on AMARETTO, an algorithm that integrates DNA methylation, DNA copy number and gene expression data to identify cancer driver genes and associates them to modules of co-expressed genes. We then propose a pancancer version of AMARETTO by connecting all modules in pancancer communities. This leads to the identification of major oncogenic pathways and master regulators involved in different cancers.

     

    2016-2017

    Pas de séminaire entre le 7 juillet et le 1er septembre (vacances scolaires).

    • 30/06/2017 : Revealing the hidden structure of dynamic ecological networks Catherine Matias (CNRS, UPMC & Université Paris Diderot)
    Résumé : Recent technological advances and long-term data studies provide interaction data that can be modelled through dynamic networks, i.e a sequence of different snapshots of an evolving ecological network. Most often time is the parameter along which these networks evolve but any other one-dimensional gradient (temperature, altitude, depth, humidity, . . . ) could be considered. Here we propose a statistical tool to analyse the underlying structure of these networks and follow its evolution dynamics (either in time or any other one-dimensional factor). It consists in extracting the main features of these networks and summarise them into a high-level view. We analyse a dynamic animal contact network and a seasonal food web and in both cases we show that our approach allows for the identification of a backbone organisation as well as interesting temporal variations at the individual level. Our method, implemented into the R package dynsbm, can handle the largest ecological datasets and is a versatile and promising tool for ecologists that study dynamic interactions.
    • 29/06/2017 : From Artificial Intelligence to Conservation Iadine Chadès (CSIRO, Brisbane)
    Résumé : À travers mon expérience personnelle, je propose de partager les avancées et challenges autour de la prise de décisions dans l'incertain et l'optimisation dans le domaine de la biologie de la conservation.
    • 23/06/2017 : Accounting for Linkage Disequilibrium in genome scans for selection without individual genotypes : the local score approach Magali San Cristobal (Dynafor/MIA) diaporama
    Résumé : Detecting genomic footprints of selection is an important step in the understanding of evolution. Accounting for linkage disequilibrium in genome scans increases detection power, but haplotype-based methods require individual genotypes and are not applicable on pool-sequenced samples. We propose to take advantage of the local score approach to account for linkage disequilibrium in genome scans for selection, cumulating (possibly small) signals from single markers over a genomic segment, to clearly pinpoint a selection signal. We applied the local score approach to Pool-Seq data obtained from a divergent selection experiment on behavior in quail, and obtain precise and biologically coherent selection signals, while competing methods fail to highlight any clear selection signature.

    Pas de séminaire le 16 juin (Tolosanes).

    • 9/06/2017 : Integrating TARA Oceans datasets using unsupervised multiple kernel learning Jérôme Mariette (MIAT, INRA)
    Résumé : In metagenomic analysis, the integration of various sources of information is a difficult task since produced datasets are often of heterogeneous types. These datasets can be composed of species counts, which need to be analysed with distances, but also species abundances, interaction networks or phylogenetic information which have been shown relevant to provide a better comparison between communities. Standard integration methods can take advantage of external information but do not allow to analyse heterogenous multi-omics datasets in a generic way. We propose a multiple kernel framework that allows to integrate multiple datasets of various types into a single exploratory analysis. Several solutions are provided to learn either a consensus meta-kernel or a meta-kernel that preserves the original topology of the datasets. This kernel is subsequently used in kernel PCA to provide a fast and accurate visualisation of similarities between samples, in a non linear space and from the multiple source point of view. A generic procedure is also proposed to improve the interpretability of the kernel PCA in regards with the original data. We applied our framework to the multiple metagenomic datasets collected during the TARA Oceans expedition. We demonstrate that our method is able to retrieve previous findings in a single analysis as well as to provide a new image of the sample structures when a larger number of datasets are included in the analysis.
    Résumé : During the last decade, numerous studies have shown the important role of nuclear organization on gene expression regulation (Bickmore & Van Steensel, 2013). Genomic long-range interactions in cis (intra-chromosomal) and in trans (inter-chromosomal) are involved in the activation of tissue-specific gene networks (Fanucchi et al., 2013) and chromosome conformation profiling has been shown to provide insightful information about the establishment of complex genetic disorders during development (Lupianez et al., 2015; Won et al., 2016). However, how and to which extent the genome conformation regulates its function remains to be explained. It is now possible to characterize spatial interactions between pairs of loci genome-wide by high throughput Chromosome Conformation Capture approaches (Hi-C, Dekker et al 2013). Recent developments of the Hi-C technology allowed to comprehensively describe the nuclear organization of the genome in model species at high resolution (Rao et al 2014). Here we present the basis of Hi-C data generation and analysis. Using two current INRA projects as examples of application, we will briefly introduce the experimental protocol and the bioinformatics pipeline to process paired-end sequencing reads, map them on a genomic reference, quantify 3D interactions between pairs of genomic loci and generate contact matrices. Then, we will present an overview of the statistical analyses (exploratory analysis, clustering, differential analysis) and challenging questions that are still to be addressed.

    Pas de séminaire le 26 mai (pont de l'Ascension).

    • 19/05/2017 : In silico identification of transcription factor binding sites Jimmy Vandel (LIRMM)
    Résumé : Amongst the multiple levels of gene regulation, transcription regulation occurs through the binding of transcription factors (TF) to short specific DNA sequences (TF motifs).The small length of these TF motifs (10 to 20 nucleotides) coded with a limited alphabet (A,T,G or C) makes their identification difficult. Hence classical methods for TF binding-sites identification usually return lots of potential sites. But only a small fraction of these motifs occurrences are functionals due to other factors as epigenetic effects, sequence nucleotide composition or presence of associated motifs. Our aim is to improve identification of functionals TF binding sites on DNA through new scoring function based on linear models taking into account several TF motif scores and nucleotide compositions of genes sequences. We train and test this new scoring function using Chip-Seq data which identify DNA regions bound by a specific TF.
    • 12/05/2017 : Spectral mixture analysis - Beyond the linear mixing model Nicolas Dobigeon (ENSEEIHT) diaporama
    Résumé : Spectral mixture analysis, aka spectral unmixing, is a crucial step while analyzing data provided by various imaging modalities, including astronomy, remote sensing and microscopy. It consists of decomposing the measurements into a set of elementary spectra and quantifying their respective proportions in the observed mixtures. A large majority of the unmixing approaches implicitly or explicitly assume that these measurements result from a linear combination of the elementary spectra. Recent advances, mainly conducted in the remote sensing and geoscience community, have attempted to overcome the intrinsic limitations of this linear mixing model. This talk will propose an overview of these linear and nonlinear mixing models and the main corresponding unmixing approaches.
    • 5/05/2017 : Design et Apprentissage de grands réseaux de régulation de gènes par rétro-ingénierie Clément Carré (MIAT)
    Résumé : La connaissance complète du réseau de régulation est d'une importance capitale pour comprendre le fonctionnement des organismes vivants. Hélas, cette connaissance coûte très cher en temps et en argent pour identifier les gènes qui entrent en jeu dans cette régulation. Le machine learning peut nous permettre de prédire les noeuds intéressants du réseau, mais cette approche nécessite une connaissance a-priori d'une partie du réseau et nous avons voulu savoir comment optimiser l'acquisition de cette connaissance pour permettre une reconstruction optimale. La construction d'un modèle pour la génération de données de grande taille (FRANK) et les va-et-viens avec les données de la biologie nous a permis d'apporter des éléments de réponse à quelques unes de ces questions. Après une présentation de ce que sont les réseaux de régulation de gènes et leurs enjeux, je présenterais le modèle que nous avons mis en place avec FRANK. Enfin, dans une dernière partie, je présenterais quelques résultats de machine learning obtenu sur les données générées par FRANK in-silico et qui seront comparées avec les résultats obtenu sur un jeu de données réelles d'E. Coli, le tout dans l'objectif de répondre à des questions d'ordre biologique.
    • 28/04/2017 : Séminaire des doctorants - salle Marc Ridet Programme détaillé
      • 9h30-09h50 Walid Ben Saoud Benjerri (MIAT) Algorithmes d'alignement de petits ARN diaporama
      • 09h50-10h10 David Gaudrie (MIAT) Optimisation en haute dimension de l'aérodynamique interne et externe de véhicules diaporama
      • 10h10-10h30 Léonard Torossian (MIAT) Métamodélisation et optimisation robuste - application à la conception d'idéotypes sous incertitude climatique diaporama
      • 10h30-11h00 pause
      • 11h00-11h20 Patrick Tardivel (Toxalim) Procédure de tests multiple contrôlant la familywise error rate utilisant un estimateur de type lasso. Application en métabolomique' diaporama
      • 11h20-11h40 Alyssa Imbert (MIAT) Imputation multiple hot-deck pour l'inférence de réseaux RNA-Seq diaporama
      • 11h40-12h00 Cyriel Paris (GenPhySE) Application d'une méthode spectrale utilisant des séries temporelles pour estimer les paramètres de sélection d'une SNP dans un modèle de diffusion de Wright Fisher diaporama
      • 12h00-14h00 déjeuner
      • 14h00-14h20 Étienne Auclair (MIAT) Réseau bayésien dynamique étiqueté multicontact pour l'apprentissage de réseaux écologiques diaporama
      • 14h20-14h40 Marie-Anne Vedy-Zecchini (AGIR) Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique diaporama
      • 14h40-15h00 Sébastien Le Coz (MIAT) Variational EM pour Factorised Hidden Markov Models avec retour de données
      • 15h00-15h30 pause diaporama
      • 15h30-15h50 Clément Viricel (MIAT) Algorithme d'optimisation et de comptage : Prédiction de différence en énergie libre suite à une mutation diaporama
      • 15h50-16h10 Franck Cerutti (MIAT) Comparaison de l'évolution des petits ARN régulateurs et des gènes codants au sein du genre Listeria'
      • 16h10-16h30 Adrien Lagrange (Dynafor) Du démélange pixellique à la classification thématique - Apprentissage multirésolution pour l'analyse hiérarchique d'images hyperspectrales et hypertemporelles diaporama
    • 21/04/2017 : La théorie du chaos et son potentiel applicatif pour l’étude des dynamiques environnementales Sylvain Mangiarotti (CESBIO, Université Toulouse 3)
    Résumé : La théorie des systèmes dynamiques non linéaires–ou théorie du chaos–offre un support théorique particulièrement riche pour l’étude, la modélisation et le suivi des comportements dynamiques. Issue de cette théorie, la modélisation par technique globale a été initiée au début des années 1990. Elle permet aujourd’hui, partant de jeux de données de taille restreinte (une ou quelques séries temporelles) éventuellement courtes et acquises en conditions réelles, d’obtenir des modèles de petites dimensions sous forme d’équations aux dérivées ordinaires. Dans cet exposé, nous présenterons d’abord la technique de modélisation globale, et son intérêt pour modéliser des dynamiques mal identifiées (équations non ou mal connues) et pouvant présenter une imprévisibilité à plus ou moins long terme. Nous nous concentrerons ensuite sur trois types d’applications : la modélisation univariée appliquée à la modélisation des cultures céréalières en région semi-aride, la modélisation multivariée appliquée à l’inférence des liens causaux en éco-épidémiologie, et la détection des comportements dynamiques appliquée à la classification des cultures.

    Pas de séminaire les 7 et 14 avril (vacances scolaires).

    • 31/03/2017 : Statistical modeling of gene-gene interaction in the context of case-control genome-wide association studies Mathieu Emily (AgroCampus Ouest) diaporama
    Résumé : Case-control genome-wide association studies (GWAS) aim at investigating the genetic components of binary traits like major diseases. Single-locus approaches, whereby a large number of Single Nucleotide Polymorphisms (SNPs) are tested independently for association, have first been developed to analyse GWAS. Although such single-locus approaches have successfully identified regions of disease susceptibility, findings were of modest effect and a large proportion of the genetic heritability is still not covered for common complex diseases. Gene-gene interaction (or epistasis) is often cited as one of the main biological mechanism carrying the "missing heritability" in GWAS. Since human complex diseases are generally caused by the combined effect of multiple genes, the detection of genetic interactions is thus essential to improve our knowledge of the etiology of complex diseases. However, detecting gene-gene interaction raise issues from a statistical and a computational point-of-view. First, the lack of a "clear" definition of the term interaction makes the statistical modeling challenging. Next, the interaction-related combinatorics remains a burden for whole genome scanning. In this presentation, I will introduce several strategies to search for interaction. In a first part, I will focus on the detection of SNP-SNP interaction. In the second part, I will introduce proposed solutions to investigate interaction at the level of the gene. The evaluation of the methods will be assessed by the analysis of the so-called WTCCC data set composed of 5000 individuals (2000 cases and 3000 controls) and 500 000 SNPs.
    Résumé : Nonnegative data decomposition & dictionary learning are popular research topics in machine learning and signal processing. They have notorious applications in text retrieval, spectral unmixing, collaborative filtering, image inpainting, etc. In this talk I will review common probabilistic dictionary-based models for nonnegative data and discuss two approaches for estimation, namely maximum joint likelihood estimation (MJLE, closely related to penalised nonnegative matrix factorisation) and the less usual maximum marginal likelihood estimation (MMLE) that involves the integration of the decomposition coefficients. MMLE provides a better-posed estimator than MJLE and furthermore embeds automatic model order selection, a surprising result validated empirically. I will present examples of decomposition of word counts from song lyrics for semantic analysis and examples of decomposition of spectrograms for audio source separation.
    • 17/03/2017 : Tests multiples d'indépendance pour des processus ponctuels : une approche Unitary Events par permutation basée sur le nombre de coïncidences Mélisande Albert (IMT, INSA de Toulouse) diaporama
    Résumé : Les dépendances éventuelles entre zones du cerveau ou entre neurones, et en particulier le phénomène de synchronisation, sont communément admises comme faisant partie intégrante du code neuronal. Il est aujourd’hui possible d’enregistrer simultanément les temps de potentiels d’action (trains de spikes) de différents neurones. Une première étape consiste donc à comprendre si deux trains de spikes, modélisés par des processus ponctuels, correspondant à deux neurones, sont indépendants ou non. Après avoir présenté le contexte et les méthodes les plus utilisées en neurosciences, ainsi que leurs limites, je présenterai un test d’indépendance non-paramétrique entre deux processus ponctuels, basé sur le principe de permutation. Théoriquement, il est prouvé qu’il est de bon niveau (non asymptotique), et ce même lorsque les valeurs critiques sont approchées par des méthodes de Monte Carlo. Des garanties en termes de puissance asymptotique ont également été démontrées. Les performances pratiques ainsi qu’une comparaison avec les méthodes usuelles seront illustrées sur des données simulées. Ensuite, je présenterai la procédure de tests multiples permettant de détecter les synchronisations entre les trains de spikes. Cette méthode sera comparée également aux méthodes usuelles sur des données simulées avant d’être appliquées à de vraies données. Ce travail est en collaboration avec Yann Bouret, Magalie Fromont et Patricia Reynaud-Bouret.
    Résumé : Interval methods are the only approaches that guarantee a numerical proof of optimality, even in the presence of round-off errors. Branch and bound algorithms based on interval methods nowadays exploit powerful refutation and contraction techniques stemming from interval analysis and constraint programming. State-of-the-art solvers are generally integrative methods: they invoke local optimization techniques on each subspace to find a good approximation of the global minimum. In this presentation, we propose a cooperative framework that hybridizes in a parallel fashion interval methods and evolutionary algorithms, a class of stochastic global optimization methods endowed with mechanisms that help escape from local minima. A comparison with cutting-edge interval solvers (Ibex, IBBA) and non-rigorous MINLP solvers (BARON, Couenne) on a subset of unconstrained and constrained benchmark problems shows that our approach is highly competitive. In particular, we provide a numerical proof of optimality for an open instance of the Lennard-Jones clusters with 5 atoms.
    • 3/03/2017 : Using Machine Learning and Integrative Approaches for Current Problems in Structural Biology Sergei Grudinin (NANO-D, INRIA Rhone-Alpes)
    Résumé : Although the fundamental forces between atoms and molecules are almost fully understood at a theoretical level, and computer simulations have become an integral part of research activities, the application of these methods to large biomolecules still faces important practical difficulties due to the combinatorial explosion of possible interactions involved. Developing efficient protein structure prediction algorithms thus remains a major scientific challenge in computational biology. I will give an overview of computational methods for protein structure prediction developed in our group at Inria Grenoble. In particular, I will present how machine learning and optimization in general can be used in current problems of computational structural biology. More specifically, I will present our recent results on the prediction of properties of small molecules, on the prediction of protein-protein and protein-drug interactions, as well as individual protein folds at atomic level. I will also present some methods for efficient space exploration including FFT-accelerated techniques, symmetry-driven methods, SAXS-assisted optimization, and our recent developments in non-linear normal mode analysis.
    • 24/02/2017 : Modeling Symmetrical Protein Structures in the CASP/CAPRI Docking Experiment Dave Ritchie (LORIA, INRIA)
    Résumé : One of the current challenges in structural biology is to predict how two or more protein molecules come together and bind to form a complex. This is often referred to as "the protein docking problem." Simulating protein docking accurately is computationally difficult, due to the enormous size of the search space and the delicate interplay of competing inter-molecular forces. As a first approximation, proteins may often be considered to be rigid 3D bodies. This allows the first part of the problem to be attacked efficiently using fast Fourier transform (FFT) based approaches. However, it is difficult to encode accurate potentials within the FFT paradigm. Thus, it seems, there is always a trade-off between speed and accuracy. In this presentation, I will introduce the basic principle of protein docking using FFT techniques. I will then describe a two-step approach to the docking problem in which a fast polar Fourier search is used to find a small list of feasible solutions which are then refined using more rigorous energy minimisation. In particular, I will focus on recent work to model symmetrical protein complexes. Several of the targets in the last CASP/CAPRI protein modeling and docking experiment were predicted by the CASP organisers to be symmetric homo-dimers. Thus, a new challenge for the CAPRI docking community was to predict structures of the final complexes using the monomer structures predicted by the CASP fold prediction community. Our results show that many of the CASP models are dockable in the sense that they can lead to acceptable models of symmetrical complexes, but that using NAMD energy minimization to pull out acceptable complexes from a large ensemble of docked CASP models is computationally expensive.

    Pas de séminaire les 10 et 17 février (vacances scolaires).

    • 3/02/2017 : SNP calling from RNA-seq data without a reference genome: identification, quantification, differential analysis and impact on the protein sequence Vincent Lacroix (LBBE, Lyon)
    Résumé : SNPs (Single Nucleotide Polymorphisms) are genetic markers whose precise identification is a prerequisite for association studies. Methods to identify them are currently well developed for model species, but rely on the availability of a (good) reference genome, and therefore cannot be applied to non-model species. They are also mostly tailored for whole genome (re-)sequencing experiments, whereas in many cases, transcriptome sequencing can be used as a cheaper alternative which already enables to identify SNPs located in transcribed regions. In this paper, we propose a method that identifies, quantifies and annotates SNPs without any reference genome, using RNA-seq data only. Individuals can be pooled prior to sequencing, if not enough material is available from one individual. Using pooled human RNA-seq data, we clarify the precision and recall of our method and discuss them with respect to other methods which use a reference genome or an assembled transcriptome. We then validate experimentally the predictions of our method using RNA-seq data from two non-model species. The method can be used for any species to annotate SNPs and predict their impact on the protein sequence. We further enable to test for the association of the identified SNPs with a phenotype of interest.
    • 27/01/2017 : Planification multi-agent sous incertitude dans des environnements non-stationnaires Aurélie Beynier (LIP6, Université Paris 6)
    Résumé : Afin de résoudre des problèmes de décision multi-agents en environnements incertains, les Processus Décisionnels de Markov Décentralisés (DEC-POMDPs) ont connu un intérêt croissant au cours des dernières années. Ce modèle permet à un ensemble d'agents de prendre des décisions coopératives de façon distribuée à partir d'observations partielles sur l'environnement et les autres agents. Toutefois, comme cela est le cas pour les POMDPs, la dynamique de l’environnement est supposée stationnaire, c’est-à-dire que les probabilités de transitions entre états n'évoluent pas au cours du temps. Dans certains cadres applicatifs, cette hypothèse n'est pas vérifiée. Dans cet exposé, nous présenterons une approche permettant aux agents d'adapter leurs décisions en fonction de l'évolution de la dynamique du système. Nous envisagerons le problème de décision non-stationnaire comme une succession de « modes » où chaque mode est un problème de décision stationnaire. Nous aborderons la question de la détection du changement de mode et de l'apprentissage de la fonction de transition au sein d'un mode. Ces travaux seront illustrés sur un problème de patrouille multi-agent pour la détection d’événements anormaux.
    • 20/01/2017 : Utilisation de données météorologiques archivées pour construire des graphes de dispersion Samuel Soubeyrand (INRA, Biostatistique et Processus Spatiaux, Avignon)
    Résumé : Nombre de modèles épidémiques incorporent des noyaux de dispersion qui sont, la plupart du temps stationnaires dans l'espace. Pourtant, la dispersion est un processus généralement non-stationnaire dans les situations réelles. Pour modéliser la non-stationnarité de la dispersion, différentes approches ont été envisagées (e.g. les trajectoires de moindre coût, les distances de résistance, l'utilisation de covariables permettant de moduler la force des sources d'agents de dissémination, les équations intégro-différentielles inhomogènes ou encore les modèles de dispersion atmosphérique). L'approche que nous présenterons pour modéliser la non-stationnarité de la dispersion repose sur l'utilisation de données météorologiques archivées. De telles données permettent de reconstruire les trajectoires passées des masses d'air et, en agrégeant ces trajectoires, d'estimer des graphes de dispersion potentielles au sein d'un ensemble de sites répartis dans l'espace. Nous discuterons lors de la présentation les applications et implications auxquelles ce type de graphes de dispersion devrait donner lieu.

    Mercredi 17 janvier à 13h30, Charlotte Dayde soutiendra sa thèse intitulée Comprendre le processus de prise de décision opérationnelle en agriculture : Une approche en rationalité limitée, amphi Marc Ridet

    Résumé : Afin d'expliquer la diversité des pratiques des agriculteurs, cette thèse explore le rôle des caractéristiques du processus de décision dans les choix opérationnels réalisés. Sur la base d'une méthode à deux volets (modélisation et enquêtes), nous avons proposé un modèle conceptuel du processus de prise de décision des agriculteurs, caractérisé les différences possibles au sein de ce processus (appelées modes de décisions), mis en évidence le lien entre ces modes et les pratiques, précisé les modalités de simplification du processus de décision et identifié de nouveaux leviers d'action pour l'accompagnement des agriculteurs. De nature générique, les modèles et les méthodes d'enquêtes proposés ont été appliqués à un cas d'étude qui à permis d'expliquer l'hétérogénéité des pratiques antifongiques des agriculteurs sur le blé tendre en Midi-Pyrénées par leurs caractéristiques personnelles, par les caractéristiques de leurs exploitations et par leurs modes de décision.
    • 13/01/2017 : Prédire un comportement physiologique à partir du génome grâce à la modélisation métabolique. Applications aux microalgues et pistes de recherche pour les interactions plantes-microorganismes. Caroline Baroukh (LIPM, INRA Toulouse)
    Résumé : La modélisation métabolique est un outil performant pour mieux comprendre, prédire et optimiser les systèmes biologiques. Malheureusement, l’utilisation de ce type de modélisation est difficile à cause du manque de données expérimentales nécessaires pour définir et calibrer les cinétiques des réactions appartenant aux différents chemins métaboliques. C’est pourquoi, les modèles métaboliques sont souvent utilisés sous l’hypothèse d’état quasi-stationnaire. Cependant, pour certains procédés, comme la croissance photoautotrophique des microalgues, cette hypothèse ne semble pas être valable. Dans cette présentation, deux nouvelles méthodologies de modélisation métabolique qui relâchent l’hypothèse de quasi-stationnarité seront exposées. Ces méthodologies seront appliquées à la croissance de microalgues sous différents régimes trophiques. Des pistes sur l’application de la modélisation métabolique pour les interactions plantes-microorganismes seront également présentées.
    • 6/01/2017 : Spatial Gaussian process modeling with large data sets François Bachoc (IMT, Université Paul Sabatier, Toulouse)
    Résumé : In the first part of the talk, we will introduce spatial Gaussian processes. Spatial Gaussian processes are widely studied from a statistical point of view, and have found applications in many fields, including geostatistics, climate science and computer experiments. Exact inference can be conducted for Gaussian processes, thanks to the Gaussian conditioning theorem. Furthermore, covariance parameters can be estimated, for instance by Maximum Likelihood. However, one limitation of Gaussian process models is that they entail computationally intensive calculations when the data-set size n is large. Hence, there is a lively research activity for designing and anayzing approximate procedures which are computationally cheaper. In the second part of the talk, we present a contributions in this direction. We propose a new procedure based on aggregating several Gaussian process models, each based on a different subset of the total data set. We support this procedure with asymptotic results.

    Pas de séminaire les 23 et 30 décembre (vacances scolaires).

    • 16/12/2016 : Apprentissage rapide de champs de Markov conditionnels relaxés par méthodes bloc proximales duales stochastiques Guillaume Obozinski (Ecole des Ponts ParisTech)
    Résumé : Le développement récent d'algorithmes stochastiques pour l'optimisation des grandes sommes finies de fonctions (SAG, SDCA, SVRG, SAGA) fournit, pour la résolution des problèmes de minimisation du risque empirique et du risque empirique régularisé, des algorithmes dont les vitesses de convergence représentent une nette amélioration par rapport à l'état de l'art antérieur. Les méthodes classiques d'apprentissage dans les modèles graphiques non-orientés s'appuient sur le calcul du gradient du problème primal qui nécessite de résoudre à chaque itération un problème d'inférence probabiliste difficile. Dans cet exposé je montrerai d'abord comment, sur la base d'une formulation variationnelle relaxée, il est possible de reformuler l'apprentissage des modèles graphiques non-orientés dans le dual de telle sorte que l'inférence ne soit plus nécessaire à chaque étape, mais que l'inférence et l'apprentissage se fassent simultanément de façon implicite dans le dual. Ensuite je montrerai comment des algorithmes de type stochastic dual coordinate ascent (SDCA) peuvent être appliqués à l'apprentissage de ces modèles et obtiennent en pratique des vitesses de convergence linéaires.
    • 9/12/2016 : High-throughput manual-quality annotation of full-length long noncoding RNAs with Capture Long-Read Sequencing (CLS) Julien Lagarde (CRG, Barcelone)
    Résumé : Efforts to decipher the functions of long noncoding RNAs depend on availability of full-length and comprehensive transcript annotations. The gold-standard manually-curated GENCODE collection remains far from complete: many genes models are fragmentary, while thousands more remain uncatalogued. To accelerate lncRNA annotation, we have developed RNA Capture Long Seq (CLS), combining targeted RNA capture with 3rd generation long-read sequencing (PacBio). We present a survey of the entire GENCODE intergenic lncRNA populations in matched human and mouse tissues at a depth of 2 million reads each. Mapping and merging these data more than doubles the annotation complexity of these loci. Novel splice junctions are supported by short-read sequencing and are enriched in known splicing motifs. Combining transcription initiation and termination data, we catalogue a non-redundant set of 7,843/3,025 end -to-end novel lncRNA transcript structures, respectively. This unique full-length dataset reveals fundamental similarities and differences of lncRNA and protein-coding genes for the first time. CLS removes a longstanding bottleneck of transcriptome annotation, generating manual-quality full-length transcript models at high-throughput scales.

    Pas de séminaire le 2 décembre (Journée Bioinformatique et Biostatisque Genotoul).

    • 25/11/2016 : Présentations de Phyloligo/Contalocate et eukarHT Ludovic Mallet (MIAT, INRA)
    Résumé : Sequencing projects often uncover more species or material than expected. Biological systems can be more complex than initially thought, sometime resulting in impromptu sequences in the sample. Whether it is natural: obligatory association of species, uncultivable organism, organelles, or unexpected: contamination, uncharacterised species association, such datasets often mix diverse species with different lifestyles prompting specific handling in downstream analyses and therefore a preliminary separation of the subsets. We propose a duet of tools: PhylOligo and ContaLocate to explore, identify and extract species-specific sequences based on oligonucleotide profile after a genome assembly was performed. The second part of the presentation will be about various machine learning methods over gene networks that we used with simulated horizontal transfers to assess the identification power by phylogeny-free methods of horizontally transferred genes in eukaryotes. diaporama
    • 18/11/2016 : Stochastic block model and logistic regression for networks: a variational Bayes approach Stéphane Robin (AgroParisTech, INRA) diaporama
    Résumé : The stochastic block model (SBM) has become a standard tool for the analysis of network-structured data. This model is one of the many state-space models that have been proposed for network analysis and, as such, its inference raises specific issues that can be circumvented using variational (Bayes) techniques. Another general network model, still much less popular, is the W-graph model, which is characterized by the so called graphon function. We will show how an estimate of this function can be obtained using Bayesian averaging over a series of stochastic block models. This inferred graphon function provides a new description of the network, although its interpretation suffers from identifiability issues. When covariates are available, the logistic regression model constitutes a natural and simple tool to understand how they contribute to explain the topology of a (binary) network. We will show how the logistic model for graph can be combined with a graphon-like residual term. This residual term is supposed to characterize the residual structure of the network, that is not explained by the covariates. The goodness-of-fit of the logistic regression then amounts to check if the residual graphon function is constant. This presentation will be illustrated with several examples from social and life sciences. It is a joint work with Pierre Latouche (SAMM, Univ. Paris 1) and Sarah Ouadah (AgroParisTech/INRA).

    Pas de séminaire les 28 octobre et 4 novembre (vacances scolaires) ni le 11 novembre (férié).

    • 21/10/2016 : Utilisation de la programmation dynamique stochastique duale (SDDP) pour produire et analyser des solutions coopératives dans des bassins versants internationaux Charles Rougé (University of Manchester, UK)
    Résumé : L'exploitation des ressources en eaux de bassins transnationaux a été marqué au cours des dernières décennies par le développement et la gestion non-coopératives d'infrastructures. La recherche de politiques de développement et de gestion coopératives permet d'évaluer le coût de la non-coopération et de rechercher de mécanismes institutionnels internationaux. Cette présentation met l'accent sur l'utilisation d'un algorithme d'optimisation, SDDP, pour produire des politiques de gestion coopérative dans des bassins versants de grande échelle où d'autres algorithmes sont victimes de la « malédiction de la dimension ». Elle se focalise sur l'utilisation de SDDP dans des contextes dans lesquels les données sont rares, en prenant comme exemples les bassins du Tigre et de l'Euphrate au Moyen-Orient et dans une moindre mesure, le bassin du Zambèze en Afrique Australe. Le bassin du Zambèze est introduit pour démontrer l'impact de la rareté des données sur SDDP, et les solutions qui ont été apportées. Ensuite, l'analyse de la situation présente du Tigre et de l'Euphrate montre comment SDDP peut être utilisé de concert avec des techniques de télédétection pour mettre en évidence les vulnérabilités liés à l'état des ressources en eaux dans la région, et ce même dans un contexte conflictuel limitant drastiquement l'accès aux données. résumé en khuzdul (PDF)

    Pas de séminaire le 14 octobre Colloque CARTABLE.

    Résumé : Let (X_1,…,X_n) be a d-dimensional i.i.d sample from a distribution with density f. The problem of detection of a two-component mixture is considered. Our aim is to decide whether f is the density of a standard Gaussian random d-vector (f=ϕ_d) against f is a two-component mixture: f=(1−ε)ϕ_d+εϕ_d(.−μ) where (ε,μ) are unknown parameters. Optimal separation conditions on ε,μ,n and the dimension d are established, allowing to separate both hypotheses with prescribed errors. Several testing procedures are proposed and two alternative subsets are considered. Travail en collaboration avec Béatrice Laurent et Clément Marteau.
    • 30/09/2016 : Aide à la conception et à l'exploitation de modèles à base d'agents Patrick Taillandier (MIAT)
    Résumé : La modélisation à base d’agents, qui consiste à représenter explicitement les entités composant le système étudié sous la forme d’un ensemble d’entités informatiques autonomes en interaction appelées agent, a connu un grand essor ces dernières années. Ces modèles ouvrent de nombreuses perspectives tant pour la recherche fondamentale que pour la mise en place de politiques publiques. Malheureusement, l'utilisation de l’approche agent requiert de posséder des compétences solides en programmation et en intelligence artificielle, en particulier lorsqu'il s'agit de modéliser des systèmes complexes intégrant des aspects environnementaux et sociaux. La plupart des modèles sont ainsi encore développés par des informaticiens et non directement par des experts du domaine, ce qui ralentit la diffusion de cette approche et la transmission des connaissances aux acteurs territoriaux. Les travaux de recherche que je vais vous présenter durant ce séminaire visent à répondre à ce problème. Ils concernent différents aspects du processus de modélisation et en particulier l'aide au développement de modèles. Ce séminaire sera aussi l'occasion de présenter la plate-forme open-souce de modélisation et de simulation GAMA, qui est au coeur de mes travaux. De nombreux projets de recherche utilisant cette plate-forme et touchant des domaines d'application aussi variés que l'agronomie, les dynamiques urbaines, le trafic routier, la gestion de projets et l'épidémiologie seront évoqués.
    Résumé : I will describe block conditional gradient methods for convex optimization. The presentation will be focused on machine learning related aspects. I will give a general introduction of the conditional gradient method, a brief overview of its history, reasons of present renewed interest and recent advances. I will then introduce the block conditional gradient as a dual method for empirical risk minimization problems. The method really comes into its own for classes of problem for which more efficient optimization primitives (e.g. projections) are not affordable. The structured output learning problem falls in this category. I will describe the application of block conditional gradient to the training of the structured SVM when the output space is combinatorial with specific decoding oracles. Theoretical and empirical results will conclude the talk. The presentation is mostly based on the literature as well as results from a collaboration with Amir Beck and Shoham Sabach.
    • 16/09/2016 : Solving multi-objective optimization problems in conservation with the reference point method Yann Dujardin (CSIRO Land and Water, Melbourne, Australia)
    Résumé : Managing biodiversity extinction crisis requires wise decision-making processes able to account for the limited of resources available. In most decision problems in conservation biology, several conflicting objectives have to be taken into account. Most methods used in conservation either provide suboptimal solutions or use strong assumptions about the decision-maker’s preferences. The goal of these two short talks is to present new multi-objective linear programming formulations for two multi-objective optimization problems in conservation, allowing the use of a reference point approach. Reference point approaches solve multi-objective optimization problems by interactively representing the preferences of the decision-maker with a point in the criteria space, called the reference point. We modelled and solved the following two conservation problems: a dynamic multi-species management problem under uncertainty and a spatial allocation resource management problem. Results show that the reference point method outperforms classic methods while illustrating the use of an interactive methodology for solving combinatorial problems with multiple objectives. The method is general and can be adapted to a wide range of ecological combinatorial problems.

    Séance exceptionnelle de séminaire en partenariat avec Toulouse School of Economics, manufacture des tabacs (salle MS003) le jeudi 15 septembre à 11h  :

    • 15/09/2016 : Beyond stochastic gradient descent for large-scale machine learning Francis Bach (INRIA, ENS)
    Résumé : Many machine learning and statistics problems are traditionally cast as convex optimization problems. A common difficulty in solving these problems is the size of the data, where there are many observations ("large n") and each of these is large ("large p"). In this setting, online algorithms such as stochastic gradient descent which pass over the data only once, are usually preferred over batch algorithms, which require multiple passes over the data. Given n observations/iterations, the optimal convergence rates of these algorithms are O(1/n^(1/2)) for general convex functions and reaches O(1/n) for strongly-convex functions. In this talk, I will show how the smoothness of loss functions may be used to design novel simple algorithms with improved behavior, both in theory and practice: in the ideal infinite-data setting, an efficient novel Newton-based stochastic approximation algorithm leads to a convergence rate of O(1/n) without strong convexity assumptions. (joint work with Alexandre Defossez, Aymeric Dieuleveut, Nicolas Flammarion, and Eric Moulines)
    • 9/09/2016 : Génération de populations synthétiques pour la simulation sociale Frédéric Amblard (IRIT, Université Toulouse 1) diaporama
    Résumé : Après avoir présenté les enjeux et le positionnement épistémologique de la simulation sociale multi-agents, nous présenterons une des pistes de recherche très active dans le domaine, concernant la génération de population synthétique, à savoir la génération à partir de statistiques agrégées et macroscopiques, de populations d'agents réalistes quant à leurs attributs (age, sexe, CSP...), leur localisation et leur réseau social. Nous présenterons quelques méthodes de la littérature ainsi que les pistes sur lesquelles nous travaillons dans le cadre du projet Genstar.
    • 2/09/2016 : Analyse statistique de données de nombres de copies d'ADN en cancérologie Pierre Neuvial (IMT, Université Toulouse 3) diaporama
    Résumé : La caractérisation des variations du nombre de copies d'ADN dans les cellules tumorales constitue un enjeu important en cancérologie, à la fois pour la compréhension des maladies et pour l'amélioration des traitements. Je parlerai de deux enjeux statistiques et bioinformatiques de l'analyse des données moléculaires utilisées pour mesurer le nombre de copies d'ADN (puces à ADN et séquençage): l'évaluation des performances des méthodes de segmentation et la prise en compte de l'hétérogénéité tumorale.

    2015-2016

    Pas de séminaire en juillet-août.

    • 01/07/2016 : Modelling complex biological systems: a network perspective Matthieu Vignes (Massey University, NZ)
    Résumé : In this talk, after a short introduction to my (very simplified) point of view of a biological system, I will present 3 projects I am involved in and their present status: (i) Gene expression patterns in allopolyploid species, (ii) the genetics basis of host-pathogen association and (iii) the control of infectious diseases, or playing with (anti-social) networks. In particular, I would stress the use of adequate (yet basic for the moment) data analysis techniques and potential developments.
    • 24/06/2016 : La gestion des espèces envahissantes, un problème de décision dans l’incertain Mathieu Bonneau
    Résumé : Les espèces envahissantes sont des espèces introduites au sein d'un nouvel écosystème, de manière involontaire lors du transport de marchandises par exemple, ou de manière volontaire pour le commerce ou le loisir. Ces espèces, de poissons, d'oiseaux, de plantes, de mammifères etc peuvent être qualifiées d'envahissantes, dès lors qu'elles impacts de manière négative l'économie ou les écosystèmes. Estimer les pertes causées par les espèces envahissantes est une tache difficile par nature, à cause du manque de données ou encore parce qu'il est difficile de quantifier les impacts négatifs sur les écosystèmes. Néanmoins, David Pimentel en 2005, article cité 2516 fois depuis, rapporte qu'aux États-Unis les pertes financières peuvent aller jusqu'à 120 billion de dollars par an. Ou encore que seulement 79 espèces ont causé des pertes financières d'au moins 97 billions de dollars de 1906 à 1991. En pratique, la lutte contre les espèces envahissantes peut consister à éradiquer l'espèce si celle-ci est découverte suffisamment tôt. Mais elle consiste généralement à en minimiser les impacts, avec peu de moyen et beaucoup d'incertitude scientifique. La gestion des espèces envahissantes est un problème de décision dans l'incertain, où la modélisation permet de quantifier les effets des différentes actions de gestion sur l'espèce et l'optimisation permet de déterminer l'action de gestion optimale. Cette présentation détaillera différents exemples où la modélisation et l'optimisation ont été utilisé pour proposer des modèles d'aide à la décision dans le cas de la gestion des espèces envahissantes. Nous développerons particulièrement le cas de la gestion de l'épervière orangée dans les Alpes situés dans l'état du Victoria. Cette plante est capable de causer un fort déclin de la biodiversité, impactant ensuite fortement l'agriculture causant la perte des espèces traditionnellement utilisées pour le pâturage. Vraisemblablement introduit dans le Victoria pour une utilisation personnelle, cette plante a ensuite colonisée plusieurs parties du parc national où elle est maintenant activement surveillée. Le contrôle de cette plante est un travail de long terme car les endroits où la plante a été précédemment détectée sont susceptibles d'être colonisés les années suivantes, causé par la présence de graines dans le sol et obligeant alors les employés du parc à revisiter chacun des sites infectés plusieurs fois par an pour détecter la plante et l'empêcher de se reproduire. L'efficacité de ces visites dépend du stade de croissance de la plante, qui influence à la fois la probabilité de la détecter et l'efficacité des méthodes de traitement (herbicide). Nous avons modélisé ce problème dans un cadre mathématique adapté afin de relier date de visite et efficacité. Un algorithme génétique a ensuite été utilisé pour calculer des plannings de visite optimaux et déterminer le nombre de visites minimal permettant d'atteindre un niveau de risque acceptable. Ce travail a permis en pratique de mieux gérer les ressources.
    • 17/06/2016 : Classification non supervisée de courbes par critère d'entropie minimum : application aux problèmes de gestion du trafic aérien Florence Nicol (ENAC)
    Résumé : Dans de nombreuses applications, les objets traités peuvent être décrits comme des courbes géométriques. C'est en particulier le cas dans le domaine du trafic aérien où l'on s’intéresse à la forme des trajectoires suivies par les avions. La classification de courbes est une méthode largement utilisée en statistique et quand les données sont de nature fonctionnelle, les algorithmes existants, le plus souvent basés sur des développements en base fonctionnelle tronqués, ne tiennent pas compte de la géométrie des courbes. De plus, lorsque des contraintes particulières surviennent, ce qui est le cas lorsque l'on doit prendre en compte des considérations opérationnelles dans les problèmes de gestion du trafic aérien, les procédures habituelles produisent souvent des résultats inexploitables. Nous proposons ici d'utiliser le cadre des variétés de courbes pour séparer l'aspect géométrique de l'aspect loi des vitesses, simplifiant ainsi les comparaisons entre courbes. Une approche de classification non supervisée, basée sur l'entropie minimum et les groupes de Lie, est présentée dans le but de produire des centres de classes de faible courbure adaptés à nos problèmes. Cet outil est particulièrement intéressant pour l'analyse du trafic aérien automatisé ainsi que pour la conception de l'espace aérien ou la planification des itinéraires.
    Résumé : We consider the problem of online nonparametric regression with arbitrary deterministic sequences. We will first present the setting and some of its connections with (non-sequential) nonparametric regression. Then, we will show how to use the chaining technique to design a hierarchical algorithm that achieves regret guarantees similar to those obtained in a non-constructive fashion by Rakhlin and Sridharan (2014). We will finally explain how to make this algorithm computationally efficient in the particular case of Hölder balls. Nota: this is a joint work with Pierre Gaillard; its was published in the Proceedings of COLT 2015.
    • 03/06/2016 : Aligning the unalignable: bacteriophage whole genome alignments Annie Chateau (LIRMM, Montpellier) et Séverine Bérard (ISE-M, Montpellier)
    Résumé : Viruses that infect bacteria, called bacteriophages, have very compact genomes which encode a small number of biological functions. Bacteriophages that infect the same strain of bacteria regularly use some form of rearranging genomes, called modular recombination. A modular recombination exchanges a module that encodes a function against another one that fills the same role, while having no detectable similarity. A bit like one might replace a gasoline generator for a wind turbine. In this presentation, we show that even in the absence of similarity, it is possible to align bacteriophage genomes when they are colinear, meaning that functions appear in a same order in the different genomes of bacteriophages inside a family. We also present ALPHA, which is a simple and user-friendly bacteriophage whole genome aligner implementing these ideas.
    • 27/05/2016 : Séminaire des doctorants

    9h00: Étienne Auclair Apprentissage et gestion de réseaux écologiques pour l'optimisation de services écosystémiques

    9h20: Alyssa Imbert Imputation multiple de type hot-deck pour l'inférence de réseaux issus de données RNA-Seq

    9h40: Sébastian Le Coz Une modélisation pour la dynamique des adventices dans un agrosystème

    10h: Sara Maqrot Designing mixed fruit-vegetable cropping systems by integer quadratic programming

    10h40: Franck Cerutti Mise au point d'une stratégie bioinformatique générique et modulaire pour analyser l'évolution des petits ARNs régulateurs et de leurs cibles chez les bactéries

    11h00: Clément Viricel Algorithme de comptage pour le design d'interface de protéine

    11h20: Charlotte Dayde Compréhension du processus de prise de décision opérationnelle des agriculteurs dans un cadre de rationalité limité

    11h40: Valérie Sautron Multiway-SIR for biological data integration

    • lundi 23/05/2016 à 10h30 : What means high nitrates in hard rock aquifers? Insights from an irrigated agricultural catchment Buvi Sri (MIAT, INRA)
    Résumé : Irrigated agriculture has large impacts on groundwater resources, both in terms of quantity and quality. Among agricultural-borne non-point source pollutants, nitrogen has been the focus of many studies due to its ubiquitous impact on ecosystems. Mapping the spatial heterogeneity of groundwater quality is not only essential for estimating the level of groundwater contamination but also to assess the impacts of different types of agricultural systems. However, low density of long term monitoring wells limits adequate description of highly heterogeneous aquifers. This issue has been addressed either by developing geo-statistical methods or by neglecting groundwater lateral transport. In peninsular India the development of minor irrigation led to high density of borewells which constitute an ideal situation for studying the heterogeneity of groundwater quality. The annual groundwater abstraction reaches 400km3, which leads to depletion of the resource and degradation of water quality. Nitrate (NO3) contamination in groundwater has been rising for the last decades due to overuse of fertilizers combined with the intensive borewell irrigation. In the Berambadi catchment (84 km2, Southern India), which is part of ORE BVET/ Kabini CZO, we studied the relative influences of land use, agricultural practices and soil/aquifer properties on NO3 concentration in groundwater based on the monitoring of >200 borewells (monthly water table level and seasonal chemistry), experiments at the soil-plant scale and using a coupled crop model and groundwater model (AICHA-Nitrogen model). Nitrate concentration in Berambadi span over two orders of magnitude with hotspots up to 400ppm. Three contrasted situations were identified according to groundwater level and gradient: i) Hot spots of NO3were associated to deep groundwater levels (30 to 60 m) and low groundwater gradient, suggesting that in the absence of lateral flow and with small groundwater reserve, local agricultural practices severely affected groundwater quality due to recycling through pumping and return flow; ii) On the contrary, when groundwater gradient was high, NO3 concentrations were low to moderate, suggesting that significant lateral flow prevented NO3 enrichment; iii) Finally, low NO3 concentrations were also found in situations where gradient was small but groundwater was shallow and hence reserve was large: these zones are potentially vulnerable to intensification of pumping and fertilizer application. Subsequent decline in groundwater level would then lead to rapid degradation of groundwater quality. Further long term evolution of the groundwater composition due to the effect of solute recycling was simulated using AICHA-Nitrogen model in the RECORD platform.

    Semaine du 16 mai : Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'IMT (Université Paul Sabatier) le mardi 17 mai :

    • mardi 17/05/2016 à 11h  : Méthodes pénalisées pour la métamodélisation et l’analyse de sensibilité par  Sylvie Huet (MAIAGE, INRA)
    Résumé :La modélisation en biologie repose sur des modèles complexes au sens où ils présentent des composantes fortement non-linéaires ou font intervenir un grand nombre de variables d’état et de paramètres au travers d’interactions d’ordre élevé. Il est souvent nécessaire de les simplifier, soit pour en comprendre le fonctionnement, soit pour optimiser des calculs numériques.
    La construction d’un modèle simplifié, ou métamodèle, d’un modèle complexe à l’aide d’une décomposition de type ANOVA obtenue par projection sur des espaces de Hilbert auro-reproduisant a été proposée récemment. Le métamodèle doit approcher au mieux le modèle initial, tout en restant parcimonieux, et en possédant de bonnes qualités prédictives pour relier les variables de sortie aux variables d’entrée.
    En utilisant les outils de l’estimation fonctionnelle sparse par minimisation de critères convexes, les propriétés prédictives des métamodèles ainsi construits peuvent être établies et les indices de sensibilité du métamodèle peuvent être estimés.
    Ce travail fait l’objet d’une collaboration avec M.L. Taupin (Université d’Evry Val d’Essonne)
    Résumé : At the core of Computational Protein Design, lies a compact formulation of the Global Minimum Energy Conformation problem, assuming a rigid backbone, capturing amino-acid and conformations changes through a discrete rotamer library and relying on a pairwise decomposable description of the energy. Under such assumptions, the problem of finding a sequence with an optimal conformation is NP-hard and usually tackled using stochastic methods with no finite convergence results. The Dead End Elimination Theorem combined with A* can remove all uncertainty on the optimality but only for relatively small designs. Using state-of-the-art decomposable energy field and rotamer library, we show that sequences with a guaranteed optimal conformation can be identified on CPD problems with a size that is far beyond what has been previously solved using deterministic methods. As any new capability, this unleashed computational power opens new avenues. As a first example of this, we evaluate the frequency and amplitude, in energy and sequence, at which an existing CPD biased Monte Carlo implementation may miss the optimum in problems with a sequence-conformation space that can exceed 10^200. We then exhaustively explore the neighborhood of each optimum.

    Pas de séminaire les 22, 29 avril et 6 mai (vacances scolaires et Ascension).

    • 22/04/2016 : Analyse de la microévolution des génomes microbiens : approches bioinformatiques Habilitation à Diriger des Recherche de Hélène Chiapello. La soutenance aura lieu vendredi 22 avril 2016 à 14h00 dans la salle de conférence Marc Ridet (INRA Auzeville)
    Résumé : Les travaux présentés dans cette HDR concernent la conception et la mise en œuvre de stratégies bioinformatiques visant à analyser la diversité des génomes de micro-organismes (bactéries, champignons) à l’échelle microévolutive. Mes activités de recherche s’inscrivent dans la champ disciplinaire de la phylogénomique avec un point de vue particulier : les génomes de micro-organismes et l’échelle de temps considérée, qui est en général courte. Dans une première partie, je présente mes travaux sur la comparaison de génomes bactériens et ses applications à différentes questions de recherche d’intérêt fondamental ou appliqué. Dans un second chapitre je décris mes contributions à l’analyse du contenu et de l’évolution des génomes fongiques. Enfin, dans une dernière partie je présente mes perspectives de recherches, en lien notamment avec deux nouveaux projets concernant d’une part l’étude de la dynamique évolutive des ARN régulateurs bactériens et de leurs cibles et d’autre part l’analyse des déterminants génomiques de l’adaptation d’une bactérie pathogène à son hôte.
    • 15/04/2016 : Présentation de l'Unité Ingenum (Ingénierie Numérique en Recherche) Hélène Chiapello, Nathalie Gandon et Hélène Raynal (MIA, Unité Ingenum)
    Résumé : Présentation de la nouvelle unité en charge du pilotage des actions transversales de l’INRA en terme d’ingénierie numérique en recherche et de l'accompagnement du Délégué à la Transition Numérique dans le développement de la stratégie du numérique en recherche.
    • 08/04/2016 : Workflow-BS: an integrative workflow for RRBS and WGBS data Céline Noirot et Gaëlle Lefort (INRA, MIAT) diaporama
    Résumé : DNA methylation is an epigenetic mark that has suspected regulatory roles in a broad range of biological processes and diseases. The technology is now available for genome-wide methylation studies, at a high resolution and with possibly a large number of samples. Many specific aligners for BS-seq data exist, such as BSMAP and Bismark. Also, R packages (methylKit and DSS) were designed to detect differentially methylated cytosines (DMC) and differentially methylated regions (DMR). Methy-Pipe (Peiyong Jiang et al. 2014. PLOS one) fill the gap between those analyses by combining a complete pipeline from raw data to statistical outputs but it requires a specific cluster environment (SGE software). Here, we propose a workflow which deals with fastq files from BS-seq (WGBS and RRBS) and goes through all steps to provide bed files of DMC and DMR. It can support most distributed resource management systems (Condor, SGE, ...). We will present our pipeline which uses standard software to i) clean data ii) align WGBS or RRBS reads to a reference genome iii) extract methylation and iv) identify DMC and DMR.
    • 01/04/2016 : Land use predictions on a regular grid at different scales and with easily accessible covariates. Application to the Teruti-Lucas survey. Anne Ruiz-Gazen (TSE, Université Capitole) diaporama
    Résumé : It is widely accepted that land use is among the main human pressures on the environment, including climate change, biodiversity loss and pollution of water, soil and air. In this context, it is much needed to develop econometric and statistical tools that help to predict the possible land use patterns in order to improve our understanding of the causes and consequences of these phenomena. In this presentation, we consider the problem of land use modeling using point level data such as the Teruti-Lucas survey and some easily accessible explanatory variables. We analyze the components of the prediction error at different spatial scales using a synthetic data set constructed from the Teruti-Lucas points in the Midi-Pyrénées region and a five categories land use classification. We explore the link between the prediction errors and the Gini-Simpson impurity index of the vector of probabilities of each category. The study first shows that the number of points in the Teruti-Lucas survey is quite enough for estimating the probabilities of each land use category with a good quality. Furthermore it reveals that, contrary to usual practice, when the objective is to predict land use at aggregated levels, land use probabilities should be estimated at more locations where explanatory variables are available rather than restricting to the initial Teruti-Lucas points. Indeed this strategy borrows strength from the knowledge of the explanatory variables which may be heterogeneous in a given Teruti-Lucas segment. Finally, guidelines for constructing the grid of locations for estimation are given from the analysis of the heterogeneity of each explanatory variable.
    Résumé : Mes travaux de thèse ont porté sur la modélisation statistique des données issues de la technologie de séquençage RNA-seq. Dans cette présentation, je m'intéresserai au problème d'inférence de réseaux. Dans le cadre du modèle graphique gaussien, je présenterai une approche non-asymptotique pour sélectionner des sous-ensembles de variables pertinentes, en décomposant la matrice de covariance en blocs diagonaux. Cette méthode permet de réduire la dimension du problème d’inférence initial. Bien que la contribution méthodologique proposée soit motivée par l'analyse des données RNA-seq, elle n'est pas spécifique à ces données et peut également être utilisée sur d'autres types de données.
    • 18/03/2016 : ChimPipe : un pipeline pour la détection de transcrits chimériques à partir de données RNA-seq Sarah Djebali Quelen (GenPhySE, INRA) diaporama
    Résumé : Les transcrits chimériques, ou chimères, se définissent généralement comme des transcripts reliant deux gènes differents du génome, et peuvent s’expliquer par différents mécanismes biologiques tels que les rearrangements génomiques, la transcription “read-through” ou le trans-épissage, mais aussi par des artéfacts techniques ou biologiques. Certaines études ont montré leur importance dans le cancer, d’autres dans la pluri-potence cellulaire. Plusieurs programmes ont été développes pour identifier les chimères à partir de données RNA-seq, essentiellement dans le domaine du cancer où on les nomme gènes de fusion, cependant ces programmes produisent des ensembles de chimères largement differents sur les mêmes données RNA-seq d’entrée, et incluent généralement de très nombreux faux-positifs. Les évaluations de ces programmes souffrent aussi de données de simulation non réalistes prenant seulement en compte les chimères issues de réarrangements genomiques et non les chimères transcriptionnelles, de données réelles incluant un très faible nombre de chimères validées, et d’une évaluation au niveau de la paire de gènes plutôt que de la jonction. Ici je présente ChimPipe, un pipeline RNA-seq modulaire et facile d’utilisation fondé sur un alignement exhaustif par les “GEMtools”, qui combine les informations des paires de lectures et des lectures épissées, et qui utilise un module de filtre stringent, pour identifier les chimères les plus fiables d’un jeu de données. Nous avons aussi produit des données RNA-seq simulées reálistes de 3 longueurs de lectures différentes, et avons enrichi les données réelles habituellement utilisées comme reférence pour l’evaluation, par la détermination des coordonnées précises des jonctions correspondant aux paires de gènes validées. L'évaluation comparée de ChimPipe et de 4 autres outils de détection de chimères reconnus sur ces données, a montré que ChimPipe est le meilleur programme dans l’identification exacte du point de jonction chimérique, et qu’il est le deuxième programme le plus sensible au niveau de la paire de gènes après Chimerascan dont la précision semble bien moins grande sur les données réelles. Sur ces données ChimPipe a ainsi le meilleur compromis entre sensibilité et précision. Nous avons appliqué ChimPipe à 108 données RNA-seq humaines de très forte profondeur de séquençage produites par le projet ENCODE, et avons identifié 33 chimères très fortement exprimées dans au moins un échantillon. Nous en avons selectionné 6 pour une validation par RT-PCR et en avons confirmé 3. Le clonage et le sequençage de ces 3 cas a révélé plusieurs nouvelles structures de transcrits chimériques, dont certains préservent la phase de lecture des genes parents, pouvant ainsi correspondre à de nouvelles protéines et donc de nouvelles fonctions.

    Semaine du 7 mars : Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'INRA (salle FR du centre de Toulouse Midi-Pyrénées, site d'Auzeville) :

    • vendredi 11 mars de 10h30 à 12h00 : Régression en grande dimension et épistasie par blocs pour les études d'association Christophe Ambroise (LaMME, Université d'Évry Val d'Essonne) diaporama
    Résumé : Dans le domaine des études d'association pan-génome (GWAS) une partie importante de la littérature est consacrée à la détection des interactions existant entre deux ou plusieurs parties du génome (épistasie). La plupart des approches considèrent les interactions entre loci déjà connus pour être associés au phénotype étudié. Dans cette présentation, nous explorons des approches statistiques multi-variées permettant de détecter des épistasies au niveau des gènes sans filtrage préalable.

    Pas de séminaire les 26 février et 4 mars (vacances scolaires).

    • 19/02/2016 : Traitement de données NGS et structuration de la diversité moléculaire : dialogue avec les diatomées Alain Franc (Biogeco, INRA de Bordeaux) diaporama
    Résumé : Les technologies NGS permettent de produire en flux continu des échantillons de centaines de milliers de reads courts qui décrivent la diversité moléculaire des communautés. L'objectif est de caractériser la diversité des communautés connaissant ces séquences. L'approche retenue est l'étude de la géométrie de nuages de points associés à cette diversité. Une difficulté qui sera évoquée est le choix de la bonne dimension pour construire et étudier le nuage de points, entre la "malédiction de la dimension" en grandes dimensions la mauvaise qualité des plongements isométriques en petites dimensions. Une première étape consiste à calculer une distance entre reads, et une seconde, ces distances étant connues, de construire soit un nuage de points (MDS) soit un graphe (lien si distance inférieure à un seuil choisi) qui représente cette diversité. Ce séminaire a pour objet de discuter les connexions entre ces différentes méthodes pour étudier la forme du nuage de points, et les liens avec les communautés sur graphes. Quelques excursions seront faites sur les domaines émergents de "distance geometry" ou d'autres plus anciens et classiques de méthodes non linéaires (Sammon, isomap, etc ...). L'objectif est de discuter les connexions entre les méthodes, pour in fine utiliser un faisceau d'outils pour caractériser la biodiversité.
    • 12/02/2016 : Méthodes à noyaux et modèles parcimonieux pour la classification d'images hyperspectrales Mathieu Fauvel (ENSAT, Toulouse) diaporama
    Résumé : Dans cette présentation, nous présenterons une famille de modèles de processus Gaussien parcimonieux. Ces modèles permettent de définir un classifieur quadratique dans l'espace de Hilbert (possiblement de taille infini) associé à une fonction noyau. Ces modèles sont obtenus en contraignant la décomposition spectrale du processus Gaussien représentant chaque classe. Ils correspondent à une extension d'un modèle proposé par MM Dundar et DA Landgrebe. Des résultats expérimentaux seront donnés sur des images hyperspectrales. Les résultats seront comparés avec d'autres méthodes à noyaux.
    • 05/02/2016 : Développements bio-informatiques pour l’analyse de petits ARNs bactériens: de l’exploration visuelle des résultats de prédiction de cibles à l’annotation fonctionnelle des régulateurs Patricia Thébault (LaBRI, Université de Bordeaux)
    Résumé : La régulation différentielle des gènes est au coeur de la diversité des phénotypes et de l’adaptabilité du vivant. Chez les bactéries, elle repose, entre autres, sur les petits ARNs non codants qui modulent la traduction de gènes en protéines. Les approches bioinformatiques « les plus performantes » pour prédire ces interactions régulatrices sont peu spécifiques et génèrent un nombre de faux positifs rendant difficile l’expertise des résultats. Pour palier à ces problèmes, une solution consiste à se focaliser dans un premier temps sur la sensibilité et efficacité des outils de prédiction d’interaction pour ensuite améliorer la spécificité grâce à l’intégration d’informations à différents niveaux. Nous avons privilégié de combiner les approches classiques de bioinformatiques avec les méthodes théoriques de la visualisation des grandes masses de données en développant le logiciel rNAV. Les représentations graphiques des réseaux de régulation issues de rNAV tirent partie des capacités visuelle de l’expert en le mettant au cœur du processus d’analyse pour explorer et analyser le graphe en appliquant des algorithmes de filtres intégrant différents algorithmes de fouille de données. Une seconde partie de l’exposé se focalisera sur l’annotation fonctionnelle des petits ARNs qui peux se déduire à partir des groupes de gènes qu’ils ciblent. Pour des annotations pertinentes de la fonction biologique de groupes de gènes régulés, il est essentiel d’exploiter conjointement l’ensemble des informations disponibles dans les bases de données. Les approches classiques d’annotation de groupes de gènes reposent sur des méthodes statistiques d’enrichissement où les termes à plat sont considérés indépendamment les uns des autres et où la variabilité des informations disponibles d’un organisme vivant à l’autre n’est pas prise en compte. Pour palier à ces difficultés, nous développons actuellement de nouvelles procédures d’annotation qui visent : (1) à proposer de nouvelles mesures de similarité sémantique entre termes d'annotation et (2) à développer de nouvelles approches de data mining pour déterminer l’ensemble restreint des annotations les plus pertinentes à associer à un groupe de gènes.
    • 29/01/2016 : Hybrid Levenberg-Morisson-Marquardt and ensemble Kalman smoother method El Houcine Bergou (INRA, MaiAGE)
    Résumé : The Levenberg-Morisson-Marquardt algorithm (LMM) is one of the most popular algorithms for the solution of nonlinear least squares problems. Motivated by the problem structure in data assimilation, we consider in this work the extension of the LMM algorithm to the scenarios where the linearized least squares subproblems are solved inexactly and/or the gradient model is noisy and accurate only withina certain probability.Under appropriate assumptions, we show that the modified algorithm converges globally and almost surely to a first order stationary point. Our approach is applied to an instance in variational data assimilation where stochastic models of the gradient are computed by the so-called ensemble Kalman smoother (EnKS). A convergence proof in L^p of EnKS in the limit for large ensembles to the Kalman smoother is given. We also show the convergence of LM-EnKS approach, which is a variant of the LMM algorithm with EnKS as a linear solver, to the classica! LMM algorithm where the linearized subproblem is solved exactly.
    Résumé : Dans plusieurs domaines d'application et en particulier en agronomie, une problématique d'intérêt est d'expliquer une variable réelle à partir d'une variable fonctionnelle. Par exemple, on peut se demander comment le rendement d'une plantation de céréales est déterminé par la température durant toute la saison. Pour répondre à cette question, nous nous placerons dans le cadre du modèle de régression linéaire fonctionnelle et nous aurons pour objectif d'obtenir une estimation explicable de la fonction coefficient. Pour cela nous avons utilisé une approche bayésienne qui se base sur l'estimateur de Bayes avec une fonction de coût particulière. L'estimation finale est ensuite obtenue suivant une procédure numérique que nous présenterons. Nous comparerons alors cette méthode avec ces compétiteurs sur des jeux de données simulés et un jeu de données réel en agronomie.
    • 15/01/2016 : Optimisation bayésienne multiobjectif en grande dimension Mickael Binois (Ecole des Mines de Saint Etienne)
    Résumé : Dans le cas de fonctions pour lesquelles les coûts d'appel ou les temps de calcul sont élevés, le budget d'évaluations dédié aux études d’optimisation est fortement limité. Dans ce contexte, les méthodes d'optimisation bayésiennes basées sur des métamodèles, ici des processus gaussiens, sont particulièrement adaptées. Dans le cas multiobjectif, on s’intéresse également à prédire la position du front de Pareto (ensemble des compromis optimaux) à partir des métamodèles, tout en quantifiant l’incertitude associée. Par ailleurs, la montée en dimension est l'une des principales limitations de ces techniques. Pour la surmonter, l'utilisation de plongements aléatoires ("random embeddings") a récemment été proposée, sous l'hypothèse que seules peu de variables, non identifiées, sont réellement influentes. Il s’agit alors de se restreindre à un espace de dimension modérée, plongé dans l'espace de grande dimension à partir d'une matrice aléatoire. On présentera plusieurs améliorations apportées à cette méthode : prise en compte de plusieurs objectifs ou de contraintes, création d'un noyau de covariance spécifique ainsi que des propositions de sélection de la matrice aléatoire. L’intérêt de l’approche sera illustré en particulier sur un cas test automobile.
    • 08/01/2016 : Optimization in Discrete Deterministic and Stochastic Graphical Models Thomas Schiex (MIAT, INRA Toulouse)
    Résumé : In Artificial Intelligence, Graphical Models are usually understood as a family of stochastic models capturing independence through a graph representation. They cover, among others, Bayesian Networks and Markov Random Fields (MRF). In these models, a joint probability distribution over a set of variables is represented as the combination of a set of local potential functions. This same idea has been used in purely deterministic models of Artificial Intelligence such as Constraint Networks, Constraint Programming and SAT, and in their weighted variants. In these models, a boolean or cost function is represented as a combination of local boolean functions (constraints, clauses) or cost functions. In both cases, this concise expression comes at a cost: inference problems such as optimization or counting are typically NP hard. Therefore polytime approximate inference schemes have been defined such as message passing (MRF), local consistency (CSP and weighted variants) and unit propagation (SAT and weighted variants). In this talk, I will try to give a general view of these approaches in the context of the MAP/CSP/WCSP/SAT/PWMaxSAT optimization problems and show how these algorithms have evolved and been exploited in practice.

    Pas de séminaire les 25 décembre et 1 janvier (vacances scolaires... entre autres...).

    Résumé : Random forest algorithm provides a predictor ensemble based on a set of randomized decision trees. The good performances in practical use can explain the growing interest in this approach. However, there is still a need to better understand the algorithm and the related importance measures. We first study the permutation importance measure in presence of correlated predictors. We describe how the correlation between predictors impacts the permutation importance in an additive model. Our results motivate the use of the Recursive Feature Elimination (RFE) algorithm for variable selection in this context. We then propose an extension of the permutation importance for groups of variable. This original criterion is used in a functional data analysis framework for selecting functional variables. Using a wavelet basis, it is proposed to regroup all of the wavelet coefficients for a given functional variable and use a selection algorithm based on the grouped importance. Various other groupings which take advantage of the frequency and time localization of the wavelet basis can be proposed. These methods has been developed jointly with the startup Safety Line for aviation safety purposes. The aim was to predict and explain the risk of long landing using data from flight data recorders.
    • 11/12/2015 : Modèles graphiques pour sélection génétique avancée Sylvain Jasson et Damien Leroux (MIAT, INRA)
    Résumé : L'amélioration des performances des espèces cultivées, et plus globalement la recherche en génétique, est liée au criblage de régions chromosomiques d'intérêt. Une région chromosomique qui influe sur un caractère quantitatif est appelée Quantitative Trait Locus (QTL). La détection de QTL nécessite le calcul préalable des probabilités d'origines parentales (POP) le long du génome. Il était jusqu'à présent considéré qu'une modélisation de ces probabilités sous forme d'une chaîne de Markov était impossible dès que plusieurs méioses non indépendantes étaient présentes dans le pedigree. De ce fait, chaque type de population était modélisé spécifiquement en se basant uniquement sur la densité des jonctions, moyennant un certain nombre d'hypothèses simplificatrices implicites (qui étaient vérifiées par les dispositifs de l'"ancienne école"). Nous montrons que ces hypothèses ne tiennent plus dans le cadre des populations avancées, qu'il est possible de s'en passer et de modéliser sous forme de chaîne de Markov continue n'importe quelle structure de population. Nous donnons la méthode de construction de ladite chaîne de Markov continue. Cette méthode engendre des processus dont le nombre d'états augmente avec la complexité du pedigree. Nous évoquons des pistes pour maîtriser cette inflation. Par ailleurs, si les nouvelles techniques de génotypage (e.g. SNP) fournissent plus d'observations de marqueurs pour une population donnée, l'évolution des dispositifs expérimentaux rend ces observations de plus en plus partiellement informatives (Un SNP bi-allélique ne pourra jamais permettre de discriminer 4 ou 8 fondateurs). L'inférence des POP le long du génome nécessite une estimation précise des probabilités de génotype à chaque marqueur. Nous avons développé une modélisation sous forme de réseau bayésien, sur un marqueur, et le long de l'ensemble du pedigree, afin de calculer ces probabilités en tenant compte de toute l'information disponible, quels que soient les individus observés. Enfin nous présentons succinctement notre implémentation de ces méthodes à l'intérieur d'une solution complète de détection de QTL.
    • 04/12/2015 : Analyses statistiques pour l'évaluation des systèmes de recherche d'information Sébastien Dejean (IMT, Université Toulouse 3) diaporama
    Résumé : L'exposé illustre la mise en œuvre de méthodes statistiques visant à traiter deux problèmes liés à la recherche d'information (information retrieval). Le premier consiste à proposer un ensemble réduit d'indicateurs visant à évaluer la performance d'un système de recherche d'information (SRI). Le second s'intéresse à l'étude des paramètres d'un SRI qui influencent le plus ses performances. Dans les deux cas, le cadre de travail est celui de la campagne Text REtrieval Conference (TREC) qui fournit, pour un ensemble de requêtes données, les documents pertinents à retourner parmi un corpus de référence.

    Semaine du 23 novembre : pas de séminaire le vendredi 27 novembre. Cette semaine est consacrée à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'INRA (salle de séminaire AGIR) :

    • jeudi 26 novembre de 10h30 à 12h00 : Détection de communautés dans des réseaux aléatoires Nicolas Verzelen (INRA Montpellier/SupAgro)
    Résumé : L'analyse des réseaux est aujourd'hui un domaine ayant donné lieu à une abondante littérature aux croisements de la combinatoire, de l'algorithmique, de la physique des systèmes complexes et plus récemment des statistiques. La détection de communautés vise à découvrir des groupe de noeuds fortement liés entre eux et faiblement liés aux autres. Dans cet exposé, on discutera de modèles de réseaux aléatoires permettant de rentre compte de l'hétérogénéité rencontrée dans les réseaux réels. Ce cadre probabiliste permet de formaliser statistiquement le problème de détection de communautés. On obtiendra ainsi une caractérisation fine des difficultés statistiques inhérentes au problème de détection en faisant apparaître un compromis précision statistique contre complexité algorithmique.
    • 20/11/2015 : Approches bioinformatiques pour l'étude des perturbations du réseau métabolique Fabien Jourdan (INRA, Toxalim, Toulouse)
    Résumé : Les recherches qui seront présentées ont pour objectif d’identifier des ensembles de réactions modulées lors de perturbations environnementales ou génétiques sur l'organisme, c’est-à-dire d'y associer un sous-réseau métabolique (quelques dizaines de réactions sur les milliers que comporte le réseau métabolique). Ainsi, il est possible d'émettre des hypothèses sur les mécanismes métaboliques qui sont perturbés. Pour cela, deux types de formalismes seront utilisés. Le premier, les graphes (ensemble de nœuds reliés par des arêtes), donne une information sur la structure du réseau. Ce modèle mathématique permet de calculer des chemins dans le réseau, en particulier entre les biomarqueurs identifiés en métabolomique. La seconde approche, dite de modélisation sous contraintes (Constraint Based Modelling, CBM), est plus prédictive. Elle a pour objectif d’estimer la valeur des flux à travers chacune des réactions du réseau et peut donc être utilisée pour simuler le fonctionnement du réseau dans différentes conditions. Cette deuxième approche est souvent utilisée pour prédire la croissance des cellules ou la production de certains composés. Elle est également basée sur la structure du réseau mais nécessite un paramétrage plus complet que celui nécessaire à la modélisation par des graphes. L'enjeu plus général du projet de recherche est d’associer les modifications du réseau identifiées en utilisant les graphes et le CBM à des conséquences métaboliques à plus long terme. Par exemple, en toxicologie alimentaire, une des questions majeures est de pouvoir prédire si une modification du métabolisme identifiée par nos approches correspond à un simple phénomène adaptatif ou reflète un dysfonctionnement métabolique susceptible d’entrainer une pathologie.
    • 13/11/2015 : Planification d'expériences sur la comète Philae Emmanuel Hebrard (LAAS, Toulouse)
    Résumé : Le 12 novembre dernier, Philae s'est posé, non sans quelques rebondissements, sur la comète 67P Churyumov-Gerasimenko. Dès sa séparation de la sonde Rosetta, et pendant les jours qui ont suivi, il a déroulé un plan calculé au SONC ("Scientific Operations & Navigation Centre") du CNES à Toulouse. Le calcul de ce plan, ainsi que de ceux qui ont suivi lors des trois jours de cette "First Science Sequence" est un véritable enjeu au regard des contraintes physiques et des ressources matérielles. Les principales contraintes proviennent de différentes limitations portant sur l'énergie fournie par les batteries, la température ambiante, ou encore les ressources mémoire allouées aux expériences et à Philae. Toutes ces contraintes ont été modélisés, et le problème résolu, grace au logiciel d'optimisation Ilog Scheduler. Je présenterai le problème d'ordonnancement des activités de la FSS et les techniques mises en oeuvre pour sa modélisation et résolution. En particulier, je m'attarderai sur notre contribution principale : le développement d'algorithmes pour raisonner efficacement sur les contraintes de transfert de données. Ces algorithmes ont permis de diminuer radicalement le temps de calcul (passant de quelques heures à quelques secondes dans certains cas), tout en offrant une meilleure estimation de l'usage de la mémoire et des risques de perte que la solution précédente.
    • 06/11/2015 : On the accuracy of genomic selection Charles-Elie Rabier (MIAT, INRA)
    Résumé : Genomic selection focuses on the prediction of breeding values of selection candidates, using a high density of markers. It relies on the fact that all QTLs will tend to be in strong linkage disequilibrium (LD) with at least one marker.In this context, we present theoretical results regarding the accuracy in genomic selection, i.e. the correlation between predicted and true breeding values. Typically, individuals (so-called Test individuals) have their breeding values predicted on markers, using marker effects estimated by fitting a Ridge regression on a set of training individuals.We present a theoretical expression for the accuracy, suitable for any configurations of LD between QTLs and markers.In other words, the formula handles the configuration where QTLs match a few genetic markers and also the configuration where QTLs are not located on markers. We also introduce a new proxy for the accuracy, that is free of the QTL parameters, easily computable, and that outperforms other proxies suggested in the literature. In particular, our theoretical study shows that plugging an estimated effective number of independent loci ($M_{e}$) in the accuracy formula is not the way to handle properly the high dimensional framework. The theoretical formula, the new proxy, and existing proxies are compared on simulated data, suggesting the pertinence of our approach.Results are also illustrated on a new perennial ryegrass set ($367$ individuals) genotyped for 24,957 SNPs. In this case, most of the proxies studied give similar results due to the lack of markers to cover the entire genome ($2.7$Gb).

    Pas de séminaire les 23 et 30 octobre (vacances scolaires).

    • 16/10/2015 : Prédiction de variants sans (ou avec) génome de référence Pierre Peterlongo (INRIA Rennes)
    Résumé : Avec la démocratisation des techniques de séquençages haut débit, il est fréquent de chercher des réponses à des questions biologiques, tout en ayant à sa disposition un ou plusieurs jeux de reads mais pas de génome de référence proche. Dans une telle situation, une possibilité consiste à assembler les données afin de se créer un génome de référence qui permet, dans un second temps, d'utiliser les méthodes basées sur le mapping. Dans le cadre du projet colib'read (http://colibread.inria.fr) nous proposons une batterie d'outils dont le but est de prédire des variants (insertions, délétions, SNPs, inversions, splicing alternatif) directement via l'utilisation des reads bruts produits par les séquenceurs nouvelle génération. Dans cet exposé, je montrerai les motivations et l'idée méthodologique globale de ce type d'approche, avant de faire un focus sur l'application DiscoSnp++ permettant la détection d'Indels et de SNPs dans les reads bruts. Nous verrons les aspects algorithmiques (exploitation de motifs topologiques dans le graphe de De Bruijn) et également les avantages et les inconvénient de telles approches. Nous verrons également les potentiels avantages de l'utilisation de ce type d'approche, même lorsque qu'un bon génome de référence est disponible.
    • 09/10/2015 : pas de séminaire car Soutenance de thèse de Julia Radoszycki (à 10h30 en salle de séminaire de AGIR, INRA)
    Résumé : Cette thèse porte sur la résolution de problèmes de décision séquentielle sous incertitude, modélisés sous forme de processus décisionnels de Markov (PDM) dont l'espace d'état et d'action sont tous les deux de grande dimension. Les algorithmes de résolution dédiés à ce type de problèmes sont rares quand la dimension des deux espaces excède 30, et imposent certaines limites sur la nature des problèmes représentables. Nous proposons un nouveau cadre, appelé PDMF^3, ainsi que des algorithmes de résolution approchée associés. Un PDMF^3 est un processus décisionnel de Markov à espace d'état et d'action factorisés (PDMF-AF) dont les politiques solutions sont contraintes à une certaine forme factorisée, et peuvent être stochastiques. Les algorithmes que nous proposons sont de type itération de la politique et exploitent des techniques d'optimisation continue et des méthodes d'inférence dans les modèles graphiques. Ils sont validés sur un grand nombre d'expériences numériques. En particulier, nous abordons des problèmes où l'espace d'état est de taille 32^{100}, et l'espace d'action de taille 3^{100}. Ce cadre et les algorithmes proposés sont ensuite appliqués pour déterminer des stratégies de gestion des services écosystémiques dans un paysage agricole. Notre cas d’étude est la gestion agroécologique des espèces adventices à l’échelle des territoires qui nécessite d’intégrer la double fonctionnalité des adventices sur la production agricole (réduction par compétition pour les ressources d’une part, et augmentation par son rôle dans le maintien des abeilles domestiques d’autre part). Plusieurs services écosystémiques sont par conséquent en conflit : services de production (rendement en céréales, fourrage et miel), services de régulation (régulation des populations d'espèces adventices et de pollinisateurs sauvages) et services culturels (conservation d'espèces adventices et de pollinisateurs sauvages). Nous avons développé un modèle spatio-temporel des interactions entre cultures, adventices et pollinisateurs et nous explorons quelles organisations dans l'espace et dans le temps du paysage (ici composé de parcelles de colza, blé et prairie) permettent d’atteindre un compromis entre services de production et culturels. Ce modèle permet plus généralement d'explorer par simulation l'effet de différentes stratégies d'allocation des cultures sur la magnitude de ces services écosystémiques.
    • 02/10/2015 : Optimal planning under uncertainty with goal and path constraints Florent Teichteil-Keonigsbuch (Airbus).
    Résumé : Markov Decision Processes (MDPs) are a popular model for planning under probabilistic uncertainties. The solution of an MDP is a policy represented as a controlled Markov chain, whose complex properties on reachable states and execution paths can be automatically validated using stochastic model-checking techniques. However, producing optimal policies that are guaranteed to satisfy such properties is much more challenging than solving plain MDPs since such optimal property-constrained policies do not need to be Markovian nor deterministic ; moreover, traditional dynamic programming techniques do not apply in this case. In this talk, we will present two generalizations of MDPs with constraints on reachability or execution properties. The first model, named Stochastic Safest and Shortest Path (S3P) Problems, generalizes and includes the well-known Stochastic Shortest Path (SSP) problems to goal-constrained MDPs of practical interest that minimize the average (undiscounted) cost of only paths leading to the goal among all policies that maximize the probability to reach the goal. We demonstrate that any S3P admits optimal solutions in infinite horizon without any condition on the structure of the problem or on its policies contrary to the traditional SSPs (e.g. no required assumption on proper policies existence nor positive-cost cycles restriction), which actually extends the class of goal-constrained MDPs that can be solved. The second model, named Path-Constrained Markov Decision Processes (PC-MDPs) allows system designers to directly optimize path-constrained policies in a single design pass, in the sense that their possible execution paths are guaranteed to satisfy a set of probabilistic constraints expressed in a fragment of the Probabilistic Real Time Computation Tree Logic. We present optimality equations, algorithmic formulations and experimental results for both models.

    Semaine du 25 septembre : pas de séminaire le vendredi 25 septembre. Cette semaine est consacré à une séance exceptionnelle de séminaire commun IMT / MIAT qui aura lieu à l'IMT :

    • mardi 22 septembre de 9h15 à 10h45 : Espaces de formes, difféomorphométrie et modèles génératifs de données géométrico-fonctionnelles Alain Trouvé (ENS Cachan, CMLA)
    Résumé : Paru pour la première fois en 1917, le livre ``Growth and Forms’’ du naturaliste et mathématicien Ecossais d’Arcy Thompson, développe une théorie des transformations dont l’idée centrale est la comparaison morphologique des anatomies au travers des groupes de transformations de l’espace ambiant. Cette idée, un siècle plus tard et dans un contexte mathématique et technologique totalement différent, trouve de riches prolongements dans les approches contemporaines de comparaison quantitative de formes et de modélisation aleatoire et d’estimation de leur variabilité. Dans cet exposé en deux parties, nous présenterons progressivement les idées et techniques qui sous-tendent l’approche dite ``difféomorphométrique’’ qui s’est développée dans le contexte de l’anatomie computationnelle, ses liens avec la géométrie riemannienne de dimension infinie et la théorie du contrôle mais aussi les outils de réduction de dimension et les modèles d’attaches aux données qui sous-tendent les algorithmes utilisés dans l’analyse concrète de population de sous-variétés et les rendent effectifs. Nous présenterons également de nouveaux enjeux théoriques et applicatifs en particulier du coté de l’analyse de la variabiité des objets géométrico-fonctionnels combinant information géométrique et fonctionnelle.
    Résumé : Narendra-Shapiro (NS) algorithms are bandit-type algorithms introduced in the sixties (with a view to applications in Psychology or learning automata), whose convergence has been intensively studied in the stochastic algorithm literature. In this talk, we study the efficiency of these bandit algorithms from a regret point of view. We show that some competitive bounds can be obtained for such algorithms in a modified penalized version. Up to an over-penalization modification, the pseudo-regret Rn related to the penalized two-armed bandit is uniformly bounded by C sqrt(n) (for a explicitely known constant C). We also provide a gentle introduction to the renormalized study of the algorithm. After explaining some basics, we establish the convergence and rates of convergence results to the multi-armed case of the over-penalized bandit algorithm, including the convergence toward the invariant measure of a Piecewise Deterministic Markov Process (PDMP) after a suitable renormalization. Finally, ergodic properties of this PDMP are given in the multi-armed case.
    • 11/09/2015 : Managing multiple interacting threats –prioritising invasive plant management in the Australian Alps National Park Joslin Moore (Monash Université, Victoria, Australie) diaporama.
    Résumé : Most threatened species, communities or protected areas are subject to multiple threats, and the distribution of these threats varies in space and time. Existing decision frameworks can be helpful when choosing between actions targeting threats to different species or locations. However, they rarely account for potential interactions among threats and do not account for future losses associated with threats left unmanaged. These interdependencies and unattributed losses are important considerations when allocating resources to the management of a specific population, community or national park facing multiple threats. We present recent work that identifies management priorities that take account of both the benefit of taking action and the cost of failing to act when multiple processes threaten a single population or region. We formulate the problem as a multiple choice knapsack problem (or a knapsack problem with generalized upper bound) and use linear programming to solve for a range of budgets. We apply the approach to a case study of prioritising management of introduced plant species in two areas within the Australian Alps National Park. The solution provides the amount of effort to allocate to each species for a given budget and shows how the threat context affects how resources are best allocated. This approach is suitable when seeking to prioritise management for any location or population facing multiple interacting threats.
    • 04/09/2015 : Groupe ISIS: Quelque lignes de travail sur l'application de techniques d'Intelligence Informatique Gonzalo Joya Caparrós (Universidad de Málaga, Espagne) diaporama.
    Résumé : Dans cette présentation, on donnera une vision globale de quelques applications des techniques de l'Intelligence Informatique mises en œuvre par le groupe de recherche ISIS (Université de Malaga) pour la résolution de différents problèmes : Réseaux des Neurones d'Hopfield pour l'estimation de paramètres d'un modèle d'épidémie, Contrôle Flou pour le choix du serveur nœud dans un réseau de communications ou pour le contrôle climatique sous serre, méthodes d'apprentisage automatique pour la classification de signaux électro-oculographiques.

    2014-2015

    Pas de séminaire entre le 10 juillet et le 3 septembre.

    • 03/07/2015 : Multivariate enrichment test for 3D chromatin domain border analysis Raphael Mourad (LMBE, UPS, Toulouse).
    Résumé : Recent advances in genome-wide chromatin interaction mapping have revealed the importance of 3D structure of chromosomes in gene regulation and expression. The next challenge is to identify what are the key molecular drivers of this 3D structure. Several architectural proteins were shown to be enriched at the borders of topological domains, and thus represent good candidates. Simple univariate enrichment approaches such as Fisher's exact or Pearson's chi-squared tests were used for this purpose and there is thus a need for more sophisticated multivariate enrichment methods that could account for potential colocalizations and interactions between architectural proteins. Here we propose a multiple logistic regression model to assess multivariate enrichment of genomic features such as DNA-binding proteins and functional genomic regions at topological domain borders. The proposed method naturally deals with colocalization and interaction. Using simulations, we demonstrate the accuracy of the method to estimate enrichments of marginal features (no interactions) as well as two-way interactions. On real Drosophila data, we show the importance of considering all tested genomic features and their potential interactions within the same multivariate framework. Compared with univariate analysis, multivariate analysis reveals huge differences of enrichments among the insulator binding proteins. For instance, multivariate analysis highlights the importance of insulator binding protein Fs(1)h-L whose enrichment is the highest among the IBPs, and that was recently shown to mediate intra- or inter-chromosome interactions. In addition, analysis of interactions between insulator binding proteins and cofactors reveals that they tend to work separately at topological domain borders.
    • 02/07/2015 : Journée des stagiaires, amphi Marc Ridet, livret des résumés.
      • 9h00 Étienne Auclair Inférence d'un réseau trophique à partir de séries temporelles
      • 9h15 Romain Alexandre Analyse du compromis rendement / biodiversité sur un cas d'étude : système culture/adventices/pollinisateurs
      • 9h30 Matthieu Pluntz Modélisation HMM de la dynamique des espèces adventices dans un agrosystème
      • 9h45 Rolande Kpekou-Tossou Analyse par simulation de l'interaction climat/rendement
      • 10h00 Franck Boizard Méthode d'analyse de sensibilité de modèles pour entrées climatiques
      • 10h15 Éloi Navarro Optimisation de stratégies d'échantillonnage des stress biotiques au sein des agroécosystèmes
      • 10h30 Sara Maqrot Méthode approchée en programmation mathématique appliquée à la conception de vergers maraîchers
      • 10h45 Amélia Landre Gestion forestière et décision d'assurance en univers risqué
      • 11h00 Lina Hadj Nassar Analyse de sensibilité des modèles agronomiques à l'estimation de la réserve en eau des sols (présentation courte de début de stage)
      • 11h15 (pause)
      • 11h30 Augustin Chini Stage développeur WEB pour la mise à disposition d'un indicateur dynamique caractérisant l'évolution des écosystèmes
      • 11h45 Sara Hardy Développement et mise en oeuvre d'un pipeline d'analyse du transcriptome de différentes souches du chapignon pathogène magnaporthe oryzae
      • 12h00 Prune Pegot Espagnet Déterminisme génétique de la résistance à la septoriose et à la fusariose du blé tendre
      • 12h15 Abdallah Mechati Reconstruction exacte de réseau bayésien à partir d'observations complètes
      • 12h30 Andrea Martelletti Guide juridique sur l'ouverture des données de la recherche (open data)
    • 26/06/2015 : Analyse de sensibilité en présence d’entrées fonctionnelles Clémentine Prieur (LJK/Moise, Grenoble).
    Résumé : Durant cet exposé, nous présenterons une méthodologie pour l’analyse de sensibilité d’un code numérique en présence d’entrées fonctionnelles corrélées. L’exposé sera motivé (resp. illustré) par (resp. sur) un exemple de sûreté nucléaire.

    Travail joint avec S. Nanty (UJF, CEA Cadarache), C. Helbert (UCBL), A. Marrel et N. Perot (CEA Cadarache).

    • 19/06/2015 : DSML design and implementation for farming systems modeling Jean-Michel Bruel (IRIT, Université de Toulouse).
    Résumé : Sustainability is a complex and multi-facet problem by definition. The overall understanding of the problem often requires intensive simulation of complex and heterogeneous models of the world. Unfortunately, there is currently no support for defining and relating such models at the right level of abstraction. This prevent scientists and the general public to define their own models in terms of their respective expertise and concern about the world. In the software and systems modeling community, research on domain-specific modeling languages (DSMLs) is focused, especially since the last decade, on providing technologies for developing languages and tools that allow domain experts to develop system solutions efficiently. In this presentation, we report an experiment which consists in defining DSMLs for farming systems using different methods, and illustrating the approaches and associated tools. The main objective is to help scientists and farmers to define the various models representing a farming system, and to help them reasoning on it for prediction and optimization. Incorporating domain-specific concepts and high-quality development experience into DSMLs can significantly help scientist and farmers to reason and optimize farming systems. Finally, we give some insights on perspectives that will illustrate the importance of the approach we advocate here.
    • 12/06/2015 : Filtre CSP sparse et classification de signaux EEG Marie Chavent (Institut de Mathématiques de Bordeaux) diaporama.
    Résumé : L'objectif du travail présenté lors de cet exposé était de développer une méthode capable de déterminer automatiquement l'état de vigilance chez l'humain et ce afin de détecter automatiquement une modification de l'état de vigilance chez des personnes qui doivent rester dans un état de vigilance élevée (par exemple, les pilotes ou les personnels médicaux). Dans ce travail, les signaux électroencéphalographiques (EEG) de 58 sujets dans deux états de vigilance distincts (état de vigilance haut et bas) ont été recueillis à l'aide d'un casque à 58 électrodes posant ainsi un problème de classification binaire. Une approche de classification basée sur l'utilisation du Common Spatial Pattern (CSP) a été développée. La méthode CSP permet en effet de définir des combinaisons linéaires des variables initiales afin d'obtenir des signaux synthétiques utiles pour la tâche de classification. Mais afin d'envisager une utilisation de ces travaux sur une application du monde réel, il était nécessaire de construire une méthode de prédiction qui ne nécessite qu'un faible nombre de capteurs (électrodes) afin de limiter le temps de pose du casque à électrodes ainsi que son coût. Ainsi dans ce travail, un algorithme génétique ainsi que des méthodes de recherche séquentielle ont été proposés afin de sélectionner un sous groupes d'électrodes à conserver lors du calcul du CSP. Enfin, un algorithme de CSP parcimonieux basé sur l'utilisation des travaux existant sur l'analyse en composantes principales parcimonieuse a été développé. Les résultats de chacune des approches seront détaillés et comparés.
    • 05/06/2015 : Modélisation par processus gaussiens et conception de fonctions de covariances. Applications à l'étude du rythme circadien Nicolas Durrande (École des Mines de St Étienne) diaporama.
    Résumé : Le contexte général de l'exposé est la construction de modèles mathématiques permettant d'étudier le comportement d'un phénomène à partir d'un nombre limité d'expériences. Nous verrons la méthode de krigeage sous deux points de vue (probabilités-statistiques et de l'analyse fonctionnelle) et nous mettrons l'accent sur la conception de fonctions de covariance adaptées à différent problèmes. Nous illustrerons l'intérêt de cette approche sur un cas d'application où nous chercherons à détecter, au sein du génome, les gènes susceptibles de jouer un rôle dans l'horloge circadienne. Pour cela, nous serons amenés à construire des fonctions de covariance permettant de quantifier la periodicité de l'expression d'un gène.
    • 29/05/2015 : Journée des doctorants
      • 10h00 Franck Cerruti Nouvelles approches bioinformatique pour l'analyse de la dynamique évolutive des petits ARNs non-codants et de leurs cibles chez les firmicutes
      • 10h20 Clément Viricel Approximate counting with deterministic guarantees for protein binding affinity
      • 10h40 Charlotte Dayde Comprendre le processus de prise de décision opérationnelle en agriculture
      • 11h00 Valérie Sautron Genetics systems of stress responses in pigs
      • 11h20 Jérôme Mariette Aggregating self organizing map with topology preservation
      • 11h40 Julia Radoszycki : Résolution de processus décisionnels de Markov à espaces d'état et d'action factorisés - Application en agroécologie
    • 22/05/2015 : Kolmogorov complexity and applications. Time series anomaly discovery with grammar-based compression. Pavel Senin (INRA, Unité MIAT) diaporama.
    Résumé : Kolmogorov (i.e., algorithmic) complexity is a notion of randomness that deals with the quantity of information. Proposed by A.N. Kolmogorov in 1965 to quantify the information of individual objects in an objective manner, it laid a foundation for a number of modern techniques including Incompressibility method, Minimum Description Length (MDL), and Normalized Compression Distance (NCD). In the first part of this seminar, we shall review the foundations of Kolmogorov complexity as proposed by Solomonoff, Kolmogorov, and Chaitin, show its key properties, and discuss its prominent applications. Our Kolmogorov complexity-based technique for time series anomaly detection will be discussed in the second part of the seminar.

    Pas de séminaire entre le 17 avril et le 15 mai (vacances scolaires + jours fériés).

    • 10/04/2015 : Sur la matrice d'information de Fisher dans le calcul du maximum de vraisemblance, avec des applications en modèles de choix discrets Fabian Bastin (Université de Montréal, Canada). diaporama
    Résumé : La propriété de l'identité de la matrice d'information nous informe que pour un modèle correctement formulé, le hessien de la fonction de log-vraisemblance est égale, en espérance, à l'opposé de la matrice d'information de Fisher. Le résultat peut être étendu, sous certaines conditions assez restrictives, aux fonctions de pseudo-log-vraisemblance. Cette propriété a conduit à exploiter l'estimateur de la matrice d'information dans des méthodes quasi-Newton, donnant lieu a l'approximation BHHH. Cependant, en pratique, il est souvent difficile de garantir que le modèle proposé est effectivement correct, ce qui peut conduire à des dégradations significatives de l'approche BHHH, celle-ci pouvant même ne pas converger. Dans un premier temps, nous examinerons comment il est possible de combiner les approches BHHH avec des techniques de programmation non-linéaire classique pour garantir la convergence de la maximisation de vraisemblance, tout en exploitant la structure du problème pour accélérer cette convergence. Nous examinerons également comment l'identité de l'information peut être utilisée pour établir des tests d'hypothèses sur l'adéquation du modèle. Ces techniques seront illustrées pour les modèles de choix discrets, utilisés pour étudier les facteurs comportementaux de choix, notamment en transport et en gestion de revenu. Le modèle logit, introduit par Daniel McFadden, a été la pierre angulaire de ces modèles. La propriété associée d'indépendance des alternatives irrelevantes (IAI) a été une bénédiction théorique mais également un inconvénient majeur du modèle logit. Ceci a conduit les chercheurs et les praticiens à proposer diverses extensions dans le but de mieux capturer les observations et de relâcher l'hypothèse IIA. Parmi elles, nous examinerons en particulier le schéma "mixed logit" qui, selon Kenneth Train, "résoud les trois limitations du logit standard en permettant une variation de goût aléatoire, des schémas de substitution non-restreints, et la corrélation des facteurs non-observés au cours du temps".
    • 03/04/2015 : Deciphering genome content and evolutionary history of isolates from the fungal plant pathogen Magnaporthe Hélène Chiapello (MIAT, INRA de Toulouse).
    Résumé : We have analyzed and compared a dataset of ten closely related genomes of the Magnaporthe oryzae/grisea species complex, a model pathogen fungus infecting rice and other Poaceaes. In four out of these nine genomes, we detected unexpected bacterial genomic regions assigned to Burkholderia fungorum. This study focused on the analysis of the Magnaporthe genomic regions and first revealed important variability in genome sizes between isolates [39-43 Mb]. These differences are consistent with variable gene amount among the 9 Magnaporthe isolates (12.283-14.781 genes) but don’t seem to be related neither to isolate specific genes known to be involved in pathogenicity, nor to isolate specific Transposable Elements families. We then constructed gene families to determine the core and pan-genomes of the 10 M. oryzae/grisae isolates. Evolutionary history of the predicted ortholog families was investigated using a recent method named Bayesian Concordance Analysis. We built a reference genealogy of these 10 isolates and showed a bifurcating evolution outside the lineage of isolates pathogenic to rice, and reticulate evolution within this lineage. The low level of nucleotidic diversity within the “rice” lineage suggested its recent divergence. The reticulate evolution observed in this lineage was consistent with a weak signal of recombination, but might be mainly due to incomplete lineage sorting. We also showed that a small but non-negligible proportion of the 7015 genome has a non-rice origin. Our results confirmed that the strict biological specificity of M. oryzae on different host plants was accompanied by a divergence of lineages without gene flow, and showed that adaptation to different plants does not seem to rely mainly on different gene content.
    • 27/03/2015 : Une approche par planification automatique à la cartographie en ligne par drone autonome Alexandre Albore (MIAT, INRA de Toulouse).
    Résumé : Je vous présente les premiers résultats du projet de post-doc sur la cartographie automatique de plantes adventices (mauvaises herbes) par drone, une collaboration Onera-INRA. Le défi est de réaliser une plateforme utilisable "on demand" qui réalise une série d'observations de sites dans un champ pour reconstituer le mieux possible une carte de la distribution d'adventices, tout en tenant compte des limitations en temps de vol et en ressources. Ces premiers résultats ont été publiés à la conférence de planification automatique ICAPS 2015. La cartographie de la distribution de plantes adventices (mauvaises herbes) sur les champs cultivés est un support essentiel aux procès décisionnels de l'agriculteur. Établir manuellement ces cartes (soit par des annotateurs humains, que par des drones pilotés) est un processus coûteux et chronophage surtout sur de grandes étendues ou sur des domaines à l'orographie complexe. Une approche automatique s'impose! On illustrera donc une approche à la cartographie d'adventices par drone totalement autonome, équipé d'un algorithme capable de décisions dans l'incertain. Le problème de cartographier un champ se transforme, du point de vue de la décision en ligne, en un problème d’échantillonnage dans un Champ de Markov, ce qui nous permet de codifier l'incertitude sur la carte élaborée et sa qualité. Une stratégie d’échantillonnage est établie par un planificateur de façon à maximiser la qualité de la carte finale et de minimiser le temps de vol, car ce problème présente de fortes contraintes temporelles dues à la durée limitée de la batterie du drone. Le problème de planification est trop complexe (PSPACE difficile) pour être résolu de façon exacte, on opte pour une approche de planification/replanification, commune en robotique où l'environnement est dynamique, qui prend en compte aussi la durée de la batterie comme variable du problème, en générant que des plans qui permettent au drone de recréer une carte de bonne qualité sans dépasser les limites de navigation imposées par la batterie. Cette approche se compare très favorablement à d'autres approches existantes pouvant être utilisées en-ligne et à-la-demande, dans le contexte de la cartographie par drone autonome.
    • 20/03/2015 : Modelling greenhouse gas fluxes from European agriculture soils in support of decision making Lily Paniagua (JRC, European Commission, Ispra, Italy).
    Résumé : The agricultural sector is challenged by securing food and industry fibre to a global population that is growing under changing climate conditions. Agriculture is the main source of greenhouse gas (GHG) emissions of non-CO2 gases like methane (CH4) and nitrous oxide (N2O). Mitigation strategies are promoted and implemented as this sector represents a low cost opportunity of emission reduction. Estimates of N2O fluxes from agriculture reported to UNFCCC present the highest uncertainty from all sectors. The challenge remains in defining robust emission factors that quantify the relationship between nitrogen (N) inputs and its effect on N2O emissions. This relationship depends on environmental factors which vary in space (soil, hydrology) and time (management practices and weather), and methods that cover both aspects are still needed. Bottom-up methods are based on field measurements, but their number is limited and they do not represent the spatial heterogeneity of Europe. There is a need to design a flexible modelling framework that allows to calculate N2O fluxes at different scales in a consistent way, based on the fact that data variability is very high and expensive to measure. The overall objective of this research is to model greenhouse gases (GHG) flows at European scale in response to agriculture management practices for support of decision making. This framework will be used for model integration, data assimilation and forecast of emissions scenarios according to crop adaptations and farming practices to future climate conditions.

    This is a joint work with Adrian Leip (JRC, European Commission, Ispra, Italy) and Wim de Vries (Wageningen University).

    • 13/03/2015 : Identification et Quantification de métabolites dans un spectre RMN Rémi Servien (ENVT, INRA de Toulouse). diaporama
    Résumé : Nous nous intéressons ici à un problème rencontré en métabolomique. Ce domaine vise à caractériser la composition d'un mélange complexe par ses métabolites i.e. ses petites molécules. Les spectromètres RMN fournissent un spectre de mélange complexe qui est la superposition des spectres des métabolites purs. Chaque métabolite possède un spectre caractéristique, sa signature, qui le rend identifiable. Cependant, la reconnaissance automatique des métabolites dans un mélange complexe est rendu délicate par des problèmes comme la déformation du spectre (translation, dilatation ...) ou la superposition des pics. Nous proposons ici une méthode permettant d'identifier et de quantifier rapidement les métabolites dans un spectre complexe. Nous estimons tout d'abord les déformations à l'aide d'une procédure itérative puis nous calculons les proportions des métabolites de manière simultanée en utilisant un algorithme de programmation linéaire. Cette procédure, testée sur différents mélanges, s'avère performante et rapide.
    • 6/03/2015 : Global Optimization with Sparse and Local Gaussian Process Models Tipaluck Krityakierne (Université de Berne, Suisse).
    Résumé : Many engineering problems, for example, in watershed management and groundwater bioremediation, require the optimization of objective functions whose values are obtained from time-consuming black-box simulations. To reduce the computational cost, surrogate models are often employed to approximate the expensive simulation model and decide at which points the next computationally expensive function evaluation should be done. Gaussian processes (GPs) have been widely used in the literature since they provide an elegant way to model the objective function and deal with the exploration and exploitation trade-off. Nevertheless, the time-complexity and storage bottlenecks, as well as potential singularity problems for the covariance matrix, are their main practical limitations when the number of observation points gets large. A number of sparse Gaussian processes have been proposed to circumvent this limitation. In this presentation, we review some of these methods and present a novel global optimization framework based on sparse GPs. Without being overly confident, one may already say that the proposed approach offers promising perspectives for performing GP-based optimization with tens of thousands of observations. Besides this, a number of research questions arise and will be touched upon during the presentation.
    • 27/02/2015 : The optimal number of surveys when detectability varies unpredictably Alana Moore (University of Melbourne and MIA-T). diaporama
    Résumé : The survey of plant and animal populations is central to undertaking field ecology. However, detection is imperfect, so the absence of a species cannot be determined with certainty. Methods developed to account for imperfect detectability during surveys do not yet account for unpredictable variation in detectability over time or space. When each survey entails a fixed cost that is not spent searching (e.g., time required to travel to the site), unpredictable variation in detectability results in a trade-off between the number of surveys and the length of each survey when surveying a single site. We present a model that addresses this trade-off and use it to determine the number of surveys that: 1) maximizes the expected probability of detection over the entire survey period; and 2) is most likely to achieve a minimally-acceptable probability of detection. We illustrate the applicability of our approach using three practical examples (minimum survey effort protocols, number of frog surveys per season and number of quadrats per site to detect a plant species) and test our model’s predictions using data from experimental plant surveys. We find that surveys can be made more efficient if unpredictable variation in detectability is taken into account. Further, the effort required to guarantee a particular probability of detection is likely to be underestimated if this variability is not accounted for in survey designs. We find that accounting for variable detection rates is likely to be particularly important for designing surveys when species detection rates are low. Our model provides a framework to do this.

    Pas de séminaire les 13 et 20 février (vacances scolaires).

    • exceptionnellement séminaires joints les 05 et 06 février de 10h30 à 12h, salle de conférence de l'INRA d'Auzeville

    Lei Sun (Department of Statistical Siences, University of Toronto) Hypothesis-driven GWAS identifies missing heritability: application to Meconimum Illues in Cystic Fibrosis

    Résumé : It is often the case that a genome-‐wide association study (GWAS) successfully identifies one or a few susceptibility loci but the associated variants account for only a small proportion of the heritability. In the literature, efforts on identifying the missing heritability include for example analyzing imputed un­‐genotyped SNPs and copy-­number variations (CNVs), exploring GxG interactions, and more recently generating next generation sequencing (NGS) data and studying rare variants, but mostly with limited success so far. To this end, we proposed a hypothesis driven GWAS (GWAS-­HD) analytical framework that improves power by incorporating sound biological hypothesis into the prioritization and interpretation of the initial GWAS results. GWAS­‐HD uses the stratified false discovery control (sFDR) (Sun et al. 2006) to re-­evaluate the initial association evidence for all GWAS SNPs, and it also determines the statistical significance of the biological hypothesis itself, testing all high priority SNPs jointly. Prioritization of the genome is not new and is a key feature in many alternative approaches such as pathway or gene enrichment analyses. However, GWAS-­HD is not an inclusion or exclusion type of prioritization approach and has a robustness feature that safeguards against uninformative or even misleading prior information. To demonstrate the practical relevance of the method, I discuss two GWAS of Cystic Fibrosis modifier genes, in which over 500,000 SNPs are investigated for association with lung functions in individuals with CF and the available prior is of quantitative nature (Wright et al. 2011, Nature Genetics 43:539‐548), and for association with meconium ileus and the prior is of categorical nature (Sun et al. 2012, Nature Genetics 44:562-­‐569). The applications show that the GWAS-­HD framework can yield considerable amount of additional information than the standard GWAS approach. GWAS-­HD can be applied to other Mendelian disorders or even complex traits provided there is relevant prior information available.

    Radu Craiu (Department of Statistical Sciences, University of Toronto) Bayesian latent variable modelling of longitudinal family data for genetic pleiotropy studies

    Résumé : Motivated by genetic association studies of pleiotropy, we propose a Bayesian latent variable approach to jointly study multiple outcomes or phenotypes. The proposed method models both continuous and binary phenotypes, and it accounts for serial and familial correlations when longitudinal and pedigree data have been collected. We present a Bayesian estimation method for the model parameters and we discuss some of the model misspecification effects. Central to the analysis is a novel MCMC algorithm that builds upon hierarchical centering and parameter expansion techniques to efficiently sample the posterior distribution. We discuss phenotype and model selection, and we study the performance of two selection strategies based on Bayes factors and spike-and-slab priors.
    • 30/01/2015 : Nouvelles perspectives pour l’analyse d’incertitudes et de sensibilité : comment gérer la grande dimension et les entrées/sorties fonctionnelles. Sébastien Da Veiga (SNECMA, Paris). diaporama
    Résumé : La quantification d'incertitudes et l'analyse de sensibilité sont des outils désormais essentiels dans l'étude des codes numériques coûteux. De très nombreux exemples d'applications industrielles, dans des domaines aussi variés que l'aéronautique, l'automobile, le nucléaire ou l'ingénierie pétrolière ont démontré l'intérêt de ces méthodes pour mieux évaluer l'incertitude des prévisions et identifier de manière précise quelles sont les entrées responsables des plus grosses variations des sorties. Ces dernières années ont vu le développement d'une grande variété de techniques pour l'analyse de sensibilité, que l'on peut classer en quatre catégories principales : 1) celles destinées à réduire le nombre d'évaluation du code numérique pour estimer les indices de sensibilité de Sobol (nouveaux estimateurs statistiques, utilisation de métamodèles, ...) ; 2) celles visant à améliorer les procédures de screening qualitatif pour éliminer rapidement un grand nombre de variables d'entrée non-influentes rapidement (screening de Morris, ...) ; 3) celles dédiées à la construction de nouveaux indices n'étant pas basés sur l'étude de la variance de la sortie (sensibilité pour la probabilité de dépassement d'un seuil, sensibilité globale avec dérivées, indices distributionnels) ; 4) celles dont l'objectif est de prendre en compte le caractère fonctionnel d'entrées ou de sorties du code numérique (courbes, cartes 2D ou cubes 3D, ...). Si dans chacune de ces catégories des méthodes efficaces ont été développées, il n'existe pas d'intersection claire entre les approches et le praticien peut vite se retrouver perdu face à un tel éventail de techniques. D'autre part, le traitement de la grande dimension et la prise en compte d'entrées/sorties fonctionnelles sont toujours des sujets de recherche actuels car les solutions proposées jusqu'à aujourd'hui ne sont pas complètement satisfaisantes. Dans cet exposé, nous introduisons un cadre unifié pour l'analyse de sensibilité grâce à l'utilisation de noyaux, capable de gérer des données fonctionnelles de manière naturelle tout en proposant des indices dont le calcul n'implique pas un grand nombre d'évaluations du code. Cette spécificité, ainsi que les liens de notre approche avec la sélection de variables en très grande dimension, en font entre autre un cadre particulièrement adapté pour le screening. Nous verrons également que les indices de sensibilité de Sobol apparaissent comme un cas particulier de ces nouveaux indices quand un certain noyau est choisi, et qu'il est également possible d'obtenir un équivalent de la décomposition de la variance en effets principaux, interactions, etc. Ces résultats récents font d'un tel cadre une généralisation naturelle et complète de l'analyse de sensibilité classique. D'un point de vue pratique, nous illustrerons les apports de cette nouvelle approche sur plusieurs exemples analytiques en grande dimension et des applications industrielles dont les sorties sont des cartes 2D ou des cubes 3D.
    • 23/01/2015 : Mise au point d'outils d'aide à la sélection génomique avec prise en compte de données dépendantes de facteurs environnementaux Daniel Ruiz (ENSEEIHT).
    Résumé : Depuis de nombreuses années, les semenciers travaillent à améliorer les caractéristiques phénotypiques des maïs, afin d’augmenter les rendements, de les rendre moins sensibles à la verse ou à diverses maladies, par exemple. Les avancées faites dans les domaines du marquage moléculaire (puces à haute densité de génotypage SNP -- Single Nucleotide Polymorphism) ouvrent aujourd’hui de nouvelles perspectives dans le secteur de la création variétale. Le travail présenté se place dans le contexte du projet GBDS (Genomic Breeding Decision Support), financé dans le cadre du 13ème appel FUI. L'ambition du projet GBds est la mise au point d'outils statistiques d'aide à la création de variétés de maïs, permettant de prédire la valeur génétique d'un hybride, grâce au génotypage haute densité de ses lignées parentales et à l'observation de divers caractères phénotypiques (rendement, date de floraison, taux d'humidité à la récolte, etc ...) sous contraintes environnementales variés. Un aspect important concerne la modélisation de l’interaction Génotype Environnement (GxE), car l'effet environnemental (lieu, année, essai, climat…) est prépondérant dans les données phénotypiques et introduit des variations importantes dans l'évaluation de la valeur génétique seule. Il est donc nécessaire d’ajuster les observations phénotypiques des hybrides pour extraire une TBV (True Breeding Value), qui représente le potentiel génétique corrigé des variations GxE, exploitable en entrée d'algorithmes de type MLM (Modèle Linéaire Mixte). Une première difficulté provient de la présence de données très déséquilibrées dans les jeux de données des semenciers du fait que tous les hybrides ne sont pas testés dans tous les environnements (précocités différentes des plantes, dispositifs expérimentaux limités…), complexifiant l'évaluation des interactions GxE. La seconde difficulté vient du fait que, si l’information génétique à haute densité disponible permet d’imaginer de nouvelles approches de sélection, les volumes de données en jeu requièrent des développements spécifiques dans les domaines mathématiques et algorithmiques.
    • 16/01/2015 : pas de séminaire : soutenance de thèse de Hiep Nguyen - jeudi 15 janvier à 13h30 , Salle de séminaire de l'IFR, INRA

    Titre : Strong consistencies for Cost Function Networks

    Résumé : : This thesis focuses on strong local consistencies for solving optimization problems in costfunction networks (or weighted constraint networks). These methods provide the lowerbound necessary for Branch-and-Bound search. We first study the Virtual arc consistency,one of the strongest soft arc consistencies, which is enforced by iteratively establishing hardarc consistency in a sequence of classical Constraint Networks. The algorithm enforcingVAC is improved by integrating the dynamic arc consistency to exploit its incrementalbehavior. The dynamic arc consistency also allows to improve VAC when maintained VACduring search by efficiently exploiting the changes caused by branching operations. Sec-ondly, we are interested in stronger domain-based soft consistencies, inspired from similarconsistencies in hard constraint networks (path inverse consistency, restricted or Max-restricted path consistencies). From each of these hard consistencies, many soft variantshave been proposed for weighted constraint networks. The new consistencies provide lowerbounds stronger than soft arc consistencies by processing triplets of variables connectedtwo-by-two by binary cost functions. We have studied the properties of these new consis-tencies, implemented and tested them on a variety of problems.

    Mots-clés : Weighted CSP • Cost Function Networks • Strong local consistencies • Highorder consistencies • Dynamic arc consistency • Virtual arc consistency

    • 09/01/2015 : Towards a new vision of heredity / Vers une nouvelle vision de l'hérédité Étienne Danchin (Écologie et Diversité Biologique, Toulouse).
    Résumé : Many biologists are calling for an ‘extended evolutionary synthesis’ that would ‘modernize the modern synthesis’ of evolution. Biological information is typically considered as being transmitted across generations by the DNA sequence alone, but accumulating evidence indicates that both genetic and non-genetic inheritance, and the interactions between them, have important effects on evolutionary outcomes. I will review some evidence for such effects of epigenetic and cultural inheritance on the transmission of phenotypic variation across generations. These issues have major implications for diverse domains, including medicine where they may profoundly affect research strategies. For instance, non-genetic inheritance may explain a significant part of one of the major enigma of current molecular biology, namely the case of the missing heritability, which concerns many human supposedly genetic disorders. The missing heritability rather suggests that we should abandon the current genocentric framework of inheritance and adopt a broader view of biology including all of non-genetic inheritance into an "Inclusive Evolutionary Synthesis".

    Pas de séminaire les 26 décembre et 2 janvier (vacances scolaires).

    • 19/12/2014 : Network visualization of conformational sampling during molecular dynamics simulation Osamu Miyashita (RIKEN Advanced Institute for Computational Sciences). slides
    Résumé : Molecular dynamics (MD) simulation is a widely used approach for investigating the dynamics of biomolecules. With increases in computer processing power and the advent of enhanced sampling techniques, an extensive range of conformational changes may be probed with MD simulation. As a result, increasingly large data sets must be analyzed in order to elucidate the relevant conformational states of a particular system and the interpretation of a trajectory may become exceedingly complex. Therefore effective data reduction methods are necessary for uncovering the conformational relationships present in large MD trajectories. Clustering algorithms provide a means to interpret the conformational sampling of molecules during simulation by grouping trajectory snapshots into a few subgroups, or clusters, but the relationships between the individual clusters may not be readily understood. Here we show that network analysis can be used to visualize the dominant conformational states explored during simulation as well as the connectivity between them, providing a more coherent description of conformational space than traditional clustering techniques alone. Network annotations also increase the information content of the ensemble representations and are especially useful for visualizing the relationships between representative structures from clustering, experimental structures, and the simulated ensemble so as to reach functional conclusions. We compare the results of network visualization against 11 clustering algorithms and principal component conformer plots. Several examples of proteins undergoing distinct conformational changes demonstrate the effectiveness of network representations in understanding the conformational space explored by MD trajectories. In summary, network visualization can serve as an effective tool for uncovering the inherent conformational relationships in large MD trajectories. Networks reveal the relationship of experimental and representative structures to the simulated conformational ensemble and are instrumental in arriving at new functional insights.
    • 12/12/2014 : Data Assimilation Concepts (with an application to oceanography) Selime Gurol (CERFACS, Toulouse).
    Résumé : Data assimilation is at the core of the research as a key solver to improve the estimation of the physical parameters arising in earth systems problems including oceanography, atmospheric sciences and also land studies. In this talk; one of the efficient solution approximation for these systems, four dimensional variational (4D-Var) data assimilation method, is considered with an application to ocean data assimilation systems. Variational assimilation seeks to solve a regularized nonlinear least-squares problem to determine a model state that optimally fits both observational information and a priori information. The fit is quantified by a cost function that measures the sum of the weighted squared differences between the available information and the corresponding model-predicted fields. In this talk, first the main concepts of data assimilation are explained and then a practical application from oceanography will be presented.
    • 09/12/2014 : Constraint programming on infinite data streams Jimmy Lee (Department of Computer Science and Engineering, The Chinese University of Hong Kong)
    Résumé : Classical constraint satisfaction problems (CSPs) are commonly defined on finite domains. In real life, constrained quantities can evolve over time. A variable can actually take an infinite sequence of values over discrete time points. In this talk, we propose constraint programming on infinite data streams, which provides a natural way to model constrained time-varying problems. In our framework, variable domains are specified by omega-regular languages. We introduce special stream operators as basis to form stream expressions and constraints. Stream CSPs have infinite search space. We propose a search procedure that can recognize and avoid infinite search over duplicate search space. The solution set of a stream CSP can be represented by a Büchi automaton allowing stream values to be non-periodic. Consistency notions are defined to reduce the search space early. A prototype solver allows us to solve such interesting problems as eventually still life problem, traffic light control, jazzy elevator music generation, declarative specification and solving of the 15-puzzle, improvised juggling patterns, and video game engine synthesis. As diverse as these applications are, they share similar characteristics as controller specification and synthesis. Last but not least, we demonstrate how the solution automaton of a stream CSP can be used to control robotic hardware in real-time.
    • 05/12/2014 : pas de séminaire : soutenance de thèse de Magali Champion - vendredi 5 décembre à 10h30, amphithéâtre Schwartz, bâtiment 1R3 de l'Institut de Mathématiques de Toulouse, Université Paul Sabatier

    Titre : Contribution à la modélisation et l'inférence de réseaux de régulation de gènes

    Résumé : : Cette thèse propose des développements autour de l'étude théorique et l'utilisation de méthodes statistiques mathématiques et d'optimisation dans le contexte des réseaux géniques. De tels réseaux sont des outils puissants de représentation et d'analyse de systèmes biologiques complexes, et permettent de modéliser des relations fonctionnelles entre les éléments qui composent ces systèmes. La première partie de cette thèse est consacrée à l'étude de méthodes d'apprentissage statistique pour inférer ces réseaux par le biais de régressions parcimonieuses dans le contexte de grande dimension, et plus particulièrement les algorithmes de L2-Boosting. D'un point de vue théorique, nous montrons des résultats de consistance et de stabilité du support, sous des hypothèses concernant notamment la dimension du problème. La deuxième partie concerne l'utilisation des algorithmes de L2-Boosting pour l'apprentissage d'indices de Sobol dans le cadre d'analyse de sensibilité. Pour estimer ces indices, on s'appuie sur la décomposition du modèle sous forme de fonctionnelles d'ANOVA. Les composantes sont estimées via une procédure d'orthogonalisation hiérarchique de Gram-Schmidt, visant à construire une approximation de la base analytique, et une procédure de L2-Boosting pour reconstruire une approximation parcimonieuse du signal. Nous montrons alors que l'estimateur obtenu est consistant dans un contexte de bruit sur le dictionnaire d'approximation. La dernière partie concerne enfin le développement de méthodes d'optimisation pour estimer des interactions au sein de réseaux. Nous montrons que le problème de minimisation de la log-vraisemblance peut être réécrit sous la forme d'un problème de double optimisation, consistant à trouver la forme complète du graphe (ordre des variables au sein du graphe) puis à le rendre parcimonieux. Nous proposons de le résoudre par le biais d'un algorithme génétique, spécifiquement adapté à la structure de notre problème.

    Mots-clés : statistique, grande dimension, régression, parcimonie, optimisation.

    • 28/11/2014: pas de séminaire : visite de AERES
    • 21/11/2014: Analyse des réseaux métaboliques et de leur régulation , Lucas Marmiesse (LIPM - INRA Toulouse). slides
    Résumé : : L'étude de la physiologie cellulaire passe par l'analyse de différents niveaux de réseaux biologiques. Le réseau le plus étudié est le réseau métabolique car il est directement responsable du phénotype de la cellule. Cependant l'étude du métabolisme seul ne permet pas de comprendre les différences observées entre deux cellules différenciées d'un organisme, ou le comportement d'un micro-organisme en fonction de l'environnement. En effet, au cours de l'évolution, des réseaux de régulation complexes permettant de n'exprimer qu'une partie de leurs gènes selon certaines conditions se sont mis en place dans les cellules. À l'échelle d'une cellule, les paramètres cinétiques agissant sur les réseaux métaboliques et de régulation sont impossibles à définir tous. Nous évoquerons ici différents modèles permettant de les contourner : les modèles à base de contraintes, et plus spécifiquement l'analyse de balance des flux, pour les réseaux métaboliques, et les modèles logiques pour les réseaux de régulation. Enfin, nous nous intéresserons aux moyens d'interfacer ces deux réseaux pour pouvoir analyser l'effet de l'un sur l'autre.

    This is a joint work with Ludovic Cottret, LIPM/INRA

    • 14/11/2014 : Les réseaux élastiques : un outil pour étudier la relation structure-fonction des protéines, Yves-Henri Sanejouand (CNRS, Nantes).
    Résumé : Above its "folding temperature", a protein behaves like any polymer. Below, it has a given tridimensional structure, which allows the protein to function as a specific catalist or binder, this structure being so well defined that the position of most of its atoms can often be determined at the atomic scale. The structure of a protein can be described as a graph whose nodes are the amino-acids, the edges corresponding to pairs of amino-acids close enough in space. Such a description actually allows to predict fairly well the amplitude of the brownian motion of each amino-acid, as assessed for instance by protein crystallographic data. In order to also predict the direction of the motion of the amino-acids, tridimensional graphs can be considered. Associating an harmonic spring to each edge yields collective motions (the low-frequency modes of the system) that turned out to be relevant for protein function, namely, the kind of motion the protein experiences when it binds its ligand or to another protein. Applications have been proposed, noteworthy in the field of structural biology, which try to take advantage of these results.
    • 07/11/2014 : Fragment-based protein structure prediction and design David Simoncini (Unité MIA-T - INRA Toulouse). slides
    Résumé : Proteins are fundamental components of all living cells and are among the most studied biological molecules. They are involved in numerous diseases and being able to determine their 3D structures provides critical clues to their functions. Computational protein structure prediction relies on Christian Anfinsen's hypothesis that the 3D structure of a protein is determined only by its amino acid sequence. Fragment assembly is a widely accepted method of protein structure prediction that builds protein models from a pool of candidate fragments taken from known structures. During this talk, we will first give an overview of the fragment-based approach for protein structure prediction. We will then present EdaFold, a fragment-based method using an estimation of distribution algorithm. Finally, we will show how we can modify Edafold so that it tackles the inverse problem of finding an amino acid sequence which matches a given 3D scaffold (computational protein design).

    Pas de séminaire les 24 et 31 octobre (vacances scolaires).

    • 17/10/2014: Sampling-based algorithms for pathfinding on continuous cost-spaces: applications in robotics and structural biology, Juan Cortès (LAAS Toulouse)
    Résumé : In robotics, motion planning algorithms have traditionally aimed at finding feasible, collision-free paths for a mobile system. However, beyond feasible solutions, in many applications it is important to compute good-quality paths with respect to a given cost criterion. When a cost function is defined on the configuration space of the system, motion planning becomes a pathfinding problem in a continuous cost-space. The cost function associated with robot configurations may be defined from the distance to obstacles in order to find high-clearance solution paths. It may also be related to controllability, to energy consumption, or to many other different criteria. In computational structural biology, where robotics-inpirered algorithms are applied to simulate molecular motions, the cost function is usually defined by the potential energy or the free energy of the molecular system. Computing low energy paths in this context is important since they correspond to the most probable conformational transitions. We have developed a variant of the popular RRT algorithm, called Transition-RRT (T-RRT), to compute good-quality paths in high dimensional continuous cost-spaces. The idea is to integrate a stochastic state-transition test, similarly to the Metropolis Monte Carlo method, which makes the exploration get focused on low-cost regions of the space. The algorithm involves a self-tuning mechanism that controls the difficulty of this transition test depending on the evolution of the exploration process, and which significantly contributes to the overall performance of the method. T-RRT is a simple and general algorithm that can take into account any type of continuous, smooth cost function defined on the configuration space. It has been successfully applied to diverse robot path-planning problems as well as structural biology problems. We have also developed several variants and improvements of the basic T-RRT algorithm to solve more efficiently particular classes of problems, and to guarantee (asymptotic) convergency to the optimal solution in an any-time fashion.
    • 10/10/2014: Stochastic block Model for Multiplex, Avner Bar-Hen (MAP5, Université Paris Descartes). slides
    Résumé : Modeling relational information among individuals is a classical question and grouping the individuals allows a structure based on the observed patterns of interactions to be uncovered. Stochastic block model (SBM) is a popular approach for defining a network partition. Multiplex networks allow more than one edge between two individuals and are used when the relationships between individuals can be of various types. The aim is to extend the SBM model to multiplex in order to have a clustering based on more than one kind of relationship. A model is proposed and a procedure to obtain the maximum likelihood estimates of the parameters, such as the marginal probabilities of assignment to groups and the matrix of probabilities of connections between groups, is detailed. The number of groups is chosen thanks to a penalized likelihood criterion. Multiplex Stochastic Block Model arise in many situations but our applied example is motivated by a network of French cancer researchers. The two possible links between researchers are a direct connection or a connection through their labs. Our results show strong interactions between these two kinds of connections and the groups that are obtained are discussed to emphasize the common features of researchers grouped together.

    This is a joint work with Pierre Barbillon and Sophie Donnet, AgroParisTech/INRA

    • 03/10/2014: Conception de vergers maraîchers à MIAT, Marc Tchamitchian (INRA, Ecodéveloppement, Avignon).
    Résumé : Organic vegetable production systems are a solution to address the current concerns about the environmental impact of agriculture (Bellon and Hemptinne, 2012). However, these systems remain relatively specialized. Agroforestry systems mixing fruit trees and vegetable crops make a better use of biodiversity and offer a good response to economic challenges such as being able to fulfill the local market requirements, continuous provisioning of vegetable but diversified food. Designing mixed cropping systems based on fruit and vegetable is a real challenge because they combine interactions of different nature (ecological, economical and social), which take place both in time and space. Therefore, automatically building prototypes exploiting the advantages of agroforestry would be of great help. The goal of this study is to assess the validity of the methodological choice to design mixed fruit-vegetable cropping systems by automatic inference using the constraint satisfaction problem approach. The following part surveys the knowledge necessary to describe such mixed systems and how it has been modeled as constraints. The next part presents and discusses the results obtained so far.
    • 26/09/2014: Séminaire annulé
    • 19/09/2014: Allocation dynamique de ressources et modèles de bandits, Aurélien Garivier (Institut de Mathématiques de Toulouse). slides
    Résumé : Un agent doit choisir, à chaque instant, une action parmi une famille d'actions disponibles. Chaque action conduit à une récompense aléatoire de distribution inconnue. Comment doit-il s'y prendre pour maximiser la somme des récompenses qu'il recueille ? Une bonne politique doit réaliser un savant équilibre entre l'exploitation des actions qui se sont révélées payantes par le passé et l'exploration de nouvelles possibilités qui pourraient s'avérer encore meilleures. L'étude mathématique de ces problèmes dits de bandits (en référence à la situation paradigmatique d'un joueur faisant face à une lignée de machines à sous) remonte aux années 1930. De nombreux travaux ont suivi : on présentera principalement dans cet exposé les algorithmes dits "optimistes", qui accordent toujours le bénéfice du doute aux actions mal connues, et qui ont l'avantage de pouvoir être appliquées dans une grande variété de situations.
    • 12/09/2014: Résolution approchée de processus décisionnels de Markov factorisés , Julia Radoszycki (Unité MIA-T - INRA Toulouse). slides
    Résumé : Les processus décisionnels de Markov forment un cadre intéressant pour la décision séquentielle dans l'incertain. Cependant, l'application à des problèmes réels n'est pas directe quand l'espace d'état et l'espace d'action sont factorisés (décrits par un grand nombre de variables). La plupart des algorithmes existants ne s'appliquent pas quand le nombre de variables d'état et d'action excède 30, ou alors des hypothèses fortes sont faites sur la fonction de transition ou la fonction de valeur. Nous proposons une nouvelle approche basée sur la recherche de politiques stochastiques factorisées dont la structure est donnée. Notre approche consiste à utiliser un algorithme d'optimisation continue, et une méthode variationnelle pour l'évaluation approchée de la fonction objectif. Des expériences sur un problème jouet montrent que notre approche permet de traiter des problèmes ayant 100 variables d'état et d'action.

    2013-2014

    • 25/07/2014: Registration of Brain Anatomy and Morphometry: Comparing genus zero surfaces , Patrice Koehl (UC Davis, Computer Science Dpt./Genome Center).
    Résumé : In general, methods that compare shapes can be classified into two categories: those that derive features (also called shape descriptors) for each shape separately that can then be compared using standard distance functions, and those that directly attempt to map one shape onto the other, thereby providing both local and non-local elements for comparison. I am currently interested in developing methods that generate mappings between two shapes that are defined by surfaces of genus zero. We have recently proposed a new algorithm for shape registration based on the idea of a globally optimal conformal mapping between two surfaces of genus zero. In this approach, the whole mesh representing the source surface is warped onto the target surface, using the mapping defined through the composition of discrete conformal mappings of the surfaces onto the sphere and the Möbius transformation between these mappings. The Möbius transformation is then optimized to lead to minimal distortion between the source mesh and its image, where distortion is measured as difference from isometry.

    This is a joint work with Joel Hass (UC Davis), Nina Amenta (UC Davis), Owen Carmichael (UC Davis).

    • 04/07/2014: Grammar-driven patterns discovery in time series, Pavel Senin (MIAT, INRA Toulouse).
    Résumé : The problem of recurrent and anomalous patterns discovery in time series has received a lot of attention from researchers in the past decade since this ability not only provides the capacity to explore, to summarize, and to compress large datasets, but effectively translates into the capability to support decision making processes in many areas by conveying critical and actionable information, such as in health care, equipment safety, and in security. However, most of the proposed techniques require the user to provide the length of a potential pattern, which is often unreasonable for real-world problems. Addressing this limitation, we propose a technique that uses grammar induction to aid in the recurrent and anomalous patterns detection without any prior knowledge about the phenomenon duration. Our algorithm is capable of discovering co-occurring variable-length structural time series patterns and effectively extends the current state of the art. In addition, we show a highly efficient variant of our algorithm that is capable of discovering anomalous subsequences of variable length without computing costly distance functions - a procedure that typically accounts for up to 99% of most algorithms' computation time. Finally, we show and provide an implementation and a visualization tool.
    • 23/06/2014 (14h00): Attention ! Exceptionnellement un lundi ! Optimal decision-making to protect endangered species], Sam Nicol, CSIRO Ecosystem ScienceS.
    Résumé : Natural resource managers are required to prevent extinction of endangered species and to control or eradicate invasive species. These objectives must be completed with limited resources and often management decisions must be taken with limited data and uncertainty about how systems will evolve in both space and time. The best practice method for managing ecological systems under uncertainty is adaptive management, an iterative process of reducing uncertainty while simultaneously optimizing a management objective. While the term ‘adaptive management’ was created by fisheries scientists for use in natural resource management, the problems of optimal decision making under uncertainty are familiar to mathematicians in other fields. In particular, adaptive management can be modelled using a discrete-time stochastic control technique called a partially observable Markov decision process. In this talk I will demonstrate how techniques borrowed from decision theory, artificial intelligence and operations research are being applied to aid decision making for conservation problems. Along with other examples, I will refer to my most recent work on managing an international network of migratory shorebirds that is threatened by the habitat loss that will be caused by an uncertain extent of sea level rise.
    • 20/06/2014: Parametric Estimation of Ordinary Differential Equations with Orthogonality Conditions, Nicolas Brunel, (ENSIEE, Evry).
    Résumé : L'estimation d'équations différentielles ordinaires (EDO) par les approches de type moindres carrés non-linéaires ont tendance à aboutir des problèmes d'optimisation complexe et mal-posé. Des estimateurs alternatifs ont donc été proposés pour obtenir des estimateurs fiables. En s'inspirant d'une approche "Analyse de Données Fonctionnelles", nous proposons un estimateur "gradient matching" pour l'estimation des paramètres d'une EDO, lorsque les trajectoires sont observées avec du bruit. A partir d'une approximation non-paramétrique de la vraie trajectoire, nous construisons une estimateur paramétrique à partir d'une caractérisation variationnelle de la solution. L'estimateur introduit soit alors satisfaire un ensemble de conditions d'orthogonalité qui sont alors résolues au sens des moindres carrés. Malgré l'utilisation d'un estimateur non paramétrique, l'estimateur obtenu a bien la vitesse de convergence en racine de n, et est asymptotiquement normal. Nous obtenons aussi des intervalles de confiance grâce à une expression explicite de la variance asymptotique, et nous donnons une moyen pratique de calcul.
    • 06/06/2014: Sequential actions in a reasonable world - On the locality of action domination in sequential decision making, Emmanuel Rachelson (ISAE SupAero).

    (Although the following abstract sounds rather technical, the presentation contains many fun and intuitive results and should be accessible for an audience that has no expertise in Reinforcement Learning)

    Résumé : In the field of sequential decision making and reinforcement learning, it has been observed that good policies for most problems exhibit a significant amount of structure. In practice, this implies that when a learning agent discovers an action is better than any other in a given state, this action actually happens to also dominate in a certain neighbourhood around that state. This presentation will highlight some results proving that this notion of locality in action domination can be linked to the smoothness of the environment’s underlying stochastic model. Namely, we link the Lipschitz continuity of a Markov Decision Process to the Lispchitz continuity of its policies’ value functions and introduce the key concept of influence radius to describe the neighbourhood of states where the dominating action is guaranteed to be constant. These ideas are directly exploited into the proposed Localized Policy Iteration (LPI) algorithm, which is an active learning version of Rollout-based Policy Iteration. Preliminary results on the Inverted Pendulum domain demonstrate the viability and the potential of the proposed approach. (associated paper : On the Locality of Action Domination in Sequential Decision Making. E. Rachelson, M. G. Lagoudakis. 11th International Symposium on Artificial Intelligence and Mathematics, 2010)
    Résumé : Stochastic networks encompass a broad class of stochastic models with the common problematic of resource sharing, e.g., transportation, energy or communication networks. In this talk I will present two renormalization techniques that can be seen as functional versions of the law of large numbers and the central limit theorem, and I will explain how these techniques can be used to analyze the performance of communication networks. I will not assume any prior knowledge on these topics.
    Résumé : The recent development of high-throughput techniques makes available huge datasets where thousand genes are simultaneously measured. However, the number of observations is, comparatively, very small, and those are often measured in a variety of experimental conditions. One of the big challenge of modern systems biology is to understand the influence of controlled experimental conditions on the functioning of living organisms. This question is usually addressed by searching for the difference between gene expressions pertaining to the condition (hence for "differentially expressed genes"). But the differences in the way the genes interact with each others is also a question of interest: finding which regulation pathways are modified by a given experimental condition gives an interesting insight on the influence of the condition on the living system in its whole. One of the most popular approach to understand the complex relationships existing between the expression of a large set of genes is to infer a co-expression network from a transcriptomic dataset. In such a model, the nodes of the network represent the genes and an edge between two nodes models a strong co-expression between the two genes. A number of different methods have been developed to infer such networks: using correlations (relevance network, Butte & Kohane, 2000), Bayesian networks (Pearl, 1998 or Pearl & Russel, 2002), Graphical Gaussian Model (Edwards, 1995)... When the observations have been collected in different conditions, a naive approach would be to infer a network for each experimental condition and to compare them. However, this method will not be able to stress out specifically the differences and the commonalities of regulation phenomenons: since the number of observations is small, inferring the networks independently, forgetting that a common functioning should exist whatever the condition will lead to emphasize irrelevant differences. In this proposition, we will present a novel method for inferring co-expression networks from samples obtained in different experimental conditions. This approach is based on a double penalization: a first penalty aims at inferring a sparse solution; then, the second penalty is used to make the networks obtained in different conditions consistent with a consensual network. The "consensual network" is introduced to represent the dependency structure between genes, the common functioning of the living organism under study, whatever the condition. The estimation is made more robust by using a bootstrap approach. Our proposal is tested and compared to existing alternatives, on simulated datasets, investigating the influence of the number of different edges between conditions and of the sample size. It is also applied on a real-world dataset where the transcriptom has been measured for different breeds of a given mammalian species.
    Résumé : L'agrégation d'estimateurs et de prédicteurs a motivé de très nombreux travaux depuis la fin des années 1990. Le praticien voit son activité profondément modifiée par deux mouvements conjoints : nous entrons chaque jour un peu plus dans l'ère du "big data", les volumes et dimensions des données augmentent avec les progrès constants de l'outil informatique ; parallèlement, le nombre de méthodes d'estimation et de prédiction disponibles a accompagné cette inflation impressionnante, abordant tant en classification qu'en régression une variété croissante de modèles et de contextes statistiques (estimation de probabilités, modèles additifs, modèles parcimonieux...). Citons, parmi beaucoup d'autres, les méthodes pénalisées (le Lasso et ses variantes), les k-plus proches voisins, les arbres et forêts aléatoires, les approches bayésiennes, etc. Il est dès lors légitime d'étudier des procédures d'agrégation de techniques existantes, afin de tirer le meilleur de chacune d'elles et d'éliminer autant que possible la phase---par essence subjective---de spécification d'un modèle. La littérature est riche de nombreuses méthodes d'agrégation de prédicteurs : sélection de modèles, combinaisons linéaires ou convexes sont les principales. Nous proposons dans cet exposé une approche différente, non linéaire en les prédicteurs, reposant sur un principe de moyenne locale. À la métrique usuelle induite par le design, nous proposons de substituer une métrique particulière, suggérée par des estimateurs préliminaires de la fonction de régression. Nous montrons en particulier que l'estimateur résultant est asymptotiquement aussi efficace que le meilleur des estimateurs initiaux. Nous obtenons également une inégalité oracle exacte non asymptotique en espérance, avec une vitesse de convergence explicite. Notre méthode est disponible sur le CRAN sous la forme du package R COBRA, dont les performances brutes et la vélocité sur données simulées et réelles seront commentées. Références : http://arxiv.org/abs/1303.2236 et http://cran.r-project.org/web/packages/COBRA/index.html
    • 04/04/2014: Automated planning with incomplete information and sensing: the translated-based approach and applications, Alexandre Arbore (ONERA Toulouse & MIA-T).
    Résumé : Automated planning is the Artificial Intelligence branch concerned with the task of finding a plan, i.e. a sequence of basic actions -eventually conditioned on sensing- to drive the environment from an initial situation to a desired goal situation. In contrast to domain-dependent planning, where the solution is hand-coded in the problem, domain-independent planning makes use of general languages for representing problem instances (e.g. PDDL), and general algorithms to solve a wider set of puzzles, namely all the challenges expressible in the language. The principal characteristic of this approach resides in the separation of the planning engine from the world model, which is given to the solver as part of the problem, together with the initial situation and the goal. In classical planning, the environment is assumed to be fully observable by the planning agent and no uncertainty is introduced, neither through lack of knowledge about the (initial) situation, nor through actions with effects that are unpredictable, nor by exogenous effects unexpectedly triggered. This model is way too restrictive to deal with real-world applications. We will thus see the models for planning under uncertainty, that extends the model of classical planning with incomplete information about the agent’s situation, and sensing. These problems are computationally harder to solve than classical planning problems. Thus, different techniques have been employed to deal with them. A recent and successful technique is the translation-based approach, that compiles the original planning problem under uncertainty into instances easier to solve.
    • 14/03/2014: Présentation des travaux sur l’intégration du partitionnement de graphes aux modèles de simulations DEVS dans le cadre de l’optimisation du temps de calculs, Christopher Herbez (LISIC, Université du Littoral Côte d'Opale).
    Résumé : Face à des simulations de plus en plus gourmande en temps, il est nécessaire de mettre en place des procédés permettant d'y remédier. Nous nous proposons, dans le cadre de ce séminaire, d'intégrer le partitionnement de graphes au modèle de simulation DEVS. Une simulation au sens DEVS peut être représentée sous forme d'un graphe où chaque nœud symbolise un simulateur et chaque arc le lien qui les unissent. Les simulations étant de plus en plus grandes, la propagation des informations au travers du graphe ainsi que l'activation des simulateurs à différents instants engendrent une augmentation conséquente des temps de simulation. Nous nous proposons de partitionner le graphe afin de ne plus travailler à partir d'un unique graphe de grande taille mais de n graphes de petite taille. Dans un premier temps, le partitionnement n'est utilisé que dans le cadre d'un découpage simple du graphe d'origine. L'objectif étant d'observer l'impact de celui-ci sur le temps de simulation. Et dans un second temps, il est utilisé dans le cadre d'une parallélisation de la simulation sur plusieurs clusters. Le but de ce séminaire est de présenter l'impact du simple découpage du graphe d'origine sur les temps de simulation et de faire une ouverture vers la parallélisation.
    • 28/02/2014: Efficient network-guided multi-locus association mapping with graph cuts, Chloe-Agathe Azencott (MPI, Tübingen, Germany & MinesParisTech).
    Résumé : As an increasing number of genome-wide association studies reveal the limitations of the attempt to explain phenotypic heritability by single genetic loci, there is a recent focus on associating complex phenotypes with sets of genetic loci. Although several methods for multi-locus mapping have been proposed, it is often unclear how to relate the detected loci to the growing knowledge about gene pathways and networks. The few methods that take biological pathways or networks into account are either restricted to investigating a limited number of predetermined sets of loci or do not scale to genome-wide settings. We present SConES, a new efficient method to discover sets of genetic loci that are maximally associated with a phenotype while being connected in an underlying network. Our approach is based on a minimum cut reformulation of the problem of selecting features under sparsity and connectivity constraints, which can be solved exactly and rapidly. SConES outperforms state-of-the-art competitors in terms of runtime, scales to hundreds of thousands of genetic loci and exhibits higher power in detecting causal SNPs in simulation studies than other methods. On flowering time phenotypes and genotypes from Arabidopsis thaliana, SConES detects loci that enable accurate phenotype prediction and that are supported by the literature.
    Résumé : L'application des modèles de mélanges pour l'analyse des communautés de microbes dans l'intestin humain et dans le sol permet une meilleure normalisation des tableaux d'occurrences des espèces de bactéries obtenus par les nouvelles technologies de séquençage. Je présenterai des résultats obtenus en utilisant le logiciel phyloseq (développé en package R) qui permet d'interfacer ces nouvelles données avec les logiciels classiques d'écologie comme vegan ou ade4 et de les présenter sous formes de graphiques à couches.
    Résumé : Étant donné un système dynamique paramétré, le but est de choisir séquentiellement des expériences (perturbation du système et quantités à observer) pour estimer au mieux ces paramètres. On s'inspire de méthodes de type "active learning" pour choisir automatiquement la série d'expériences à réaliser.
    • 17/01/2014: Autour des processus ponctuels spatio-temporels, Edith Gabriel (équipe Statistiques, IUT STID, Avignon, France).
    Résumé : Je m'intéresse aux processus ponctuels spatio-temporels pour lesquels on a une réalisation unique dans une région bornée. Les caractéristiques d'ordre 2 sont utilisées pour analyser la structure spatio-temporelle du processus sous-jacent. En particulier, la fonction de corrélation de paires et la fonction K de Ripley, spatio-temporelles et inhomogènes, mesurent l'agrégation / la régularité et l'intéraction spatio-temporelle et se révèlent utiles dans le choix de modèles. Leurs estimateurs non-paramétriques requièrent de l'information située hors de la région d'étude, résultant à des effets de bord qui doivent être corrigés. Ils dépendent également des caractéristiques d'ordre 1 qui doivent être estimées en pratique. J'ai étendu les correcteurs d'effets de bord spatiaux classiques au cadre spatio-temporel et comparé les performances des estimateurs correspondants pour des semis de points issus de processus stationnaires/non stationnaires et/ou isotropes/anisotropes. J'ai également exploré l'influence de l'estimation de l'intensité sur les estimateurs non paramétriques des caractéristiques d'ordre 2. La simulation de processus ponctuels spatio-temporels est ensuite un outil utile, d’une part pour comprendre le comportement de différents modèles et d’autre part comme composante nécessaire aux méthodes d’inférence de type Monte Carlo. Dans cette présentation, je définirai un processus ponctuel spatio-temporel, présenterai différents modèles de processus et leur implémentation dans R via le package stpp. Je donnerai ensuite les résultats sur les caractéristiques d’ordre deux de ces processus.
    • 13/12/2013: Methods for Gene Similarity Computation and Gene Prioritization in Prokaryotes , Roland Barriot (Génomique des Systèmes Intégrés, UPS, Toulouse, France)
    Résumé : After a brief presentation of gene prioritization principles and its extension to cross-genomes data sources, we will focus on the underlying methods to assess gene functional relationships based on the (i) phylogenetic information and (ii) gene semantic similarity. We will conclude on preliminary results regarding the weighted fusion of prioritized gene lists.
    • 29/11/2013: Approches convexes pour la parcimonie structurée, Guillaume Obozinski (Imagine team, Laboratoire d'Informatique Gaspard Monge, Ecole des Ponts-PariTech)
    Résumé : Ces dernières années ont vu l'émergence de la parcimonie structurée, dont le but est d'identifier des modèles non seulement parcimonieux mais dont le support doit également satisfaire des contraintes de structure. Deux exemples important sont celui de la parcimonie par groupe où un des ensembles de variables doivent être sélectionnés simultanément, et la parcimonie hiérarchique, correspondant au cas où la sélection des variables doit respecter une contrainte d'ordre partiel sur un arbre ou un graphe orienté acyclique. Je commencerai mon exposé par un tour d'horizon des problèmes considérés par la parcimonie simple et la parcimonie structurée, du point de vue des méthodes convexes. Dans un deuxième temps, je présenterai une approche de la parcimonie structurée pour les vecteurs basée sur des pénalités combinatoires, pour laquelle une construction d'une relaxation convexe générique peut-être proposée. Cette relaxation convexe ne retient que certaines des caractéristiques de la fonction combinatoire initiale, mais celles-ci peuvent être caractérisées par le concept d'enveloppe combinatoire inférieure. L'approche proposée permet de considérer dans une formulation unifiée des approches a priori disparates comme les pénalités définies par le codage par blocs, les fonctions sous-modulaires et les formes de group Lasso structurés. Dans certains cas, entre autres lorsque la fonction combinatoire est sous-modulaire, on pourra construire des algorithmes efficaces et montrer des résultats généraux de consistance et d'identification du support.
    • 15/11/2013: Bayesian mixed effect atlas estimation under diffeomorphic constraint on the deformation model, Stéphanie Allassionière (CMAP, Ecole Polytechnique & Parietal, INRIA Saclay, France)
    Résumé : This work introduces a diffeomorphic constraint on the deformations considered in the Deformable Bayesian Mixed Effect (BME) Template model. We take advantage of the Large Diffeomorphic Deformation Metric Mapping (LDDMM) setting which parametrizes the deformation with initial momentum vector and control point locations. This enables to estimate together with the atlas the locations of optimal control points. We propose to use a stochastic version of the Expectation-Maximization (EM) algorithm where the simulation is optimized using the Anisotropic Metropolis Adjusted Langevin Algorithm (AMALA).
    • 08/11/2013: Systems Biology of a model pathogen: Listeria monocytogenes., Christophe Bécavin (Institut Pasteur, Paris)
    Résumé : Listeria monocytogenes, a food-borne pathogen, has become a model organism in the past decades in Microbiology and Cell-Biology. Many transcriptomic analyses have been performed using Gene Expression array, Tiling array and RNASeq for screening Transcription Starting Site (TSS). Recently we add new "omics" scale to our systems biology approach of L. monocytogenes by applying a new Proteomics technique called N-Terminomics to screen Translation Initiation Site (TIS). Put together all our data allow us to screen the many type of transcription and translation regulation that the bacteria uses to leave in different environment, and regulate its virulence. I will present the results of our study of cross-correlation of all the "omics" scale we have now in the hand: Genomics, Transcriptomics and Proteomics. First by focusing on the statistical challenge of correlating such heterogeneous data, and then by showing the software we have developed to be able to visualize directly on a genome-wide scale the correlation within our data.
    • 18/10/2013: 5 ans à l'URGI: éléments transposables, épigénétique et transcriptomique, Matthias Zytnicki (MIA-T, ex-URGI :))
    Download the slides: Fichier:Zytnicki 20131018.pdf
    • 11/10/2013: Statistical consulting in clinical research, Martin Kappler (Statalpha)
    Résumé : The work of a statistical consultant in the field of clinical research, the last phase in drug development, is presented together with the steps which involve the statistician. The important skills of a statistical consultant are discussed and some methodological challenges the author faced in his projects are presented: (i) traps using block randomization, (ii) response assessment when no fixed time point is use, (iii) graphical approaches to Simon two-stage designand (iv) mixed model versus mean over existing measures.
    • 27/09/2013: Analyse des données longitudinales : nouvelles approches brièvement suivi de R++, the next step ?, Christophe Genolini (Université de Paris Ouest Nanterre)

    2012-2013

    Résumé : Many Constraint Satisfaction Problems (CSPs), consisting of non-binary constraints, include table constraints (i.e. lists of allowed or disallowed tuples). Such constraints are very important in constraint programming as they are present in many real problems from areas such as configuration and databases. As a result, numerous specialized algorithms that achieve Generalized Arc Consistency (GAC) on table constraints have been proposed in the literature. However, since these algorithms process one constraint at a time they cannot exploit possible intersections that may exist between different constraints. On the other hand, existing algorithms for consistencies stronger than GAC, that can exploit constraint intersections, are generic and thus very expensive. One objective of this research is to propose efficient algorithms for strong local consistencies that can be applied on table constraints and can be easily adopted by standard CP solvers. Towards this, we propose an extension to the state-of-the-art GAC algorithms that handles efficiently constraint intersections to achieve extra pruning. We also suggest ways to interleave GAC with stronger consistency algorithms, since GAC may still be superior in many problems. One such way is to apply heuristics that can dynamically select between GAC and a stronger propagator during search. Experimental results demonstrate that the proposed algorithm is usually more efficient than the state-of-the-art algorithm it is based on, while the proposed heuristics for adaptive propagation result in a more robust solver.
    • 22/02/2013: Series Classification Using SAX Representation and Vector Space Model. A work group animated by Pavel Senin (MIAT and university of Hawai)
    Résumé : Ability to discover characteristic patterns in time series paves the road for many downstream analyses while enabling interpretability of results. I propose a novel method for time series features discovery based on two existing techniques - Symbolic Aggregate Approximation (SAX) and Vector space model, called SAX-VSM. This method is capable to automatically discover and rank time series patterns by their “importance” to the class, which not only creates well-performing classifiers, but, in turn, provides interpretable class generalization and facilitates clustering. The accuracy of this technique, as shown through experimental evaluation, is matching current state of the art while being robust to noise and lost values. While being relatively computationally expensive within a learning phase, the method provides fast, precise, and interpretable classification. At this time, there are still many open questions - how to leverage bag of patterns representation for multiple dimensions, which TF*IDF implementation to use, which way to sample for parameters, should nGrams statistics be considered etc., for which I solicit feedback.
    • 15/02/2013: Simulations for combining heuristics and consistent algorithms: applications to Minesweeper, the game of Go and Power Grids, Olivier Teytaud (INRIA and LRI).
    Résumé : We optimize strategies in front of various uncertainties (including stochasticities and adversarial). We want to combine the good properties of: (i) consistent algorithms (if the computation time is sufficient, we converge arbitrarily close to optimality); (ii) fast algorithms (in moderate time, we have an approximate solution). Using Monte-Carlo Tree Search/Upper Confidence Bounds, Direct Policy Search, and specialized tools, we show some mathematical results and experiment on MineSweeper, the game of Go, and our favorite application, namely energy management.
    Résumé :Both terms, "software crisis" and "software engineering" were coined within a report of 1968 NATO Software Engineering conference. While the software crisis phenomena was simply acknowledged, the new discipline of Software Engineering was "born" in order to tame the complexity of software processes. Half of the century later, seeing software project success rate as low as 30%, we may conclude, that the straightforward application of engineering to software programming fails. In my talk, I am going to present this problem, addressing past and current states of the research in software processes. I will specifically focus on current alternatives to engineering, particularly highlighting the importance of social interactions and recurrent behaviors. Finally, I will present "Software Trajectory" framework - my PhD research project - which allows the discovery of recurrent behaviors from software processes artifact trails.
    • 10/12/2012: The DEVS formalism, Bernard P. Zeigler (Professor of Electrical and Computer Engineering at the University of Arizona)
    • 16/11/2012 : Three contributions to the design and analysis of computer models using Gaussian processes. Victor Picheny (Unité BIA, Toulouse).
    • 19/10/2012: Existence and uniqueness of equilibrium for a spatial model of social interactions, Adrien Blanchet (GREMAQ, Toulouse 1, France).
    Résumé : We extend Beckmann's spatial model of social interactions to the case of a two-dimensional spatial economy involving a large class of utility functions, accessing costs, and space-dependent amenities. We show that spatial equilibria derive from a potential functional. By proving the existence of a minimiser of the functional, we obtain that of a spatial equilibrium. Under mild conditions on the primitives of the economy, the functional is shown to satisfy displacement convexity, a concept used in the theory of optimal transportation. This provides a variational characterisation of spatial equilibria. Moreover, the strict displacement convexity of the functional ensures the uniqueness of spatial equilibrium. Also, the spatial symmetry of the equilibrium is derived from that of the spatial primitives of the economy. Several examples illustrate the scope of our results. In particular, the emergence of multiple of equilibria in the circular economy is interpreted as a lack of convexity of the problem.
    Résumé : The paper considers linear regression problems where the number of predictor variables is possibly larger than the sample size. The basic motivation of the study is to combine the points of view of model selection and functional regression by using a factor approach: it is assumed that the predictor vector can be decomposed into a sum of two uncorrelated random components reflecting common factors and specific variabilities of the explanatory variables. It is shown that the traditional assumption of a sparse vector of parameters is restrictive in this context. Common factors may possess a significant influence on the response variable which cannot be captured by the specific effects of a small number of individual variables. We therefore propose to include principal components as additional explanatory variables in an augmented regression model. We give finite sample inequalities for estimates of these components. It is then shown that model selection procedures can be used to estimate the parameters of the augmented model, and we derive theoretical properties of the estimators. Finite sample performance is illustrated by a simulation study.
    Résumé : We consider full Bayesian inference in the multivariate normal mean model in the situation that the mean vector is sparse. The prior distribution on the vector of means is constructed hierarchically by first choosing a collection of nonzero means and next a prior on the nonzero values. We consider the posterior distribution in the frequentist set-up that the observations are generated according to a mixed mean vector, and are interested in the posterior distribution of the number of nonzero components and the contraction of the posterior distribution to the true mean vector. We find various combinations of priors on the number of nonzero coefficients and on these coefficients that give desirable performance. We also find priors that give suboptimal convergence, for instance Gaussian priors on the nonzero coefficients. We illustrate the results by simulations.
    • 11/09/2012: Méta-modélisation : État de l'art et comparaison, Geoffray Bizouard, étudiant du Master MIGS de Dijon.

    2011-2012

    Résumé : Escherichia coli constitue la majeure partie de la flore microbienne commensale aéro-anaérobie du tube digestif de l’hôte. Pourtant E. coli est aussi une des espèces les plus fréquemment rencontrées en pathologie humaine et animale. C’est l’une des espèces bactériennes les plus étudiées et les plus connues. L’évolution des génomes au sein de l’espèce repose sur deux mécanismes distincts : la mutation et la recombinaison, qui génèrent une diversité génétique sur laquelle la sélection naturelle peut opérer. Dans notre travail, nous nous sommes intéressés à ces processus et aux traces qu’ils laissent dans les génomes. Nous avons, en premier lieu, décrit une forme de mutabilité variable le long du génome car liée à l‘existence de structure secondaire locale de l’ADN : la mutabilité transcriptionnelle. Nous avons pu d’une part quantifier cette mutagenèse et d’autre part révéler une réponse sélective au sein du génome pour en limiter les effets. La recombinaison, quant à elle, est connue pour brouiller le signal phylogénétique de manière importante. En second lieu, nous avons montré par une approche de génomique comparative que, malgré un taux relativement élevé de recombinaison, l’établissement d’une phylogénie robuste était possible. De plus, nous avons mis en évidence que les nombreuses acquisitions et pertes de gènes dans le génome des différentes souches d’E. coli se situaient préférentiellement à certains sites. Enfin, nous avons utilisé la structure phylogénétique de l’espèce à des applications taxonomiques et épidémiologiques.
    • 08/06/2012: Dissertation autour de l'affirmation de Albert-László Barabási: "Pure graph theory is elegant and deep, but it is not especially relevant to networks arising in the real world", Bertrand Jouve (Eric, univ. Lyon 2).
    Résumé : Summary to come.
    • 01/06/2012: Optimal management of an Alaskan food web, Will Probert (Centre of Excellence for Environmental Decisions (CEED), The University of Queensland, Australia).
    Résumé : I will discuss some work in progress that looks at the management of a food web - a directed acyclic graph that represents an ecological system.  At present, the work builds upon previous collaborative research between INRA (BIA) and The University of Queensland, Australia, by including a temporal aspect to the dynamics of the food web.  Previous ecological and conservation research on food webs and networks has focused on measures of network robustness and a myriad network metrics but research has yet to investigate the use and relevance of said metrics for the purposes of managing ecological systems.  Using dynamic programming we optimally solve the management of an Alaskan food web through time so as to maximise the expected number of species surviving.  Simulation methods are then used to compare the efficacy of management that is guided by various network metrics with management that uses the optimal, dynamic programming solution..
    • 18/05/2012: Assemblage de séquences : une proposition d'indexation par automates, Michel Koskas (UMR518 AgroParisTech/INRA).
    Résumé : L'assemblage de séquences comporte deux étapes : une consistant en la construction du graphe de de Brujin et la seconde exploitant ce graphe pour reconstituer la séquence. La première étape, à laquelle nous nous intéressons, se fait souvent en utilisant les FM-indexes. Nous proposons ici une indexation des reads par automates `à façon' permettant une construction rapide et simple du graphe de Brujin.
    Résumé : L'étude de phénomènes complexes s'appuie de manière croissante sur les simulations numériques. Quand ces simulateurs sont très coûteux à évaluer, utiliser des métamodèles (ou surfaces de réponse), construits à partir d'un jeu réduit d'expériences, s'avère souvent un choix judicieux pour faciliter l'apprentissage ou l'optimisation. Dans cet exposé, nous nous intéresserons au cas où les réponses étudiées sont bruitées, et nous expliquerons pourquoi une redéfinition des méthodes existantes est nécessaire. Nous proposerons ensuite un critère pour la sélection séquentielle des expériences, dans l'esprit de la célèbre "amélioration espérée". Enfin, nous présenterons un algorithme heuristique basé sur ce critère, qui exploite la possibilité de précision réglable souvent existante dans le cas bruité, afin d'attribuer des temps de calcul de manière hétérogène et de gagner en efficacité.
    • 27/04/2012: Comparaison de métamodèles pour l'estimation de la séquestration d'azote, Nathalie Villa-Vialaneix (Université de Perpignan / SAMM).
    Résumé : The environmental costs of intensive farming activities are often underestimated or not traded by the market, even though they play an important role in addressing future society's needs. The estimation of nitrogen (N) dynamics is thus an important issue which demands detailed simulation based methods and their integrated use to correctly represent complex and nonlinear interactions into cropping systems. To calculate the N2O ux and N leaching from European arable lands, a modeling framework has been developed by linking the CAPRI agro-economic dataset with the DNDC-EUROPE bio-geo-chemical model. But, despite the great power of modern calculators, their use at continental scale is often too computationally costly. By comparing several statistical methods this paper aims to design a metamodel able to approximate the expensive code of the detailed modeling approach, devising the best compromise between estimation performance and simulation speed.
    • 06/04/2012: Taxonomie numérique moléculaire : nouvelles questions pour un vieux problème ? Alain Franc (BioGeCo, INRA Bordeaux).
    Résumé : La taxonomie est une discipline vénérable, où les espèces (taxa) sont classées et identifiées selon des critères morphologiques, très variés et hétérogènes. Il s’agit donc de reconnaissance de forme, dans des espaces complexes à très grande dimension. Depuis plusieurs décennies, la diversité du vivant est analysée comme fruit de l’évolution, selon les empreintes moléculaires laissées dans le génome. La reconnaissance de formes a donc glissé vers des espaces plus simples, de chaînes de caractères. Plusieurs éléments actuels de ce courant de recherche seront présentés, notamment suite à la possibilité de réaliser des inventaires automatiques sur des jeux de données issus de NGS : comparaison de reads avec des bases de référence, forme du nuage de points image euclidienne des séquences de références selon une distance génétique, questions sur la reconnaissance de forme (méthodes linéaires, graphes, eigenmaps, etc ...), besoins en diagnostic, besoins nouveaux en calcul intensif, distribué ou parallélisé, sur des exemples issus soi de communautés de diatomées d’eau douce soit d’arbres de la forêt guyanaise.
    Résumé : Les réseaux sont souvent utilisés pour représenter des systèmes complexes dans divers domaines. Dans ce contexte, l’identification de clusters, ou communautés, est couramment un domaine de recherche très actif. Je vais donner un aperçu des progrès récents sur le clustering dans les réseaux en focalisant sur le critère de modularité. La maximisation de la modularité donne lieu a de problèmes d'optimisation, le plus souvent résolus approximativement par des heuristiques. Je présenterai des algorithmes exacts ainsi que une heuristique localement optimale que nous avons récemment proposé.
    Résumé : Les méthodes stochastiques sont des méthodes utiles permettant d'améliorer l'utilisation des modèles de simulation numérique dans divers domaines. Plus particulièrement, elles parviennent à réduire les incertitudes associées aux différentes grandeurs mises en jeu dans le modèle, en considérant l'information issue de la connaissance probabiliste de l'état du système et l'information issue des observations. Il existe un large panel de méthodes stochastiques permettant de s'adapter à la complexité du problème posé. Dans cet exposé, je propose d'en présenter trois, qui seront appliquées à trois modèles numériques différents. Tout d'abord, je présenterai la méthode du filtre à particules appliquée à un modèle écologique de dynamique des populations. Cette méthode séquentielle, basée sur la comparaison entre simulations mutliples du modèle et observations, m'a permis d'estimer l'évolution de l'effectif des flamants roses en Camargue ainsi que leurs paramètres démographiques. Ensuite, je présenterai la méthode "Importance Sampling" appliquée à un modèle de culture. Egalement basée sur le même type de comparaison que précédemment, mais qui se limite à l'estimation de paramètres, cette méthode m'a permis d'estimer les paramètres liés aux propriétés des sols. Je montrerai comment cette estimation permet d'améliorer la prévision du rendement des cultures. Pour finir, je présenterai une méthode dite "d'ensemble" appliquée au modèle météorologique global de Météo-France. Cette dernière méthode permet d'estimer à moindre coût, afin de répondre aux contraintes opérationnelles, les statistiques d'erreur de prévision tri-dimensionnelles. Ces statistiques sont au coeur du système d'assimilation variationnelle qui permet d'estimer l'état de l'atmosphère. Je montrerai comment cette estimation permet d'améliorer la prévision de l'état de l'atmosphère.
    • 02/03/2012: Le problème de 'distance geometry' et applications aux protéines, Antonio Mucherino (IRISA, université de Rennes 1). Transparents : contacter Antonio.
    Résumé : Je travaille depuis des années sur le problème de distance geometry. Il s'agit d'un problème de satisfaction de contraintes, qui est souvent formulé comme un problème d'optimisation globale et continue. Nous travaillons sur une reformulation combinatoire de ce problème d'optimisation, et sur un algorithme de résolution très efficace. Ce problème a des applications au niveau des molécules biologiques, et particulièrement au niveau des protéines. Dans ce séminaire, je vais parler des conditions nécessaires pour effectuer la reformulation combinatoire, et discuter de la façon dont elles peuvent être satisfaites par des instances du problème qui contiennent des données expérimentales.
    Résumé : Ces travaux se situent dans le contexte de l'optimisation. Trois grandes parties s'en dégagent ; la première concerne l'utilisation d'algorithmes évolutionnaires pour résoudre des problèmes d'optimisation continue et sans dérivées. La seconde partie concerne l'optimisation de séquences de décisions dans un environnement discret et à horizon fini en utilisant des méthodes de type Monte-Carlo Tree Search. La troisième partie concerne l'utilisation d'algorithmes de recherche arborescente pour la résolution de problème combinatoire avec contraintes. Dans le cadre de l'optimisation évolutionnaire, nous nous intéressons particulièrement au cadre parallèle à grand nombre d'unités de calcul. Après avoir présenté les algorithmes de référence du domaine, nous montrons que ces algorithmes, sous leur forme classique, ne sont pas adaptés à ce cadre parallèle et sont loin d'atteindre les vitesses de convergence théoriques. Nous proposons donc ensuite différentes règles (comme la modification du taux de sélection, la réduction du biais, et différentes méthodes de réduction de variance) afin de corriger et améliorer ces algorithmes. Nous faisons un comparatif empirique de ces règles appliquées à certains algorithmes. Dans le cadre de l'optimisation de séquences de décisions, nous nous intéressons aux algorithmes de type Monte-carlo Tree Search et Nested Monte-Carlo. Ces algorithmes sont aujourd'hui très utilisés pour la prise de décisions dans l'incertain, en particulier lorsque la dimension est grande. Nous proposons de faire un apprentissage de la politique Monte-Carlo de ces algorithmes. Nous montrons à travers ces expériences que les résultats sont positifs. Dans le cadre de l'optimisation combinatoire, nous étudions particulièrement les algorithmes de type Nested Monte-Carlo et Nested Rollout Policy Adaptation. Ces algorithmes sont connus pour être efficaces lorsque les décisions lointaines sont aussi importantes que les premières. Nous montrons que ces algorithmes permettent de résoudre efficacement des problèmes d'optimisation combinatoire, et qu'il est possible de guider les simulations en utilisant des connaissances expertes.
    Slides : Media:FabienTeytaudSlides.pdf
    Résumé : This work brings a contribution to the Bayesian theory of nonparametric and semiparametric estimation. We are interested in the asymptotic normality of the posterior distribution in Gaussian linear regression models when the number of regressors increases with the sample size. Two kinds of Bernstein–von Mises theorems are obtained in this framework: nonparametric theorems for the parameter itself, and semiparametric theorems for functionals of the parameter. We apply them to the Gaussian sequence model and to the regression of Holdër-regular functions, in which we get the minimax convergence rates. Adaptivity is reached for the Bayesian estimators of functionals in our applications.
    • 20/01/2012: La parcimonie sous toutes (?) ses formes pour un problème inverse d'analyse spectrale en échantillonnage irrégulier, Hervé Carfantan (Institut de Recherche en Astrophysique et Planétologie, Université de Toulouse, CNRS, Observatoire Midi-Pyrénées).
    Résumé : La représentation et l'approximation parcimonieuses des signaux est images ont été largement exploitées dans un grand nombre d'applications en parallèle de leur développement théorique depuis une vingtaine d'année. Je mettrai l'accent ici sur l'utilisation d'une information a priori de parcimonie dans la résolution d'un problème inverse, plus particulièrement pour la déconvolution de spectres de raies à partir de données irrégulièrement échantillonnées. Je présenterai les différentes formes sous lesquelles cette information a priori de parcimonie peut-être prise en compte, via une approche d'optimisation déterministe au travers des algorithmes gloutons et des critères relaxés, ou une approche d'échantillonnage stochastique grâce au modèle Bernoulli-Gaussien. Je tenterai de présenter à la fois les propriétés théoriques et l'utilisation pratique des différentes formes que peut prendre la parcimonie dans ce contexte applicatif.
    Résumé : Dans le domaine de la Biologie, les avancées technologiques (les biotechnologies) apportent aux biologistes de nouvelles méthodes d'observation du vivant. Mais ces techniques s'accompagnent le plus souvent d'une quantité d'observations très importante. Il n'est donc plus rare d'obtenir des courbes comme résultats des expériences menées avec ces technologies. D'autre part, le problème de l'analyse de données fonctionnelles est, depuis maintenant une dizaine d'années, un problème traité par de nombreux auteurs. Il est maintenant admis que l'analyse de telles données nécessite un cadre mathématique autre que celui de l'espace Euclidien. Nous présenterons donc un nouveau cadre d'analyse de telles données (les variétés) et montrerons les avantages (et les inconvénients) d'un tel cadre théorique, ainsi que les applications dans le domaine de la Biologie.
    Résumé : nous nous interessons aux problemes de normalisation de donnees biopuces pour lesquelles il importe de normaliser les differentes densites etudiees. Nous analyserons les travaux de Bolstad 2003 à la lumière des méthodes d'analyse prenant en compte les méthodes de décalage d'observations, en nous fondant tout particulièrement sur la distance de Wasserstein.
    • 14/10/2011 (attention à 11h) : Modélisation pangénomique du déséquilibre de liaison à l'aide de réseaux bayésiens hiérarchiques latents et applications, Raphaël Mourad (COD, LINA, Polythech'Nantes).
    Résumé : Les récentes technologies génomiques à haut-débit ont ouvert la voie aux études d'association visant la caractérisation systématique à l'échelle du génome des facteurs génétiques impliqués dans l'apparition des maladies génétiques complexes, telles que l'asthme et le diabète. Dans ces études, le déséquilibre de liaison (linkage disequilibrium, LD) reflète l'existence de dépendances complexes au sein des données génétiques et joue un rôle central, puisqu'il permet une localisation précise des facteurs génétiques. Néanmoins, la haute complexité du LD, ainsi que la dimension élevée des données génétiques, constituent autant de difficultés à prendre en compte. Les travaux de recherche réalisés au cours de cette thèse se sont placés dans cette perspective.
    La contribution des travaux de recherche présentés est double, puisqu'elle est à la fois théorique et appliquée. Sur le plan théorique, nous avons proposé une nouvelle approche de modélisation du LD. Elle est basée sur le développement d'un modèle issu du domaine de l'intelligence artificielle et de l'apprentissage automatique, la forêt de modèles hiérarchiques à classes latentes (FMHCL). Les nouveautés les plus significatives introduites sont la possibilité de prendre en compte la nature floue du LD et de hiérarchiser les différents degrés de LD.
    Un nouvel algorithme d'apprentissage supportant le passage à l'échelle, nommée CFHLC, a été développée et déclinée en deux versions: la première nécessitant le découpage du génome en fenêtres contiguës pour résoudre le problème de passage à l'échelle, et la seconde (CFHLC+), plus récente et évoluée, résolvant le problème au moyen d'une fenêtre glissante sur le chromosome. A l'aide d'un jeu de données réelles, la comparaison de la méthode CFHLC avec des méthodes concurrentes a montré qu'elle offre une modélisation plus fine du LD. En outre, l'apprentissage sur des données présentant des patrons de LD variés a démontré la capacité de la FMHCL a reproduire fidèlement la structure de dépendance. Enfin, l'analyse empirique de la complexité de l'apprentissage a montré la linéarité en temps lorsque le nombre de variables à traiter augmente.
    Sur le plan appliqué, nous avons exploré deux pistes de recherches: la recherche de causalités et la visualisation synthétique et intuitive du LD. D'une part, une étude systématique de la capacité des FMHCL à la recherche de causalités est illustrée dans le contexte de la génétique d'association. Ce travail a établi les bases du développement de nouvelles méthodes de recherche dédiées à la découverte de facteurs génétiques causaux pour les études d'association à l'échelle du génome. D'autre part, une méthode a été développée pour la visualisation synthétique et intuitive du LD adaptée aux trois principales situations que peut rencontrer le généticien: la visualisation du LD de courte distance, de longue distance et dans un contexte pangénomique. Cette nouvelle méthode apporte des atouts majeurs qui sont les suivants: (i) le LD par paire (deux variables) et le LD multilocus (deux variables ou plus) sont simultanément visualisés, (ii) le LD de courte distance et le LD de longue distance sont facilement distingués, et (iii) l'information est synthétisée de manière hiérarchique. .
    • 01/09/2011: Optimisation des décisions pour la conservation de la biodiversité sous incertitudes : progrès et challenges, Iadine Chadès (CSIRO, Brisbane, Australia).
    Résumé : La biodiversité terrestre et marine est de plus en plus menacée par la pression grandissante de l’activité humaine. Croissance de la population mondiale, urbanisation, industrialisation des pays en voie de développement et exploitation non raisonnée des ressources naturelles sont autant de causes de disparition d’espèces vivantes constituant la biodiversité de la planète. Face à ces changements environnementaux (déforestation, érosion, pollution), les espèces survivantes sont condamnées à s’adapter rapidement ou bien à disparaître. La biologie de la conservation est un domaine de l’écologie qui se donne pour objectif la protection de la biodiversité. Jadis expérimentales, les recherches actuelles en biologie de la conservation se tournent vers l’étude de la gestion optimale des efforts de conservation. L’augmentation du nombre ’espèces menacées et les faibles crédits disponibles pour les protéger sont autant d’arguments forts pour optimiser les décisions de conservation et améliorer les actions de sauvegarde de la biodiversité. Dans ce contexte, les processus décisionnels de Markov (PDM) permettent une formulation claire de ces problèmes d’optimisation. Cette présentation sera en deux parties. Je présenterai mes derniers travaux sur les règles de décisions sur la gestion de metapopulation d’espèces protégées et invasives (Chadès et al., PNAS 2011) et je donnerai un court aperçu des challenges méthodologiques qu’ils nous restent à résoudre pour sauver un nombre maximal d’espèces.
    Ref: I. Chadès, T.G. Martin, S. Nicol, M.A. Burgman, H.P. Possingham and Y.M. Buckley (2011) General rules for managing and surveying networks of pests, diseases, and endangered species PNAS, 108 (20):8323-8328.

    2010-2011

    Résumé : On commencera par évoquer des modèles récents d'évolution de séquences d'ADN qui rendent compte de la dynamique singulière (mais tout à fait bien documentée par les biologistes) du dinucléotide CpG et d'autres observations similaires. On décrira ensuite la résolution miraculeuse d'une certaine classe de ces modèles, et, si le temps le permet, l'extension au forceps de ce miracle à des modèles suffisamment proches des précédents pour qu'un processus de Galton-Watson sous-jacent résumant toute l'affaire reste sous-critique. On procèdera à des rappels de biologie moléculaire. Les notions mathématiques mobilisées, que l'on rappellera également, concerneront les processus de Markov en temps continu, des variantes de couplages à partir du passé et quelques rudiments de systèmes de particules et de processus de branchement.
    • 07/06/2011: Décomposition par paire pour l'optimisation combinatoire dans les modèles graphiques, Aurélie Favier (BIA, INRA Toulouse). En collaboration avec Simon de Givry, Andres Legarra et Thomas Schiex.
    Résumé : Nous proposons une nouvelle decomposition addi-tive des tables de probabilites qui preserve l'equivalence de la distribution jointe permettant de reduire la taille des potentiels, sans ajout de nouvelles variables. Nous formulons le probleme de Most Probable Explanation (MPE) dans les reseaux probabilistes comme un probleme de satisfaction de contraintes ponderees (Weighted Constraint Satisfaction Problem WCSP). Notre decomposition par paire permet de remplacer une fonction de couts par des fonctions d'arites plus petites. Le WCSP resultant de cette decomposition est plus facile a resoudre par les techniques de l'etat de l'art des WCSP. Meme si tester la decomposition par paire est equivalent a tester l'independance de paire du reseau de croyances original, nous montrons comment le tester efficacement et l'appliquer, meme avec des contraintes dures. De plus, nous inferons une information supplementaire a partir des fonctions de couts non binaires resultantes par projection&soustraction dans leurs fonctions binaires. Nous observons d'importantes ameliora-
    tions grace au pre-traitement avec la decompostion de paire et la projection&soustraction comparee aux solveurs actuels de l'etat de l'art sur deux ensembles de problemes difficiles.
    Résumé : Les relations évolutives entre espèces sont communément décrites par des arbres phylogénétiques. Toutefois, ces arbres ne sont pas bien adaptés pour modéliser des mécanismes d' évolution réticulée, tels que les transferts horizontaux de gènes, l'hybridation, la recombinaison. Ces mécanismes d'évolution peuvent être très fréquents chez certaines espèces. Dans ces cas, le matériel génétique d'une espèce dérive de plusieurs espèces différentes et cela ne peut pas être décrit par un arbre phylogénétique. Les réseaux phylogénétiques généralisent les arbres phylogénétiques et permettent de décrire ces évènements d'évolution réticulée. Dans ce séminaire, nous donnons une introduction au sujet des réseaux phylogénétiques, en décrivant très brièvement les concepts fondamentaux et en résumant quelques unes des méthodes disponibles pour leur calcul.
    • 20/05/2011: Inférence de réseau basée sur la théorie de l'information et appliquée à l'analyse de régulations transcriptionnelles Patrick Meyer (Machine Learning Group, université libre de Bruxelles, Belgique).
    Abstract: Un des problèmes typiques en bioinformatique consiste à extraire de l'information structurée des données issues de biopuces. Les jeux de données issus de biopuces sont souvent constitués de très nombreuses variables, très peu d'échantillons et beaucoup de bruit. L'analyse de ces données représente donc un des grands défis actuels pour les méthodes d'apprentissage automatique. L'inférence de réseau est une technique d'apprentissage automatique qui vise à déterminer les dépendances entre variables d'un jeu de données et à les représenter à l'aide d'un graphe. Appliquée aux données issues de biopuces, cette technique permet de retrouver le réseau de régulations transcriptionnelles d'une cellule et  d'identifier des gènes spécifiques impliqués dans diverses maladies. Cette présentation se focalise sur les méthodes d'inférence de réseau qui utilisent la théorie de l'information pour inférer les dépendances entre variables. En particulier, je vais présenter MRNET, une méthode d'inférence à base de sélection de variables, ainsi que le package R et Bioconductor qui l'implémente. .
    • 13/05/2011: Bayesian Time-Stratified-Petersen estimators for abundance, Carl Schwarz (Simon Fraser University, BC, Canada). Joint work with Simon Bonner (University of Kentucky, USA).
    Abstract: Simple-Petersen or Stratified-Petersen methods are often used to estimate number of outgoing smolt or returning salmon. These methods are inadequate to deal with heterogeneity in catchability among strata and with missing data from strata caused by crew illness, high water flow, or other causes. We propose a Bayesian spline-based methodology to estimate abundance and run-timing which provides several compelling advantages over the more traditional estimators. The hierarchical model for capture probabilities and the spline model for the general shape of the run curve, allow information to be shared among stratra within a Bayesian framework and allows great flexibility to deal with missing data. It is self-calibrating- for strata with poor data, extensive pooling across strata take place but with strata with rich data, the information for a particular stratum takes precedence. The methodology automatically adjust measures of precision for heterogeneity in catchability among strata (which is ignored in the simple-Petersen) and shares information from neighbouring strata (unlike the Stratified-Petersen). Examples from estimating the number of outgoing number of salmon smolt in the Trinity River, CA will be present .
    • 22/04/2011: Algorithmes d’optimisation de criteres non-EU pour la decision sequentielle dans l’incertain, Gildas Jeantet (LIP6 - POLEIA, université Pierre et Marie Curie, Paris).
    Résumé : Cet exposé traite des problèmes de décision séquencielle sous incertitude. Ces problèmes concernent les situations d'incertitude dans lesquelles le décideur est amené à prendre plusieurs décisions étalées dans le temps (i.e., établir une stratégie). La communauté des économistes a fournit de nombreux critères de décision permettant de raisonner dans l'incertitude afind e pouvoir comparer des stratégies entre elles. Cependant, les difficulté liées à leur mise en oeuvre conduit en pratique à utiliser des critères moins performants dans les problèmes de décision séquentielle. L'utilisation des critère performants étant freinée par l'absence d'algorithmes efficaces dans les littérature informatique. Nous nous intéressons ici à voir commment il es possible de repousser ces verrous algorithmiques en proposant des algorithmes permettant leur application dans des problèmes de décision séquentielle.
    •  11/04/2011:(i) Résolution d'un problème inverse pour les couches minces par l'ellipsométrie puis (ii) Méthodes d'optimisation pour quelques extensions du problème de dimensionnement de lot ), Ayse Akbalik (Industrial Engineering Department, TOBB ETU, Ankara, Turquie).
    Résumé : (i) Nous cherchons a déterminer les indices optiques de couches minces supposées homogènes et déposées sur divers substrats en résolvant un problème inverse. Partant des données obtenues par l'ellipsométrie, le but est de remonter vers les paramètres inconnues de départ, tels que l'indice de réfraction et le coefficient d'extinction pour chaque niveau d'énergie et l'épaisseur de la couche mince. Quelques techniques que nous avons utilisées pour ce problème avec notre équipe au LTM, Grenoble sont discutées: régularisation de Tikhonov, cross-validation, relations de Kramers-Krönig.
    (ii) Cette partie concerne les différentes méthodes en optimisation discrète que nous avons utilisées pour résoudre différentes extensions du problème de dimensionnement de lot, un problème assez classique, traité depuis fin des années 50. Quelques techniques que je vais introduire sont: la programmation dynamique, différentes formulations en PLNE, les inégalités valides, etc.
    • 06/04/2011: Routing and rerouting requests under shared risk group constraints, Florian Huc (Distributed Programming Laboratory ,EPFL, Lausanne, Suisse).
    Résumé : I will present two problems related to the routing of requests in telecommunication networks. First I will address the problem of routing a set of requests while taking into account the reliability of the solution when a group of links can fail simultaneously. To solve this problem, I will present a linear programming formulation using column generation and compare its efficiency with a classical formulation. I will then present the problem of reconfiguring a set of established communications and a parameter, the process number, which model the cost of such a reconfiguration. I will finally present the link between this parameter and the pathwidth, together with algorithms to compute or approximate the pathwidth on specific class of graphs.
    • 05/04/2011: A Reliable Affine Relaxation Method for Global Optimization, Jordan Ninin (IMT, Toulouse).
    Résumé : Since about thirty years, interval Branch and Bound algorithms are increasingly used to solve constrained global optimization problems in a deterministic way.
    Such algorithms are reliable, i.e., they provide an optimal solution and its value with guaranteed bounds on the error, or a proof that the problem under study is infeasible. Other approaches to global optimization, while useful and often less time-consuming than interval methods, do not provide such a guarantee. However, the exponential complexity in time and memory of interval Branch and Bound algorithms implies a limitation, so it is always necessary to improve these methods. In this talk, an automatic method for constructing linear relaxations of constrained global optimization problems is proposed. Such a construction is based on affine and interval arithmetics and uses operator overloading. These linear programs have exactly the same numbers of variables and of inequality constraints as the given problems. This new procedure for computing reliable bounds and certificates of infeasibility is inserted into a classical interval Branch and Bound algorithm.
    • 01/04/2011: Plan d'expérience adaptatif pour la régression dans des bases multi-échelles, Sébastien Gadat (IMT, Toulouse III).
    • 25/03/2011: Présentation du package R GeoXP (analyse géostatistiques de données spatiales)et hair-plot pour données dépendantes, Anne Ruiz-Gazen (Toulouse School of Economics) et Prédiction dans les modèles de régression spatiale, Christine Thomas-Agnan (LSP, Toulouse III et GREMAQ, Toulouse I).
    • 24/03/2011: Fonctions de coût globale et de son application au problème de création d'emplois du temps pour le personnel hospitaliers, Jean-Philippe Métivier (GREYC, université de Caen Basse-Normandie).
    Résumé : Les contraintes globales ont joué, depuis plus de 20 ans, un rôle clef dans la modélisation et la résolution de problèmes de grande taille. Depuis une dizaine d'année, la relaxation des contraintes globales a commencé à être étudiée et généralement dans des cadres ne permettant pas d'exprimer des préférences. Dans cet exposé, nous verrons comment relaxer la contrainte globale Gcc (imposant aux valeurs d'être utilisées un nombre de fois borné) et comment tenir compte de préférences sur les différentes valeurs et différentes bornes. Nous terminerons cet exposé en présentant comment utiliser cette relaxation pour la modélisation et la résolution de problème réel de grand taille comme les problèmes de création d'emplois du temps pour le personnel hospitaliers.
    Résumé : La transformée en ondelettes est couramment utilisé pour traiter avec des données en forme de spectres, par exemple, des spectres NMR (Nuclear magnetic resonance) et des spectres MS (mass spectrometry). Quand la transformée en ondelettes est appliqué au signal initial, les détails les plus fins, d'habitude considéré comme le bruit, sont souvent enlevés dans la reconstruction du 'vrai' signal avant d'être analysés. Nous montrons que contrairement à l'utilisation courante de la transformée en ondelettes, en se concentrant aux détails les plus fins peut améliorer la classification d'échantillons dont les profils spectrales sont très proches l'un de l'autre.Quand les spectres ont la même forme générale, enlevant les coefficients les plus grossiers permet se débarrasser de la partie commune de l'information et ainsi se concentrer à ce qui est vraiment différent entre les échantillons.Nous décrivons une stratégie pour déterminer le meilleur niveau de détails pour des propos de classification grâce à une version 'sparse' de la PLS-DA.Nous illustrons l'utilisation de cette méthode sur un jeu de données provenant d'une étude de toxicité de di-(2-ethylhexyl)-phthalate (DEHP), un plastifiant largement utilisé qui contamine la chaîne alimentaire.
    • 25/02/2011: Planification temporellement-expressive, cycles temporels et transformation de problèmes, Frédéric Maris (IRIT, Toulouse).
    Résumé : Un des challenges actuels de la planification est la prise en compte de la dimension temporelle. Nous présentons une approche simple qui permet de résoudre des problèmes temporellement expressifs, c'est-à-dire des problèmes pour lesquels toutes les solutions nécessitent la concurrence des actions. Notre planificateur TLP-GP combine les avantages de la recherche de GRAPHPLAN avec un formalisme temporel flexible basé sur des contraintes. Son langage est consistant avec PDDL 2.1 et étend son expressivité. L'étude expérimentale sur de nouveaux benchmarks montre l'efficacité de notre approche et démontre qu'il est possible en pratique de résoudre des problèmes temporellement expressifs qui ne pouvaient
    jusqu'à maintenant être résolus par les techniques existantes. Néanmoins, nous avons montré que certains planificateurs existants qui permettent de résoudre ce type de problèmes (comme TLP-GP), sontincomplets. Ils ne peuvent garantir de trouver une solution à un problème comportant des ensembles cycliques d'actions (que nous appelons problèmes temporellement cycliques). Nous caractérisons les langages temporels qui permettent de représenter ces problèmes temporellement cycliques. Nous présentons également un algorithme polynomial de transformation de ces problèmes en des problèmes acycliques équivalents. L'application de notre transformation permet de restaurer la complétude de ces planificateurs. Un aspect important d’un planificateur automatique est le langage dans lequel l’utilisateur exprime les instances de problèmes. Un langage richeest un avantage pour l’utilisateur alors qu’un langage simple est un avantage pour le programmeur qui doit écrire un programme pour résoudre tous les problèmes de planification qui peuvent être exprimés dans ce langage. Considérant le langage de planification temporelle PDDL 2.1 comme un langage de bas niveau, nous montrons comment compiler automatiquement un langage plus riche en PDDL 2.1. Dans le pire des cas, la complexité de cet algorithme est quadratique. Notre langage de haut niveau permet à l’utilisateur de déclarer des time-points (variables représentant des instants) et d’imposer des contraintes temporelles simples entre ces time-points. Des conditions et effets peuvent être imposés à chacun des time-points, sur des intervalles et sur des sous-intervalles glissants à l’intérieur d’intervalles fixes. Des transitions continues peuvent également être modélisées.
    •  22/02/2011: Integrating SAT and CSP techniques, George Katsirelos (LRI, université Paris Sud 11).
    Summary: Although closely related, current SAT and CSP complete solvers use different approaches. SAT solvers are based around learning and highly adaptive heuristics, while CSP solvers are focused on propagation and branching heuristics provided by the user. I will talk about recent developments towards bridging this gap. These approach the problem from both sides: improrting SAT techniques to CSP but also using CSP methods in SAT. I will present theoretical results that show that both SAT and CSP can benefit from each other and overcome exponential lower bounds. I will also show that practical implementations of these ideas bear out the theoretical promise.
    • 18/02/2011: Optimisation des réseaux à composantes unicycliques : approche polyèdrale, Makhlouf Hadji (labo "Réseaux et Services Multimedia Mobiles", groupe "Algorithmes pour les réseaux", Institut Télécom et Management SudParis). Résumé (en pdf).
    • 17/02/2011: Optimisation de la capacite des reseaux radio mailles, Christelle Molle-Caillouet (Lehrstuhl II für Mathematik, Aachen, Allemagne).
    Résumé : Nous nous intéressons aux problématiques d'optimisation de la capacité des réseaux radio maillés, définie comme la quantité de flot que peut répartir équitablement une topologie aux utilisateurs qu'elle sert. Afin d'obtenir des bornes théoriques sur les performances du réseau, nous développons des modèles d'optimisation intégrant les caractéristiques inter-couche des communications radio. Nous étudions plus précisément le problème joint du routage et de l'ordonnancement. Nous dérivons une formulation qui élimine le routage pour se concentrer sur la capacité de transport disponible sur les coupes du réseau. Le processus de résolution adapté utilise une méthode de génération croisée de lignes et de colonnes. Ces études mettent en évidence la présence d'une zone de contention autour de chaque point d'accès qui contraint la capacité du réseau. Enfin, nous présenterons une extension de ce modele utilisant l'optimisation robuste afin de prendre en compte l'incertitude des demandes des utilisateurs du réseau.
    • 11/02/2011: Introduction aux modèles probabilistes de propagation de rumeurs et d'épidémie, Charles Bordenave (IMT, CNRS / Toulouse III)
    Résumé : Nous exposerons deux modèles simples qui peuvent être utilisés pour décrire la propagation d'une rumeur/épidémie dans un réseau. Nous verrons que la dynamique de la propagation et la nature du réseau peuvent bouleverser les propriétés des modèles.
    • 04/02/2011: Détection et attribution des changements climatiques, Aurélien Ribes (CNRM/GAME)
    Résumé : Qu'est-ce qu'un changement dans un système physique dont l'état varie en permanence ? Comment étudier l'origine (la cause) des changements d'un système physique sur lequel aucune expérience contrôlée ne peut être réalisée ni répétée ? Telles sont les questions à l'origine, respectivement, des études de détection et d'attribution des changements climatiques, qui se sont développées avec les activités du GIEC (Groupe d'experts Intergouvernemental sur l'Evolution du Climat) au cours des 20 dernières années. Ces études visent en particulier à évaluer : quels signaux ou tendances climatiques peuvent être considérés comme des changements (détection) ? Quelles sont les contributions des différents facteurs influençant le système climatique à ces changements (notamment, concentration des gaz à effet de serre, variations de l'activité solaire, etc ; attribution) ?
    Un des objectifs de ce séminaire est d'essayer d'illustrer la façon dont les statistiques se sont insérées dans l'étude du système climatique, puis ont été utilisées pour faire progresser notre compréhension du système. Je présenterais quelques-uns des modèles et des outils statistiques utiles dans cette entreprise.
    • 21/01/2011: pas de séminaire le vendredi (Réunion Inférence de Réseaux) mais deux exposés (ouverts à tous) de Mark Schmidt (actuellement à Orsay) le jeudi 20 janvier à 14h suivi de Christophe Giraud à 15h en salle IFR 40 de l'INRA Castanet. Les titres respectifs : "Structure learning in hierarchical undirected graphical models" et "Modèles graphiques gaussien avec variables cachées".
    • 17/12/2010: Numberjack: une API en Python pour l'optimisation discrète, Emmanuel Hebrard (LAAS-CNRS Toulouse).
    Résumé : Numberjack est un module Python pour l'optimisation combinatoire développé au Cork Constraint Computation Centre (4C). Il existe un certain nombre de langages pour  modéliser de façon concise et lisible des problèmes combinatoires (OPL, MiniZinc ou Essence par exemple). Ces langages permettent de réduire substantiellement l'effort de programmation et rendent donc plus aisé le prototypage de différentes solutions de modélisation.
    En contrepartie, ce type de langages dédiés à l'optimisation nuisent (paradoxalement?) à l'interopérabilité. Ils sont en effet peu ou pas adapté aux applications hors-optimisation, et ne sont ni supporté ni utilisés à la même échelle que les langages de programmation "généralistes". De plus, parce qu'ils sont conçus en abstraction des outils de résolution, ils réduisent souvent le niveau contrôle qu'a un utilisateur sur ces outils.
    L'utilisation de Python permet d'écrire des modèles aussi intuitifs et lisibles tout en élargissant le spectre des utilisateurs potentiels et en fournissant toutes les fonctionnalités d'un véritable langage de programmation. En plus d'une API commune pour la modélisation de problèmes combinatoires, Numberjack offre certaines procédures pour concevoir une interface (sous la forme d'un module Python) avec des outils de résolution. Grâce à ces modules, Il est possible de contrôler directement les solveurs sous-jacents (les accesseurs et fonctions de chaque solveur sont "enrobés" en Python).
    Après les nécessaires introductions de (mon point de vue sur) l'optimisation combinatoire et de quelques structures du langage Python qui sont particulièrement utiles à Numberjack, je m'appuierai sur des exemples pour donner un aperçu du système. Puis, je montrerai comment le même modèle est transmis aux différents outils de résolution. A l'heure actuelle il existe quatre interfaces: un solveur CP (Mistral),  un solveur SAT (MiniSat), un solveur MIP (SCIP) et enfin une heuristique SAT (Walksat). 
    Site web : http://4c110.ucc.ie/numberjack
    Tutorial : donné lors de AAAI 2010 (pdf - 9MB): http://4c110.ucc.ie/numberjack/NJ_Main.pdf
    Téléchargement : Numberjack.0.1.10-11-24.zip puis sous Unix, décompressez l'archive, depuis le répertoire Numberjack.0.1.10-11-24/ (qu'il est conseillé de renommer Numberjack), tapez : make local_install. À la fin de l'installation il vous sera demandé de créer une variable d'environnement PYTHONPATH et de l'ajouter au fichier ~/.bash_profile ou assimilé.
    •  10/12/2010: Approches spectrales pour l'étude de réseaux et la détermination de graphes [slides], Romain Boulet (Observatoire Midi-Pyrénées).
    Résumé : La théorie des graphes et l'analyse des réseaux permettent une modélisation de structures d'interactions entre objets issus de divers domaines, ouvrant ainsi la voie à des recherches interdisciplinaires incluant désormais les interactions Mathématiques / SHS. Ces interactions sont d'autant plus enrichissantes si ces sciences de l'Homme n'ont jusqu'alors que peu interagi avec les mathématiques comme l'histoire médiévale ou le Droit. De telles collaborations seront exposées dans cette présentation. Tout d'abord nous présenterons l'étude d'un réseau social entre paysans au Moyen-Âge via la théorie des graphes et en particulier des méthodes de partitionnement spectral.
    Ensuite nous aborderons l'aspect de la complexité juridique induit par les multiples citations croisées de textes de loi. L'utilisation de l'analyse de réseau permet de fournir une cartographie du système juridique français et une meilleure compréhension de l'organisation réticulaire du code de l'environnement. L'exposé se terminera par une partie de mathématiques plus fondamentales de théorie algébrique de graphes. La problématique ici traitée est de savoir quels graphes sont entièrement caractérisés par la simple donnée de leur spectre pour une matrice donnée telle le Laplacien.
    • 26/11/2010: Modélisation stochastique du chemostat, Fabien Campillo (MERE project - INRIA Sophia) [travail en commun avec Marc Joannides et Irène Larramendy-Valverde de l'I3M Université de Montpellier 2]
    Résumé : Dans le cadre des équations du chemostat (mais la démarche est valable dans tous les autres modèles de dynamique des population) nous présentons différents modèles à différentes échelles: des processus de sauts à une échelle microscopique, des processus de diffusion à une échelle mésoscopique et des équations différentielles ordinaires à une échelle macroscopique (le modèle classique du chemostat). Nous expliquons comment passer d'une échelle à l'autre, sur le plan de la modélisation mais aussi sur le plan mathématique comme sur le plan algorithmique. Nous essayons d'expliquer les avantages et les limites de chacun de ces modèles.
    • 8/10/2010: Optimisation de POMDP : quelles récompenses sont réellement attendues à l'exécution de la politique ? Caroline Carvalho (ONERA Toulouse).
    Résumé : Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt dans la communauté scientifique grâce aux progrès observés dans des algorithmes de résolution et dans les capacités numériques de calcul. La plupart de ces algorithmes sont focalisés sur la résolution d'un critère de performance, qui a pour ambition de caractériser les politiques qui permettront de générer les séquences de récompenses le plus importantes possibles. Dans la planification en Intelligence Artificielle, l'attention est tournée vers un critère qui optimise une somme pondérée des récompenses, et, pour des applications en perception active d'autre part, le critère est souvent défini en termes de gain d'information (entropie de Shannon). Aucun de ces critères ne prend en compte les récompenses réellement acquises lors de l'exécution de la politique. En effet, le premier critère est une moyenne linéaire sur l'espace d'états de croyance, de sorte que l'agent ne tend pas à obtenir une meilleure information des différentes observations, alors que le second critère ne prend pas en compte les récompenses. Ainsi, motivés par des exemples démonstratifs, nous étudions une combinaison additive de ces critères afin d'obtenir une meilleur séquence de récompenses et de gain d'information lors de l'exécution de la politique. Nous comparons notre critères avec le critère classique optimisé (gamma-pondéré) dans le cadre POMDP et nous soulignons l'intérêt de considérer un nouveau critère hybride non-linéaire pour des applications réalistes de reconnaissance et pistage multi-cibles.
    • 24/09/2010: Conception des systèmes de production intégrée assistée par modèles, Ould Sidi Mohamed Mahmoud (Unité de recherche Plantes et Systèmes de culture Horticoles, INRA Avignon)
    Résumé : L'unité PSH (Plantes et Systèmes de culture Horticoles) a consenti des efforts sur le développement de modèles de fonctionnement des systèmes horticoles (vergers, maraîchage abrité) motivé par leur utilisation pour la conception de scénarios techniques et paysagers de production intégrée (PI). Elle a ainsi créé un nouveau volet de recherche concernant la conception des systèmes de culture innovants assistée par modèles. Ce volet correspond au projet de recherche qui m’a été confié et que je dois donc mieux finaliser et développer. Dans cette présentation, je reviendrai d’abord sur les problématiques de recherche de l’unité et plus spécifiquement de l’équipe Ecologie de la Production Intégrée EPI. Je présenterai par la suite les deux axes applicatifs que j’ai étudiés depuis mon recrutement pour bien illustrer ma propre problématique. Le premier axe concerne les interactions arbre fruitier-bioagresseurs-régulateurs sous effet des pratiques culturales dans un contexte de PFI. Le deuxième axe porte sur la conception des idéotypes pour des plantes cultivées en agriculture durable. J’illustre le premier par l’exemple de l’interaction pêcher-puceron vert-coccinelles et le deuxième par le cas pêcher-moniliose. Je présenterai par la suite les deux approches d’optimisation multiobjectif que j’ai appliquées aux deux cas. La première approche est agrégative floue évolutionnaire. Elle utilise un algorithme évolutionnaire classique. La deuxième approche est non agrégative et utilise le concept de la Pareto dominance et l’algorithme NSGA-II bien connu. Enfin, je présenterai les résultats obtenus et donnerai des perspectives par ces premiers travaux de recherche en comptant beaucoup sur vos critiques et conseils et pourquoi pas vos collaborations.
    Keywords: Production intégrée, Modélisation, optimisation multiobjectif, algorithmes évolutionnaires, logique floue.
    • 17/09/2010: Le couvert végétal comme protection alternative aux épidémies, Pierre Casadebaig (INRA Toulouse).
    Résumé : Cette présentation aborde l'avancée des travaux au sein de l'ANR Archidémio (2009-2012). Ce projet envisage des solutions alternatives à une protection principalement chimique des cultures en considérant l'architecture du couvert végétal comme un moyen de réduire l'incidence d'une épidémie. Cette problématique est abordée à la fois expérimentalement et par modélisation. Nous discuterons de la conception d'un modèle d'interaction plante-pathogène, de son implémentation informatique et... ...surtout de méthode de modélisation : quel niveau d'abstraction pour maintenir un lien entre les communautés agronomie-épidémiologie et informatique-simulation.
    Keywords: modélisation, épidémiologie, agronomie, architecture végétale.

    2009-2010

    • 2/07/2010: The value of information for managing biological populations, Alana Moore (INRA, Toulouse).
    Résumé : Managing biological populations requires making decisions under considerable uncertainty. As well as stochastic variables such as rainfall and birth rates, there is uncertainty in the estimates of model parameters, model structure and the effectiveness of different management strategies. These latter types of uncertainty may be reduced with a combination of experimentation and monitoring. However, monitoring and experimentation are in general difficult and expensive. Hence, we would like to know how much, and what kind of, information we need to manage well. In this talk I will discuss two different modelling frameworks: adaptive management and partially observable Markov decision processes. I will briefly discuss for what kinds of uncertainty each is applicable, and present two example problems we have addressed using these frameworks.
    • 11/12/2009: Two glances on risk modelling : (i) forest managment and (ii) group and individual choices. (slides) Stéphane Couture (INRA Toulouse).
    Résumé : (i) Forest management under fire risk when carbon sequestration has value (with Arnaud Reynaud) presents a model to determine the optimal harvest date for a forest stand producing both timber and carbon benefits under a risk of fire with stochastic dynamic programming method. (ii) Comparing group and individual choices under risk and ambiguity: an experimental study (with Marielle Brunette and Laure Cabantous). </blockquote>
    • 23/10/2009 : Analyse en cycle de vie et la propagation d'incertitudes pour l'éco-évaluation des procédés, avec focus sur la décision multi-critère. Laurent Lardon et Jürgen Landes (INRA LBE Narbonne).
    • 16/10/2009.  Apprentissage de la structure des réseaux Bayésiens (slides). Philippe Leray (Polytech' Nantes).
    Résumé : Tutoriel (2h) sur l'apprentissage de la structure des réseaux Bayésiens: de la construction d'un modele graphique probabiliste à la recherche de causalité.
    • 09/10/2009. System-Sun : effet d'hormones végétales sur la régulation génique du Tournesol. Nicolas Langlade (LIPM, INRA Toulouse).
    Résumé : Pour vous mettre l’eau à la bouche, on y parlera de la nouvelle (pour moi) technologie RNAseq., de micro-ARN (un peu comme des mRNA mais en plus court et qui inhibe soit en jouant à segmenter des ARN par hybridation soit en méthylant la séquence d’ADN). On y discutera aussi plan d’expérience et méthode d’analyse des données. Il y a pas mal de facteurs (génotype, traitement par hormones, série de mesures temporelles, stress osmotique ou salin…). Le Graal de la manip’ est de modéliser la régulation de l’expression des ARN sur 9 classes d’hormones végétales (l’organisme est ici le Tournesol) et à terme d’étudier la variation induite par des génotypes différents (voire sauvages) sur cette régulation par exemple en regard de la topologie du réseau de régulation sous-jacent. J’explique mal, Nicolas le fait très bien...
    • 04/09/2009. Sélection de modèles et champs de Markov. Aude Grelaud (INRa Jouy/CREST/CEREMADE).
    • 03/07/2009. Systèmes biologiques (Réseaux Génétiques, Métaboliques, ...).Ludovic Cottret (LBBE, Lyon).
    Résumé : Qu'entend-on par réseaux biologiques? Comment sont-ils construits? Dans quelle mesure peut-on faire confiance aux données générées ? Comment les modélise-t-on ? Comment les visualise-t-on ? Quels sont les outils disponibles ? Et surtout : quel est l'intérêt d'étudier de tels objets ? En nous reposant principalement sur l'exemple des réseaux métaboliques, nous tenterons de répondre à ces questions et de mettre en lumière les enjeux actuels et à venir de l'analyse des réseaux biologiques.
    • 25/06/2009. Planification dans le risque et l'incertain : optimisation des strategies de gestion spatiale des forêts. Nicklas Forsell (SLU, Umea, Sweden).
    • 12/06/2009. Analyse de Sensibilité et Exploration de Modèles. Jennifer Baudet et Robert Faivre (BIA, INRA Toulouse).
    Résumé : Présentation de l'école-chercheurs "Analyse de Sensibilité et Exploration de Modèles" qui s'est tenue à Giens du 11 au 14 mai 2009 à l'initiative du réseau Mexico.See http://reseau-mexico.fr/AnnonceECMEXICO.
    • 03/04/2009. Des algorithmes de recherche aux logiciels et aux plateformes de services en bioinformatique. Jean-François Dufayard (LIRMM, Montpellier).
    Résumé : Résumé des travaux menés: (a) au Pôle Bioinformatique Lyonnais (UMR 5558 - Projet INRIA Helix) de 1999 à 2005 et (b) dans l'équipe Méthodes et Algorithmes pour la bioinformatique (LIRMM - CNRS) de 2005 à 2009. Le Pôle Bioinformatique Lyonnais (PBIL) et l'équipe de Méthodes et Algorithmes pour la Bioinformatique (MAB) ont le point commun de proposer des plateformes et logiciels issus de la recherche, dans le domaine de la génomique comparative, et entre autres sous-domaines la phylogénie moléculaire. Cet exposé traitera de l'histoire de différents projets que j'ai mené ou auxquels j'ai activement participé dans ces structures, depuis leur naissance par des recherches algorithmiques, à la mise à disposition de fruit de ces recherches via des logiciels et des plateformes de calculs destinés à la communauté. Ces projets sont: (a) FamFetch: un logiciel client permettant d'interroger les banques de familles de gènes homologues disponibles au PBIL. (b) PhyML: un logiciel de phylogénie par maximum de vraisemblance, central dans la plateforme de bioinformatique montpelliéraine, et support de travail de nombreux chercheurs. J'insisterai particulièrement sur le rôle de l'ingénieur au sein d'une équipe de recherche, et du cheminement qui m'a conduit de l'activité de recherche au choix mûri de me consacrer au rôle d'ingénieur.</blockquote>

    List of past organizers


    Do not hesitate to contact us if you want your talk to appear here or if you need some extra information on old seminars.

    Huge thanks to the past organizers:

    2014-2018 Victor Picheny Nathalie Vialaneix
    2010-2014 Gauthier Quesnel Matthieu Vignes
    2006-2009 Simon de Givry Nathalie Peyrard