Table Of ContentMéthodes combinatoires de reconstruction de réseaux
phylogénétiques
Philippe Gambette
To cite this version:
Philippe Gambette. Méthodes combinatoires de reconstruction de réseaux phylogénétiques. Informa-
tique [cs]. Université Montpellier II - Sciences et Techniques du Languedoc, 2010. Français. NNT:
2010MON20214. tel-00608342
HAL Id: tel-00608342
https://theses.hal.science/tel-00608342
Submitted on 12 Jul 2011
HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est
archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
ACADÉMIE DE MONTPELLIER
U N I V E R S I T É M O N T P E L L I E R II
SciencesetTechniquesduLanguedoc
T
HÈSE
présentéeauLaboratoired’InformatiquedeRobotique
etdeMicroélectroniquedeMontpellierpour
obtenirlediplômededoctorat
Spécialité : Informatique
FormationDoctorale : Informatique
ÉcoleDoctorale : Information,Structures,Systèmes
Méthodes combinatoires de reconstruction de réseaux
phylogénétiques
CombinatorialMethodsforPhylogeneticNetworkReconstruction
par
Philippe GAMBETTE
Soutenuele30novembre2010,devantlejurycomposéde:
Directeurdethèse
M.ChristophePAUL,DirecteurdeRecherche.........................................CNRS,LIRMM
Co-Directeurdethèse
M.VincentBERRY,Professeur......................................UniversitéMontpellier2,LIRMM
Rapporteurs
M.GuillaumeFERTIN,Professeur........................................UniversitédeNantes,LINA
M.VincentMOULTON,Professeur.......................................... UniversityofEastAnglia
Présidentedujury
MmeViolainePRINCE,Professeur.................................UniversitéMontpellier2,LIRMM
Examinateurs
M.AlainGUÉNOCHE,DirecteurdeRecherche.............................................CNRS,IML
M.EricTANNIER,ChargédeRecherche................................................. INRIA,LBBE
Table des matières
Tabledesmatières i
Remerciements 1
Préambule 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Lesarbresphylogénétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Lesréseauxphylogénétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Plandelathèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Publicationsissuesdecettethèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
I Approchecombinatoiredesréseauxphylogénétiques 13
1 Arbresetréseauxcommeobjetscombinatoires 15
1.1 Premièresdéfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Réseauxetgraphesorientés . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.2 Arbresphylogénétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Propriétéscombinatoiresdesarbres . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.1 Unerichessemathématique . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.2 Décompositionsensous-ensemblesdefeuilles . . . . . . . . . . . . . 18
1.3 Propriétéscombinatoiresdesréseaux . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.1 Réseauxabstraitsetexplicites . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.2 Réseauxetsous-ensemblesdefeuilles . . . . . . . . . . . . . . . . . . 24
1.3.3 Multifurcationsetmultiréticulations . . . . . . . . . . . . . . . . . . . 30
1.4 Restrictionssurlesmodèlesderéseaux . . . . . . . . . . . . . . . . . . . . . . 33
1.4.1 Restrictionssurlesensemblesdecladesetdebipartitions . . . . . . . 33
1.4.2 Réseauxàunecouchederéticulation . . . . . . . . . . . . . . . . . . . 36
1.4.3 Réseauxdeniveauk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.4.4 Réseauxnonenracinésdeniveauk . . . . . . . . . . . . . . . . . . . . 49
1.4.5 Autresrestrictionsderéseauxphylogénétiquesexplicites . . . . . . . 53
1.5 Classificationdesrestrictionssurlesréseauxphylogénétiques . . . . . . . . . 53
1.5.1 Hiérarchiesfaibles,pyramidesetniveau1 . . . . . . . . . . . . . . . . 54
1.5.2 Ensemblescirculairesdebipartitionsetniveau1 . . . . . . . . . . . . 56
i
ii TABLEDESMATIÈRES
1.5.3 Diagrammesrécapitulatifsdesinclusionsdesous-classes . . . . . . . 58
2 Algorithmescombinatoiresdereconstruction 61
2.1 Méthodesetalgorithmesexistants . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.1.1 Panoramadesdiversesméthodes . . . . . . . . . . . . . . . . . . . . . 61
2.1.2 Reconstructionàpartirdetriplets . . . . . . . . . . . . . . . . . . . . . 66
2.2 Reconstructionàpartirdequadruplets . . . . . . . . . . . . . . . . . . . . . . 69
2.2.1 Extractiondesquadrupletsd’unréseau . . . . . . . . . . . . . . . . . . 69
2.2.2 Difficultédelareconstructiondanslecasgénéral . . . . . . . . . . . . 70
2.2.3 Structurearboréedepuisunensembledensedequadruplets . . . . . 73
2.2.4 Reconstructiondansdescasrestreints . . . . . . . . . . . . . . . . . . 77
2.3 Reconstructionàpartirdeclades . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.3.1 Testdecompatibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.3.2 Décompositiondesréseauxphylogénétiques . . . . . . . . . . . . . . 87
2.3.3 Recherched’unensemblemaximumdetaxonscompatibles . . . . . 90
2.3.4 Ajoutdesréticulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
II Utilisationpratiquedesméthodescombinatoires 101
3 Limitesdesméthodescombinatoires 105
3.1 Bruitetsilencedanslesdonnées . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.1.1 Bruitetcorrectionsd’erreurssurlestriplets . . . . . . . . . . . . . . . 105
3.1.2 Silenceetinférencedesdonnéesmanquantes . . . . . . . . . . . . . . 114
3.2 Explosiondecomplexitéenfonctionduniveau . . . . . . . . . . . . . . . . . . 115
3.2.1 Bornessurlenombredegénérateurs . . . . . . . . . . . . . . . . . . . 116
3.2.2 Algorithmedeconstructiondesgénérateursdeniveauk. . . . . . . . 118
3.2.3 Niveauélevéderéseauxsimulés . . . . . . . . . . . . . . . . . . . . . . 120
3.3 Fiabilitédesréseauxobtenusparlesméthodescombinatoires . . . . . . . . . 121
3.3.1 Encodagedesréseauxsimplesdeniveau1 . . . . . . . . . . . . . . . . 122
3.3.2 Encodagedesréseauxdeniveau1 . . . . . . . . . . . . . . . . . . . . . 123
3.3.3 Encodagedesréseauxdeniveau2etplus . . . . . . . . . . . . . . . . . 126
4 Lesméthodescombinatoiressurdesdonnéesréelles 129
4.1 Sélectionetprétraitementdesdonnées . . . . . . . . . . . . . . . . . . . . . . 129
4.1.1 Possibilitésdetypesdedonnéesenentrée . . . . . . . . . . . . . . . . 129
4.1.2 Choixdelaméthodedereconstruction . . . . . . . . . . . . . . . . . . 130
4.1.3 Problèmedechoixdesgènesetdesespècesdansunphylome . . . . 132
4.1.4 Interfacedesélectionsemi-automatiqued’arbresetd’espèces . . . . 136
4.2 Exemplessurdesdonnéesréelles . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.2.1 Outilsutilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
TABLEDESMATIÈRES iii
4.2.2 UtilisationsurlesdonnéesHOGENOM . . . . . . . . . . . . . . . . . . 140
Conclusionetperspectives 151
Problèmesouverts 151
Perspectivessurlesméthodescombinatoiresenphylogénieréticulée 153
Annexes 157
Bibliographie 157
Glossairefrançais-anglais 175
Index 177
Tabledesfigures 182
Listedestableaux 184
Publicationsenmargedusujetdethèse 185
Algorithmiquedesgraphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Traitementautomatiquedeslanguesnaturelles . . . . . . . . . . . . . . . . . . . . . 185
ACADÉMIE DE MONTPELLIER
U N I V E R S I T É M O N T P E L L I E R II
SciencesetTechniquesduLanguedoc
T
HÈSE
présentéeauLaboratoired’InformatiquedeRobotique
etdeMicroélectroniquedeMontpellierpour
obtenirlediplômededoctorat
Spécialité : Informatique
FormationDoctorale : Informatique
ÉcoleDoctorale : Information,Structures,Systèmes
Méthodes combinatoires de reconstruction de réseaux
phylogénétiques
CombinatorialMethodsforPhylogeneticNetworkReconstruction
par
Philippe GAMBETTE
Soutenuele30novembre2010,devantlejurycomposéde:
Directeurdethèse
M.ChristophePAUL,DirecteurdeRecherche.........................................CNRS,LIRMM
Co-Directeurdethèse
M.VincentBERRY,Professeur......................................UniversitéMontpellier2,LIRMM
Rapporteurs
M.GuillaumeFERTIN,Professeur........................................UniversitédeNantes,LINA
M.VincentMOULTON,Professeur.......................................... UniversityofEastAnglia
Présidentedujury
MmeViolainePRINCE,Professeur.................................UniversitéMontpellier2,LIRMM
Examinateurs
M.AlainGUÉNOCHE,DirecteurdeRecherche.............................................CNRS,IML
M.EricTANNIER,ChargédeRecherche................................................. INRIA,LBBE
Remerciements
Merciàmesdirecteurspourcestroisannéesdethèse!GrâceàVincentetChristophe,
j’aipucomptersurunevéritableéquipedeco-directioncomplémentairesurlesdomaines
scientifiques,habituéeautravailinterdisciplinaire.Ilsm’ontapportédespistes,desoutils,
destechniques,maisaussidelasérénitédanslesmomentsdedoute,l’indispensablesou-
tienfinancierpourlavalorisationdesrésultatsetsurtoutunegrandelibertéderecherche
etdecollaborations,toutenrestanttrèsprésentsetdisponiblespournostravauxencom-
mun.
JeremercieGuillaumeFertinetVincentMoultond’avoiracceptéd’évaluercettethèse,
Alain Guénoche et Eric Tannier qui ont bien voulu être examinateurs, leur expertise en
tant que références dans la communauté bioinformatique est très précieuse. Merci aussi
àViolainePrince,dontj’aipudécouvriretapprécierpendantmondoctoratlestalentsde
linguiste-informaticienne, compositrice, chanteuse, et présidente de jury, d’avoir égale-
mentacceptédefairepartiedemonjurydethèse.
Mes rencontres avec Olivier Gascuel et Michel Habib, en stage de recherche, sont à
l’originedecettethèseauLIRMM.J’aibénéficiédesmeilleuresconditionspourdécouvrir
lemondedelarechercheetyentrer,grâceàleursqualitéshumainesetscientifiques,que
j’airetrouvéeschezVincentetChristophe.
Tous mes coauteurs m’ont énormément apporté, en partageant autant leurs tech-
niques et leurs connaissances que leur enthousiasme et leur dynamisme à des moments
clés.MerciàDaniel,Stéphane,Vincent,Christophe,Regula,Christophe,Kathi,Jean,Del-
phine, Hyeran, Melissa, Elsa et Constance, avec qui j’ai eu la chance de travailler. C’était
aussi un privilège inouï de faire partie des équipes AlGCo et MAB du LIRMM, où tant de
talents et d’humour sont réunis. Séminaires, repas et pauses café m’ont permis d’appré-
cierrégulièrementceuxdeStéphane,d’Émeric,Daniel,Philippe,Benjamin,Alexandre,Sté-
phanetMarie-Catherine,etd’Anne-Muriel,Laurent,Gilles,Annie,François,Jean-François,
Vincent,AlbanetÉric.
JeremercieégalementlesdoctorantsduLIRMMpourlesbonsmomentspartagéspen-
dantcestroisans,etleurparticipationàmalonguequêtedel’exhaustivitédutrombino-
scopedesdoctorants.JeciteraiparticulièrementLisaetKhalilavecquinousavonsrelancé
le SéminDoc. Grâce à Paola et Cécile, les préparations de projets portés au sein de l’asso
Contact ont été aussi réussies que conviviales. Et c’est aussi à Paola que je dois la moti-
vationinitialepourmonengagementdereprésentationdesétudiantsetdesdoctorants,à
l’originedenouveauxintérêtsetdecompétencesquejen’auraispasimaginédévelopper
pendantcettethèse,aveclesoutiendelaPrésidentedel’Universitéetdesonéquipe.Les
doctorantsetmembresactifsdel’assoContact,dontCathysadirectrice,m’ontaccompa-
1
Description:talents et d'humour sont réunis. Séminaires, repas et pauses café m'avoir appris ou permis d'apprendre le Basic Casio 6500 G, Pascal Delphi, HTML, CaML,. Java, et Python. Et en dehors .. contexte non enraciné pour une reconstruction à partir de quadruplets [Gambette et al.,. 2010]. Ces premie