Table Of ContentUNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUT FRANCOPHONE INTERNATIONAL
TAGNY NGOMPE GILDAS
LE PROJET “AGRONOMIC LINKED DATA
(AGROLD)”
DỰ ÁN AGROLD (MÔ HÌNH DỮ LIỆU AGRONOMIC)
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
HANOI – 2015
UNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUT FRANCOPHONE INTERNATIONAL
TAGNY NGOMPE GILDAS
LE PROJET “AGRONOMIC LINKED DATA
(AGROLD)”
DỰ ÁN AGROLD (MÔ HÌNH DỮ LIỆU AGRONOMIC)
Spécialité: Systèmes Intelligents et Multimédia
Code: Programme pilote
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
Sous la direction de:
Dr. Pierre LARMANDE – Ingénieur IRD, responsable de l’AXE Intégration de
Données de l’Institut de Biologie Computationnelle
Dr. Aravind VENKATESAN - Chercheur post-doctorant, IBC
HANOI – 2015
ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les
données et les résultats qui y sont présentés sont exacts et n’ont jamais été
publiés ailleurs. La source des informations citées dans ce mémoire a été bien
précisée.
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận
văn đã được chỉ rõ nguồn gốc.
TAGNY NGOMPE GILDAS
Table des matières
Tabledesmatières v
Remerciements vi
Résumé vii
Abstract viii
Listedesfigures x
Listedestableaux xi
INTRODUCTION 1
Chapitre1 PROBLÉMATIQUEDUPROJETAGROLD 3
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Systèmeexistant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Problématiquedusujet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Contraintesetrésultatsattendus . . . . . . . . . . . . . . . . . . . . . . . 6
Chapitre2 PUBLICATIONDESDONNÉESLIÉESETOUVERTES 7
2.1 Lewebdesdonnéesliéesetouvertes . . . . . . . . . . . . . . . . . . . . . 7
2.2 Publicationdedonnéesdessciencesduvivant . . . . . . . . . . . . . . . 9
2.2.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Systèmesd’interrogationduwebdesdonnées . . . . . . . . . . . . . . . 11
2.3.1 Aideàlaconstructionderequêtes . . . . . . . . . . . . . . . . . . 12
2.3.2 Recherched’informationsspécifiques . . . . . . . . . . . . . . . . 14
2.4 Intégrationdedonnéesdesourcesmultiples . . . . . . . . . . . . . . . . 17
Chapitre3 SOLUTIONPROPOSÉE 20
3.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Paradigmesderecherchesémantique . . . . . . . . . . . . . . . . 20
3.1.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Prototypeimplémenté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Intégrationetadaptationdesystèmesexistants . . . . . . . . . . . 22
3.2.2 Développementdenouvellesfonctionnalités . . . . . . . . . . . . 23
iv
Chapitre4 EXPÉRIMENTATIONSETANALYSEDESRÉSULTATS 28
4.1 Utilisationdel’applicationwebAgroLDpardesutilisateurshumains . . 28
4.1.1 Entréedesrequêtesetexpressivité . . . . . . . . . . . . . . . . . . 29
4.1.2 Exécutiondesrequêtesettempsderéponse . . . . . . . . . . . . . 31
4.1.3 Présentationdesrésultats . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 UtilisationdesinformationsdelabaseAgroLDdansdesapplications . . 32
4.2.1 Utilisationdel’APIpourlaprogrammation . . . . . . . . . . . . . 32
4.2.2 Utilisationdel’APIdanslesworkflows . . . . . . . . . . . . . . . 33
CONCLUSION 36
Références 37
Annexes 40
Glossaire 40
v
Remerciements
Nousadressonsnosremerciementsàtousceuxquiontcontribuéàlaréalisationdu
travailprésentédanscedocument,enparticulier:
— àPierreLARMANDEetAravindVENKATESAN,nossuperviseursdestage;
— auxresponsablesetmembresdupersonneldenotreétablissementl’InstitutFran-
cophoneInternational;
— auxstructuresquinousontencadré:l’UniversitéNationaleduVietnamàHanoï
(UNVH), l’Université de Montpellier, l’Institut de Recherche pour le Dévelop-
pement(IRD),l’InstitutdeBiologieComputationnelle(IBC),leLaboratoired’In-
formatique, de Robotique et de Micro-électronique de Montpellier (LIRMM), le
Centre de coopération International en Recherche Agronomique pour le Déve-
loppement(CIRAD);
— àNordineElHassouni,ingénieurduCIRAD.
vi
Résumé
Le web des données liées offre une grande opportunité d’intégration de données
de sources et domaines divers. Cependant, il présente une rareté des données issue
de la recherche en biologie des plantes. Des chercheurs de l’IBC construisent actuel-
lement la base de connaissance AgroLD en convertissant les données de la base de
données SouthGreen qu’ils lient à des ontologies et d’autres sources de données du
web des données. AgroLD est destinée à l’usage des biologistes et des bioinformati-
ciens. Ces groupes d’utilisateurs présentent des niveaux de compétences variées par
rapport aux technologies du web sémantique. Il s’agissait principalement pour nous
de leur proposer des moyens pour faciliter la recherche d’information dans AgroLD
et dans des services externes. Notre solution est de mettre à leur disposition sur une
même plateforme plusieurs fonctionnalités d’utilisabilité et d’expressivité différentes.
Lesutilisateurspourrontchoisirlessystèmesderecherchequileurconviennentetpas-
serfacilementdel’unàl’autre.Ilaétéaussiprisencomptel’activitédedéveloppement
d’applications des bioinformaticiens. Nous avons proposé une API de services REST
pour exposer les informations correspondant à des questions biologiques. Cette API
présente l’atout d’être facilement utilisable pour la programmation d’application et
dans le gestionnaire de workflows bioinformatiques Galaxy. Nous avons notamment
utilisé cette API et d’autres services web pour faire de l’agrégation de connaissances
auseind’unformulairedynamiquedansnotreprototype.
Motsclés:Intégrationdedonnéesagronomiques,agrégationdeconnaissance,sys-
tèmesderecherchesémantique,interactionhomme-machine,servicesREST
vii
Abstract
The web of linked data provides great data integration opportunity from various
sourcesandareas.However,itlacksdataofresearchinplantbiology.IBC’sresearchers
are currently building the knowledge base AgroLD converting data base SouthGreen
data they bind to ontologies and other sources of web of data. AgroLD is intended
for use by biologists and bioinformaticians. These users groups have different levels
of skills by compared to semantic web technologies. For us, It were about to suggest
to them, ways to facilitate the search for information in AgroLD and external services.
Our solution is to provide them, on the same platform, several features with different
usability and expressivity. Users can choose which search systems that suit them and
easilyswitchfromonetoanother.Itwasalsoconsideredtheapplicationsdevelopment
activity of bioinformaticians. We have proposed a REST service API to expose the in-
formation corresponding to biological questions. This API has the advantage of being
easily usable for application programming and in bioinformatics workflows manager
Galaxy. We have particularly use the API and other web services to make knowledge
aggregationinadynamicforminourprototype.
Keywords : Integration of agronomic data, aggregation of knowledge, semantic
searchsystems,human-computerinteraction,RESTservices
viii
Liste des figures
1.1 LienentredeuxressourcesdesourcesdistantesetdifférentessurAgroLD 5
1.2 urinondéréférencéparticipantàdestripletsdansAgroLD . . . . . . . . 5
2.1 Exemple de graphe de données liées (source : http://linkedlifedata.
com/about) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Ensembles de données des sciences de la vie dans le nuage des données
liéesetouvertes(source:http://lod-cloud.net) . . . . . . . . . . . . . 10
2.3 RessourcesbiologiquesRDFliéesàUniProtKB(uniprot.rdf),labaseprin-
cipaledeUniProt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Différenceentrelesfiltresetlanavigationàfacettes . . . . . . . . . . . . 14
2.5 AvantagesdesservicesRESTfulsurlesservicesbaséessurSOAP(WS-*) 16
2.6 Architectured’OpenPHACTSDiscoveryPlateform . . . . . . . . . . . . 17
2.7 Architecturestandarddesapplicationsdedonnéesliéesetouvertes . . . 18
3.1 Architectureproposéepourl’applicationwebd’AgroLD . . . . . . . . . 21
3.2 EditeurderequêtestextuellesSPARQL . . . . . . . . . . . . . . . . . . . . 24
3.3 Moduleserveurdel’APId’AgroLD . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Activitésdenavigationavecleformulairedynamique . . . . . . . . . . . 27
4.1 Scénario1:entréedelarequête . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Scénario2:entréedelarequêtedanslefomulairedynamique . . . . . . 29
4.3 Scénario2:entréedelarequêtedansl’éditeurderequêteSPARQL . . . 30
4.4 Scénario3:entréedelarequêtedanslefomulairedynamique . . . . . . 30
4.5 Scénario4:entréedelarequête . . . . . . . . . . . . . . . . . . . . . . . . 30
4.6 Scénario1:présentationdesrésultatsaveclarechercherapideparmot-clé 31
4.7 Scénario2:présentationdesrésultats . . . . . . . . . . . . . . . . . . . . 32
4.8 Scénario3:présentationdesrésultats . . . . . . . . . . . . . . . . . . . . 32
4.9 Scénario4:Relationsdécouvertesentrelegène"adenosylmethioninede-
carboxylase"(AT3G25570)etlesdeuxpathways"sperminebiosynthesis"
et"spermidinebiosynthesis" . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.10 Utilisation du service de recherche de gène par mot-clé dans un pro-
grammeJavaScript . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.11 documentationduservicederecherchedesprotéinesassociéesàuniden-
tifiantontologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
ix
4.12 Intégration de la liste des gènes participant au pathway CALVIN-PWY
dansGalaxy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.13 Workflowd’extractiondescolonnes1,2et4d’untableaudansGalaxy . 35
4.14 Résultatdel’extractiondescolonnes"geneId","geneName"et"taxon_name" 35
x
Description:Dr. Aravind VENKATESAN - Chercheur post-doctorant, IBC .. "WP3-Annotation : Structural and functional annotation of proteomes" (en fran- .. le patron de fédération de requête ("The Query Federation Pattern") qui consiste.