Table Of ContentInt´egration de ressources lexicales
riches dans un analyseur syntaxique
probabiliste
`
THESE DE DOCTORAT
pr´esent´ee et soutenue publiquement le 3 d´ecembre 2012
pour l’obtention du
Doctorat de l’Universit´e Paris-Est
(sp´ecialit´e informatique linguistique)
au titre de l’Ecole Doctorale MSTIC
par
Sigogne Anthony
Composition du jury
Directeur de th`ese : E´ric Laporte (Universit´e Paris-Est)
Co-directeur de th`ese : Matthieu Constant (Universit´e Paris-Est)
Rapporteurs : Alexis Nasr (Universit´e Aix-Marseille)
Thierry Poibeau (LaTTiCe)
Examinateurs : Djam´e Seddah (Universit´e Paris-Sorbonne Paris 4)
Isabelle Tellier (Universit´e Sorbonne Nouvelle Paris 3)
Laboratoire d’Informatique Gaspard Monge — UMR 8049 LIGM Labex Bezout
Remerciements
En premier lieu, je souhaiterais remercier les membres du jury, à savoir Alexis Nasr, Thierry
Poibeau,DjaméSeddahetIsabelleTellier,pourleurremarquesetcritiquespertinentessurmon
travail.
Je remercie également mon directeur de thèse, Eric Laporte, ainsi que mon co-directeur, Mat-
thieu Constant, pour toute l’aide apportée tout au long de mon parcours de jeune chercheur.
Grâce à eux, il m’a été possible de développer de nombreuses compétences utiles à ma future
carrière.
De manière plus générale, j’aimerais également remercier les différents membres de l’équipe
INFOLINGU:
– Rosa Cetro et Myriam Rakho, mes deux collègues de bureau qui m’ont supporté durant ces
3années.
– LiChietElsaTolone,quiaccomplissentàprésentunebrillantecarrièredanslarecherche.
– TitaKyriacopoulou,poursabonnehumeuretl’impulsionqu’elledonneàl’équipe.
– SébastienPaumier,pourm’avoirpermisd’intégrerunepartiedemontravaildanslelogiciel
collaboratifUnitex.
– ainsiquetouslesautres...
Je voudrais saluer les membres d’autres équipes avec qui j’ai discuté, que ce soit pour des
réunionsdetravailousimplementlorsdeconférences:
– Thomas François et Seyed Abolghasem Mirroshandel, avec qui j’ai participé à plusieurs
conférencesetexcursions.
– JosephLeRouxetPatrickWatrin,avecquij’aiparticipéàl’écrituredeplusieursarticles.
– Marie Candito et Djamé Seddah, qui m’ont donné de nombreux conseils et n’ont pas hésité
àm’aiderlorsquej’enavaisbesoin.
Pourfinir,jeremerciemafamilleetmesamisquim’ontsoutenupendantces3années.
1
2
Résumé
Cette thèse porte sur l’intégration de ressources lexicales et syntaxiques du français dans deux
tâches fondamentales du Traitement Automatique des Langues [TAL] que sont l’étiquetage
morpho-syntaxiqueprobabilisteetl’analysesyntaxiqueprobabiliste.Danslecadredufrançais,
nous disposons d’une multitude de données lexicales et syntaxiques créées par des processus
automatiquesoupardeslinguistes.Deplus,uncertainnombred’expériencesontmontrél’inté-
rêtd’utiliserdetellesressourcesdanslesprocessusprobabilistescommel’étiquetageoul’ana-
lyse,carellessontcapablesd’améliorersignificativementlesperformancesdessystèmes.Dans
ce mémoire, nous utilisons ces ressources afin de donner une réponse à deux problématiques
que nous décrivons succinctement ci-dessous : la dispersion des données et la segmentation
automatiquedestextes.
Grâce à des algorithmes d’analyse syntaxique de plus en plus évolués, les performances ac-
tuelles des analyseurs sont de plus en plus élevées, et ce pour de nombreuses langues dont le
français. Cependant, il existe plusieurs problèmes inhérents aux formalismes mathématiques
permettantdemodéliserstatistiquementcettetâche(grammaire,modèlesdiscriminants,...).La
dispersion des données est l’un de ces problèmes, et est causée principalement par la faible
tailledescorpusannotésdisponiblespourlalangue.Ladispersionreprésenteladifficultéd’es-
timer la probabilité de phénomènes syntaxiques apparaissant dans les textes à analyser mais
qui sont rares ou absents du corpus ayant servi à l’apprentissage des analyseurs. De plus, il
est prouvé que la dispersion est en partie un problème lexical, car plus la flexion d’une langue
estimportante,moinslesphénomèneslexicauxsontreprésentésdanslescorpusannotés.Notre
premièreproblématiquereposedoncsurl’atténuationdel’effetnégatifdeladispersionlexicale
desdonnéessurlesperformancesdesanalyseurs.
Dans cette optique, nous nous sommes intéressé à une méthode appelée regroupement lexical,
et qui consiste à regrouper les mots du corpus et des textes en classes. Ces classes réduisent
le nombre de mots inconnus et donc le nombre de phénomènes syntaxiques rares ou inconnus,
liés au lexique, des textes à analyser. Notre objectif est donc de proposer des regroupements
lexicaux à partir d’informations tirées des lexiques syntaxiques du français, et d’observer leur
impactsurlesperformancesd’analyseurssyntaxiques.
Parailleurs,laplupartdesévaluationsconcernantl’étiquetagemorpho-syntaxiqueprobabiliste
et l’analyse syntaxique probabiliste ont été réalisées avec une segmentation parfaite du texte,
car identique à celle du corpus évalué. Or, dans les cas réels d’application, la segmentation
d’un texte est très rarement disponible et les segmenteurs automatiques actuels sont loin de
proposer une segmentation de bonne qualité, et ce, à cause de la présence de nombreuses uni-
tés multi-mots (mots composés, entités nommées,...). Dans ce mémoire, nous nous focalisons
sur les unités multi-mots dites continues qui forment des unités lexicales auxquelles on peut
associer une étiquette morpho-syntaxique, et que nous appelons mots composés. Par exemple,
cordon bleu est un nom composé, et tout à fait un adverbe composé. Nous pouvons assimiler
la tâche de repérage des mots composés à celle de la segmentation du texte. Notre deuxième
problématique portera donc sur la segmentation automatique des textes français et son impact
surlesperformancesdesprocessusautomatiques.
Pourcefaire,nousnoussommespenchésuruneapprocheconsistantàcoupler,dansunmême
modèleprobabiliste,lareconnaissancedesmotscomposésetuneautretâcheautomatique.Dans
notre cas, il peut s’agir de l’analyse syntaxique ou de l’étiquetage morpho-syntaxique. La re-
connaissancedesmotscomposésestdoncréaliséeauseinduprocessusprobabilisteetnonplus
dansunephasepréalable.Notreobjectifestdoncdeproposerdesstratégiesinnovantespermet-
tant d’intégrer des ressources de mots composés dans deux processus probabilistes combinant
l’étiquetageoul’analyseàlasegmentationdutexte.
Mots-clés:Analysesyntaxique,Étiquetagemorpho-syntaxique,Probabilités,Lexiques,Hybri-
dation,Dispersiondesdonnées,Segmentationautomatique
Abstract
This thesis focuses on the integration of lexical and syntactic resources of French in two fun-
damental tasks of Natural Language Processing [NLP], that are probabilistic part-of-speech
tagging and probabilistic parsing. In the case of French, there are a lot of lexical and syntactic
datacreatedby automaticprocessesorbylinguists.In addition,anumberofexperiments have
showninteresttousesuchresourcesinprocessessuchastaggingorparsing,sincetheycansig-
nificantlyimprovesystemperformances.Inthispaper,weusetheseresourcestogiveananswer
to two problems that we describe briefly below : data sparseness and automatic segmentation
oftexts.
Throughmoreandmoresophisticatedparsingalgorithms,parsingaccuracyisbecominghigher
for many languages including French. However, there are several problems inherent in math-
ematical formalisms that statistically model the task (grammar, discriminant models,...). Data
sparseness is one of those problems, and is mainly caused by the small size of annotated cor-
pora available for the language. Data sparseness is the difficulty of estimating the probability
of syntactic phenomena, appearing in the texts to be analyzed, that are rare or absent from the
corpus used for learning parsers. Moreover, it is proved that sparsness is partly a lexical prob-
lem, because the richer the morphology of a language is, the sparser the lexicons built from a
treebankwillbeforthatlanguage.Ourfirstproblemisthereforebasedonmitigatingthenega-
tiveimpactoflexicaldatasparsenessonparsingperformance.
To this end, we were interested in a method called word clustering that consists in grouping
words of corpus and texts into clusters. These clusters reduce the number of unknown words,
and therefore the number of rare or unknown syntactic phenomena, related to the lexicon, in
texts to be analyzed. Our goal is to propose word clustering methods based on syntactic infor-
mationfromFrenchlexicons,andobservetheirimpactonparsersaccuracy.
Furthermore, most evaluations about probabilistic tagging and parsing were performed with a
perfectsegmentationofthetext,asidenticaltotheevaluatedcorpus.Butinrealcasesofappli-
cation,thesegmentationofatextisrarelyavailableandautomaticsegmentationtoolsfallshort
of proposing a high quality segmentation, because of the presence of many multi-word units
(compoundwords,namedentities,...).Inthispaper,wefocusoncontinuousmulti-wordunits,
called compound words, that form lexical units which we can associate a part-of-speech tag.
Wemayseethetaskofsearchingcompoundwordsastextsegmentation.Oursecondissuewill
therefore focus on automatic segmentation of French texts and its impact on the performance
ofautomaticprocesses.
In order to do this, we focused on an approach of coupling, in a unique probabilistic model,
the recognition of compound words and another task. In our case, it may be parsing or tag-
ging.Recognitionofcompoundwordsisperformedwithintheprobabilisticprocessratherthan
in a preliminary phase. Our goal is to propose innovative strategies for integrating resources
of compound words in both processes combining probabilistic tagging, or parsing, and text
segmentation.
Keywords:Parsing,Part-Of-SpeechTagging,Probabilities,Lexicons,Hybridisation,Segmen-
tation,Datasparseness
Table des matières
Introduction 19
1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Plandelathèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Partie I État de l’art
Chapitre1
Corpusannotés
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2 FrenchTreebank,uncorpusarborédufrançais . . . . . . . . . . . . . . . 26
1.3 FrenchTreebankendépendances . . . . . . . . . . . . . . . . . . . . . . 32
Chapitre2
Analysesyntaxiqueprobabiliste
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Évaluationdelaqualitédesanalyseurssyntaxiques . . . . . . . . . . . . . 38
7
Tabledesmatières
2.3 Modèles génératifs pour l’analyse syntaxique : Grammaires hors-contexte
probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4 Modèlesdiscriminantspourl’analysesyntaxique . . . . . . . . . . . . . . 57
2.5 Adaptation des analyseurs à de petits corpus et à des textes de genres dif-
férents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Chapitre3
Étiquetagemorpho-syntaxique
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.2 Modèlesgénératifsmarkoviens . . . . . . . . . . . . . . . . . . . . . . . . 97
3.3 Modèlesdiscriminants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.4 Éxpériencesd’étiquetageréaliséessurlecorpusdufrançaisFTB-UC . . . 109
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Chapitre4
Ressourceslexicalesetsyntaxiques
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.2 Dicovalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3 Lefff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.4 Lexique-Grammaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.5 LexSchem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.6 Couverturedeslexiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8
Description:La représentation des phrases sous forme d'arbre de dépendances est souvent utilisée dans les tâches . syntagme adverbial. A adjectif. ATS.