Table Of ContentUne grammaire en tronçons appliquée
à la génération de la prosodie
PhilippeBouladeMareüil –Christophed’Alessandro,
FrédéricBeaugendre–AnneLacheret-Dujour
LIMSI-CNRS
Bâtiment508-UniversitéParisXI,BP133F91403Orsay
{mareuil,cda}@limsi.fr,
[email protected],[email protected]
RÉSUMÉ. Danscetarticle,nousdécrivonsunegrammaireentronçonsappliquéeauparenthé-
sageprosodiqueetàlagénérationdelaprosodieenfrançais.Nousprésentonsunanalyseur
rapide,robusteetdéterministe,quiutiliselesinformationsattachéesauxpartiesdudiscourset
unjeuderègles,pourassignerdesfrontièresetdesmouvementsprosodiquesensynthèsedela
paroleàpartirdutexte.L’interfacesyntaxe-prosodieestexposée:lesséquencesdéfiniesper-
mettentdeplacerdesfrontièresprosodiquespotentielles(mineures,majeuresetmajeuresinter-
médiaires).Desaccentssontensuiteattribuésauxmotslexicauxetdesrèglesphonotactiques
sontappliquées.Enfin,ladescriptionaccentuelleesttraduiteen laréalisationde 9contours
mélodiques(synchronisésaveclastructuredesurface),depausesdanscertainscas,etd’allon-
gements.Desmesuresquantitativeseffectuéessurles (cid:0)(cid:0) tronçons délimitésparlesfrontières
(cid:1)(cid:1)
prosodiquesontmontrél’avantagede cettegrammairesuruneapprocheplussimple,fondée
uniquementsurlesmotsoutilsetlessignesdeponctuation.
ABSTRACT. In thispaper,wedescribeexperimentsintext chunkingforprosodicphrasingand
generationinFrench:wepresentaquick,robustanddeterministicparserwhichusespart-of-
speechinformationandasetof20rules,toconsistentlyassignprosodicboundariesandmove-
mentsinText-To-Speechsynthesis. Thesyntax-prosodyinterfaceispresented: thesequences
enablethelocationofpotentialprosodicboundaries(minor,majorormid-major).Stressesare
thenassignedtolexicalwords,andstressdeletionrulesbasedonphonotacticconstraintsare
applied.Eventually,theaccentualdescriptionislinkedtotherealisationof9melodiccontours
(synchronisedwiththesurfacestructure),pausesincertaincasesandlengthening.Quantitative
measurementscomputedontheso-called“chunks”delimitedbyprosodicboundariesshowed
theadvantageofourchunkgrammaroverasimplerapproach,onlybasedonfunctionwords
andpunctuation.
MOTS-CLÉS: grammaireentronçons,parenthésageprosodique,générationdelaprosodie,syn-
thèsedelaparoleàpartirdutexte.
KEYWORDS: chunkgrammar,prosodicphrasing,generationofprosody,text-to-speechsynthesis.
TAL.Volume42-n(cid:2) 1/2001,pages115à143
116 TAL.Volume42-n(cid:2) 1/2001
1. Introduction
Ilest généralementreconnu que le parenthésageprosodiqueest liéà la syntaxe:
uneanalysesyntaxiqueestdoncnécessaire,pourunsystèmedesynthèsedelaparole
àpartirdutexte.Danscetarticle,nousdécrivonsdanssesgrandstraitsunanalyseur
etsonapplicationàlagénérationdelaprosodieenfrançais.
Lacorrespondanceentre syntaxeet prosodieaétédébattue parde nombreuxau-
teurs(parexemple[VAI80,MAR80,CAE91,MER00]pourlefrançais).Enlama-
tière en effet, il y a interaction entre tous les niveaux de l’analyse linguistique, de
la phonétiqueà la sémantiqueet à la pragmatique (interprétationdansune situation
d’échange d’information). La syntaxe est reflétée dans les fonctions démarcative et
modaledelaprosodie,maiscelle-ciassureégalementunefonctionexpressive,etdé-
pend aussi du nombre de syllabes ainsi que de la vitesse d’élocution. Donner à un
même énoncé un grand nombre de variantes de contours mélodiques, c’est précisé-
ment toutl’art de l’acteur. La prosodieest unmécanismemultidimensionnel,à plu-
sieursentrées.
Lasynthèsede paroleajouéunrôle fondamentalpourles recherchessurla pro-
sodie, car elle a révéléà quel point les fonctions prosodiquesétaient variéeset fon-
damentales dans de la parole véritable. Ce domaine, qui avait été plutôt négligé en
linguistique saufdansle cas deslanguesà tons, réapparudanstoute sa complexité:
ainsi,denombreusesétudessurlaphonologieetlaphonétiquedel’intonationsesont
constituéespourdiverseslangues,àpartirdesannées70,entreautressouslapression
delapiètrequalitéd’uneparolesynthétiquequifaisaitl’économiedelaprosodie.
On peut arguer que la prosodie véhicule la substance plus que la forme .
(cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4)
Cependant,dansl’étatactueldenosconnaissances,lamachinen’apasaccèsausens,
pourletout-venantdestextes.Aucontraire,lacomposanteprosodiqued’unsystème
de synthèsepeutrecevoir desinformationsutilesd’unanalyseursyntaxiquerobuste,
rapide et déterministe – une seule façonde lire une phrase est prévue. Pour un sys-
tème de synthèse, l’enjeu est de rendre compte d’un grand nombre de faits, et non
de sélectionnerles phrases grammaticales d’une langue, définies comme des candi-
dats éligibles, et de rejeter les autres. Dans ce cadre, la syntaxe (prise ici au sens
large) est apparue très vite comme une donnée essentielle pour définir la prosodie
d’unénoncé,oudumoinssondécoupageenconstituantsprosodiques.Dès1975,dans
[CHO75, LIE77] la succession des mots et de leurs catégories est utilisée afin de
synthétiserlaprosodiedansunsystèmeautomatiquedesynthèsedelaparoleàpartir
du texte. Il s’agissait alors de prendre en compte la distinction entre mots pleins et
motsvides(ou motsoutils ), pourdéfinirlessuitesdemotsécritsqui formentun
(cid:3)(cid:3) (cid:4)(cid:4)
même groupe prosodique: une analyse superficielle en constituants syntaxiques est
ainsiréalisée.Ce procédés’estrévélétrèsrentable,puisqu’uneanalyserudimentaire
(une simple liste de mots outils), de complexité très faible, fournit des constituants
quisontsouventtoutàfaitacceptables.C’estcetyped’approchequiserautiliséparla
suitedansdenombreuxsystèmesjusqu’àaujourd’hui,maisdefaçonplusapprofondie,
etmieuxjustifiéelinguistiquement,danslecadredesgrammairesdedépendance.
Grammaireentronçonspourlaprosodie 117
Issue des travaux de Tesnière [TES59], une grammaire de dépendance est bien
adaptéepourdesapplicationsàgrandeéchelle.Desexemplesensont,pourlasynthèse
dufrançais,[LAR89,BAI89,VER90,CON91],ainsiquelesystèmeduLIMSIpré-
sentéici.CommelerappelleEjerhed[EJE88],mêmelesanalyseursàlargecouverture
sontd’unintérêtàlafoispratiqueetscientifique.C’estpourquoinousvoyonsaujour-
d’hui resurgir les techniques empiriqueset statistiquesen vogue dansles années50
[CHU88].L’apprentissageautomatiqueduparenthésageprosodiqueaétérendupos-
sible par le fait qu’on dispose maintenant d’importantes quantités de données (par
exemple[OST94,SHA96,BLA97,VER97]).
En comparaison avec d’autres systèmes récents qui utilisent également des ana-
lyse syntaxiques pour la prosodie en français, comme [VAN99, VER97, DIC98],
nousavonsplutôtprivilégiélescritèresstructurelsparrapportauxprobabilités,etune
approcheintensive,fondéesurdesrèglesplutôtquesurle lexique.Danscequisuit,
nous proposonsune grammaireen tronçonsdu français,inspirée desgrammairesde
dépendance(notammentdanslerôlepivotaccordéauverbe,siègedelaprédication).
Nousavonségalementtentédedécriredefaçonpratiqueetexplicitelesheuristiques
etlesrèglesutiliséespourl’analysesyntaxiqueetlagénérationdelaprosodie:ainsi,
cetravaildevraitpouvoirêtreaisémentdupliquéetaméliorépard’autreschercheurs.
Cet article est organisé comme suit. Section 2, l’analyseur superficiel (shal-
(cid:3)(cid:3) (cid:4)(cid:4)
low parser) est présenté: nous ne discuterons pas la tokenisation (segmentation en
phrases et en mots);desméthodes nonlexicalistes sontproposéespourl’étiquetage
morpho-syntaxique(outagging),utilisantun dictionnaire partielde mots outils, ad-
jectifsantéposableset formesverbales,ainsiquedesinformationssurles suffixeset
des règles de désambiguïsation. Le parenthésage prosodique est ensuite abordé: il
consiste àsegmenter les phrases en séquences nonrécursives, définiesen termes de
catégoriespossibles.
Section 3, l’interface syntaxe-prosodie est exposée: des règles sont présentées
pour l’accentuation et la génération de la prosodie. La méthode préconisée consiste
àsimplifierla courbeoriginaled’intonationpar dessegments de droiteélémentaires
(suruneéchelletemps-fréquencesemi-logarithmique)etàclassifiercessegmentsen
unnombrerestreintdemouvementsstandard.Cetteprocédure,initialementproposée
pour le néerlandais [HAR91] (et depuis appliquée à l’allemand, à l’anglais britan-
nique, au russeetàl’arabe),élimineainsiles détailsles moinspertinents.Elleaété
conduiteendeuxétapes(stylisationetstandardisation),surlabasedecritèrespercep-
tifs:unesériedetestsaprouvélavaliditédecetteschématisation[BEA94].Pourles
durées,lemodèleestencomparaisonrelativementsimple.
La section 4 est consacrée à des expériences: des mesures quantitatives sur les
tronçonsdéfinisparlesfrontièresprosodiquessontprésentées,demêmequ’unecom-
paraisondenotreapprocheavecuneapprocheuniquementfondéesurlesmotsoutils
etlaponctuation.Lasection5discutelesrésultatsetconclut.
118 TAL.Volume42-n(cid:2) 1/2001
2. Analysesyntaxique
2.1. Étiquetagemorpho-syntaxique
Unanalyseursyntaxiquerobuste,capabledetraiterlesnéologismesetleserreurs
d’orthographeoud’accord,aétéproposédans[VER90]etreprisdans[VAN99]:il
utiliseuniquementundictionnairepartiel.Commedansunegrammairedecontraintes
[KAR90],lesrèglesmorpho-syntaxiquesrésultentdecorpusobservés.Unparenthé-
sageprosodiqueutilisantunpetitdictionnaireavecdesrèglessurlessuffixes[OSH87]
et/ou identifiant les mots outils [QUE92, QUA89] a également été exploré dans la
communautédutraitementautomatiquedelaparole,pourl’anglais,lenéerlandaiset
l’italien.
Dansnotrecas,ledictionnairecontient:
1.despronoms,
2.desdéterminants,
3.desprépositions,
4.desconjonctions,
5.desadverbes(unmillier)auxquelsdesadverbesen-mentontétéajoutés,
6.desformesverbales(environ60000,issuesdeBDLEX[PER92]),
7.desadjectifsantéposables(unmillier)carlesadjectifsenfrançaisapparaissent
enmajoritéaprèslenom,mais1/3decasd’antépositionpeutêtreobservé).
Cedictionnaireest complétépar unelistede 340terminaisonsqui permettentde
déduirelacatégoriegrammaticale:parexemple,lesuffixe-ieuseindiquetoujoursun
adjectif féminin singulier.Les mots non identifiés se voient attribuer l’étiquette par
défautnom–lesnomspropresetlessiglesnotamment.
Siuneetuneseulecatégorieestaffectéeauxmots,leproblèmemajeurestbiensûr
celuidelapolycatégorie.Touslesverbes,parexemple,ontlamêmeformeàla (cid:5)(cid:7)(cid:6)(cid:9)(cid:8) età
la (cid:8) personnedusingulier,auconditionnelprésentouàl’imparfaitdel’indicatif.Des
(cid:10)
classesmixtesontdoncétéintroduites.Unecentained’homonymies(outrecellesavec
les noms) est également notable, entre adjectifs antéposables, mots outils et formes
verbales.
Dansl’ensemble,notre dictionnaireprivilégieles adjectifs antéposables par rap-
portauxmotsoutils,etlesmotsoutilsparrapportauxformesverbales.Parexemple,
célèbre, qui peut être une forme du verbe célébrer, est plutôt considéré comme un
adjectif,sur labase d’importantscorpus dujournalLe Monde.Decettemanière,un
certainéquilibreestrétabliparrapportànotredictionnaire,quidonneungrandpoids
auxformesverbales.
À l’intérieurde la classe desmots outils, les cas d’homonymie tels que ce, leur,
en,s’doiventêtredésambiguïsés.Lesétiquetteslesplusfréquentessonttd’abordassi-
gnées,dansunephased’amorce(bootstrapping),toujoursàpartird’importantscorpus
Grammaireentronçonspourlaprosodie 119
du journal Le Monde; puis d’autres étiquettes possibles sont analysées, en fonction
d’ensembles d’étiquettes pour les mots suivants. Ces étiquettes les plus fréquentes
sont,dansunordredécroissantdepréférence:
préposition conjonction adverbe déterminant pronom.
(cid:11) (cid:11) (cid:11) (cid:11)
Cette contrainte n’est pas très éloignée de l’heuristique suggérée par J. Vergne
dans le cadre de l’action GRACE [ADD99]. Par exemple, en reçoit l’étiquette par
défautpréposition,etestconsidérécommeunpronomsilemotsuivantestunverbe
conjugué :nousentendonsparlàunverbeàl’indicatif,ausubjonctif,auconditionnel
ouàl’impératif.Exemple:
ellen’enveutpas.
Examinonsplus en détail les cas d’homonymie que représentent le, la, les, leur,
l’, qui concernent près d’un mot sur dix en discours, et qui est un obstacle notoire
pourtouteanalyseautomatiquedufrançais.Ilsreçoiventl’étiquettepardéfautdéter-
minant, mais peuvent aussi être des pronoms – normalement placés avant le verbe
en français.La désambiguïsationde ces mots (désormais désignéspar det/P)suit le
principe de l’ensembledes catégories possibles (commele parenthésagesyntaxique
quenousverronsci-dessous),avecunregardenavant.Silemotsuivantestunverbe
transitifouauxiliaire,unpronompersonnelcomplémentouleurlui-même,suivipar
unverbetransitifouauxiliaire,ledet/Pambiguestconsidérécommeunpronom.Bien
sûr,cettecontrainten’estpassystématique :danslemanger,parexemple,lepeutêtre
undéterminant(cf.4.2.).
Sielledérangeparsafréquence,cettehomonymieestmoinsgravequecelleentre
verbe et non-verbe, qui concerneplus de 2 000 entrées différentesde BDLEX avec
formes fléchies. Cette ambiguïté a été encodée dans le dictionnaire, de même que
l’information intransitif à partir de [BES90]. Ainsi six heuristiques, négatives et à
caractère distributionnel,ont-ellesétédéployées,pourfairebasculerunmotd’abord
reconnu comme verbe conjugué dansla catégorie nom. Provenant d’une analyse de
corpusetderecoupementsavecdesétudesprécédentes[CON91],ellessontdutype
utilisédanslesgrammairesdecontraintes[KAR90].
Heuristique1: aprèsunepréposition,ilnepeutyavoirunverbeconjuguéquiensoit
séparéparrien,par lemotenoupar uneséquencenominalesansnometsans
pronom possessif – on comprendra, dans la sous-section suivante, que l’éti-
quetage morpho-syntaxiquene présuppose pas le parenthésage en séquences.
Exemples:
sanslemauvaissort
avecenpoche
Heuristique2: aprèsunverbe,ilnepeutyavoirunverbeconjuguéquiensoitséparé
parundet/P,parlemotenouparuneséquencenominalesansnom.Exemples:
120 TAL.Volume42-n(cid:2) 1/2001
ilvoitmallapetitemarche
iln’estpasenmesure
Heuristique3: immédiatementaprèsundet/Poulemotenendébutdephrase,ilne
peutyavoir unverbeconjugué,sionn’apasaprèsunpronompersonnelsujet
(inversé).Exemples:
Laporteétroitevslaporte-t-il
Encours,vsencours-tulerisque
Heuristique4: immédiatementaprèsundet/P,ilnepeutyavoirunverbeintransitif
conjugué.Exemple:
etlevoyage
Heuristique5: immédiatementaprèsundéterminantautre qu’undet/P,il nepeuty
avoirunverbeconjugué.Exemple:
maisunavantageindéniable
Heuristique6: immédiatementaprèsunadjectifantéposableaupluriel(resp.singu-
lier),ilnepeutyavoirunverbeconjuguéàla2(cid:8) personnedusingulier(resp.à
la (cid:8) personnedupluriel).Exemple:
(cid:12)
lespetitesbrises
Les heuristiques 1, 2 et 3 ont la priorité sur la désambiguïsationdes det/P et du
moten.Exemples:
aimerladansepourladanse
êtreendemeureenlademeure
D’autres exemples, qui ne sont pas acceptables, sont fournis dans la section 4.2
(Évaluationdel’analyseursyntaxique).
2.2. Parenthésagesyntaxique
Commel’étiquetagemorpho-syntaxique,leparenthésagesyntaxiquetiresonins-
pirationdestravauxdeVergne[VER90],reprisdans[VAN99].Lesphrasessontdé-
coupées en séquences nominales,verbales et transjonctives . Le terme générique
(cid:3)(cid:3) (cid:4)(cid:4)
de transjonctif ,quenousintroduisonsenréférenceàlatranslationetàlajonction
(cid:3)(cid:3) (cid:4)(cid:4)
de Tesnière,englobelesprépositions,lesconjonctions,lespronomsrelatifs,certains
adverbesetsignesdeponctuationcommelavirguleetlesparenthèses.Rappelonsque
la connection (i.e. le lien qui existe entre deux mots), la jonction (juxtaposition ou
coordination)etlatranslation(éclairantlescomplémentsdunometlespropositions
relatives)sontlesstructuressyntaxiquesfondamentalesdeTesnière.
Grammaireentronçonspourlaprosodie 121
Lesséquencessontfaitesdemotscontigus,etnesontpasrécursives.Parexemple,
une belle vue de Paris est décomposéen trois séquences: une belle vue (sé-
(cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4)
quence nominale), de (séquencetransjonctive)et Paris (séquencenominale).
(cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4)
Decettenonrécursivité,nousvoulonscommejustification(psycho)linguistiquelefait
quel’enchâssementestlimitédanslalangue.Lespropriétésrécursivesdulangagesont
d’ailleurssujettesàcaution:commel’écritP.Mertens: Souventunlocuteurentame
(cid:3)(cid:3)
unephrasesanssavoircommentellefiniraetdèslorssansavoiràl’espritsastructure
syntaxiqueentière. [MER97].Enoutre,lesdépendancesentrelesséquencesrepré-
(cid:4)(cid:4)
sententunproblèmecomplexe,pouvantdemanderunaccèsaucontenulexicalouàla
sémantique:onpeutavoirdesdépendanceslointaines;onpeutcoordonnerdessujets,
desverbes,desobjetsetdesphrases.Notrechoixestdoncaussietsurtoutguidépar
desraisonsdesimplificationducalcul.
Nous nous sommes cantonnés aux dépendances entre les mots à l’intérieur des
séquences, ce qui nous rapproche des chunk grammars [ABN91], grammaires en
tronçons qui aboutissent à un partial parsing. La grammaire en tronçons consiste
simplement à diviser la phrase en segments. Elle est en partie inspirée d’études en
psychologie sur la durée des pauses, en lecture, et sur la structuration naïve de
(cid:3)(cid:3) (cid:4)(cid:4)
phrases. Fondée sur une analyse assez superficielle, non exhaustive, sa motivation
est égalementprocédurale.Siellediffèreles difficilesdécisionsd’attachementàune
étapeultérieure,cettegrammairepeutserviràladécouverted’unitésdetraduction,à
l’extractiond’informationouàlagénérationautomatiqued’index:danscedomaine,
laplupartdeseffortssesontconcentréssurl’identificationdesgroupesnominauxde
base[RAL95,ANB96].Semblablesauxtechniquesutiliséesdans[RAL95](issues
deBrill[BRI93]),desarbresdeclassificationetderégression(CART)ontégalement
étéappliquésdans[HIR96],pourpositionnerdesfrontièresintonatives.
Les grammaires en tronçons proposéesdans la littérature,qu’elles soientproba-
bilistes oupar règles,intègrentdestermescoordonnésoucertainssyntagmesprépo-
sitionnels,prenantainsiunedécisionderattachement.Pourla synthèsedela parole,
il semble illusoire de désirer énumérerla totalité des séquences possibles.Celles-ci
peuventêtreassezlongues(lorsd’uneconstructiondisloquéeavecunverbe àmon-
(cid:3)(cid:3)
tée notamment),et,inévitablement,certainesnouséchappent.Desurcroît,nouspou-
(cid:4)(cid:4)
vons avoir une approche plustolérante qu’en génération,suivanten cela [CON91],
qui ne parlepasde séquences maisde bandesgénéralisées nominalesetver-
(cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4)
bales.Labandenominalegénéralisée(BNG)sedéfinitcomme suitedemotscom-
(cid:3)(cid:3)
priseentredeuxmotsdutypejonctif,translatifoubienverbe ;et labandeverbale
(cid:4)(cid:4) (cid:3)(cid:3)
représenteleverbeetlesdifférentsélémentsqu’ilgouvernelocalement [CON91].
(cid:4)(cid:4)
Dansnotrecas,les séquencessontdéfiniespardesensemblesdecatégoriespos-
sibles (cf. tableau 1). Ceci peut certes être représenté par des règles de réécriture.
Cependant,exprimerlesséquencesentermesd’ensemblesdecatégoriespossiblesest
beaucoupplussimpleetplusconcis,puisqu’ellesnecorrespondentqu’àunniveaude
parenthésage.
Les ensembles utilisés dans la définition des séquences ne sont pas disjoints: la
plupart des adverbes, par exemple, peuvent apparteniraux trois types de séquences.
122 TAL.Volume42-n(cid:2) 1/2001
séquencenominale séquenceverbale séquencetransjonctive
nom verbeconjugué préposition
adjectif infinitif conjonction
(pré)déterminant négation pronomrelatif
pronompossessif pronompersonnel ponctuation(,-)
adverbed’adjectif pronomadverbial
pronomindéfini
pronomdémonstratif
participe
adverbe(nondenégationnid’adjectif)
Tableau1. Définitiondescatégoriespossiblesdanslesséquencesnominales,verbales
ettransjonctives.
C’est le premier mot de la séquence qui décide, par propagation gauche-droite, les
séquencessétantexaminéesdansl’ordretransjonctive-nominale-verbale.Ainsi,siun
adverbe(nondenégationnid’adjectif)estendébutdephrase,ilouvreuneséquence
transjonctive.Unadverbe(autrequepasetpoint)estunadverbed’adjectifsilemot
suivantimmédiatementestunadjectif.
Une table indiquant qu’entre deux catégories successives (dont la première peut
être débutdephrase ),onpassed’untypedeséquenceàunautre,nepeutgénérer
(cid:3)(cid:3) (cid:4)(cid:4)
cetteanalyse,pasplusqu’unalgorithmetelquechinks’nchunks[LIB92],quin’est
qu’unedétectionmodifiéedemotsoutils.
On note que la classe traditionnelle des pronoms a été subdivisée en plusieurs
catégories:lespronomspossessifs(danslesséquencesnominales),lespronomsper-
sonnels,adverbiaux(enety),indéfinisoudémonstratifs(danslesséquencesverbales)
etlespronomsrelatifs(danslesséquencestransjonctives).Outrelefaitquedanscer-
taines langues (tellesquel’espagnol,l’italienou l’arabe),lepronompersonnelsujet
estfacultatif,etqu’enfrançaislesujetn’estqu’apparentdansdesphrasescomme il
(cid:3)(cid:3)
pleut(descordes) ,deuxargumentsnousontsemblémiliterenfaveurd’unrattache-
(cid:4)(cid:4)
mentdupronompersonnel,adverbial,indéfinioudémonstratifàlaséquenceverbale.
D’unepartlepronom(aussibiensujetquecomplément)peuts’inséreraumilieud’un
groupeverbal (ex. Paul net’a pasvu,as-tuvuPaul?).D’autrepart, iln’estsouvent
quelarepriseanaphoriquedusujet(ex.monpère,ilavuPaul...).
Pour chaque phrase en entrée, l’analyse peut fournir une partition de la chaîne
écrite en trois types de séquences (nominales, verbales et transjonctives) qui ne se
chevauchentpas,ainsiqu’unalignementdemotsetdepartiesdudiscours.Cetteopé-
ration dirigée par les données (data-driven) utilise des contraintes locales, faciles à
implémenterdansunautomated’étatsfinis.L’algorithmeprocèdephraseparphrase,
etestdecomplexitélinéaireparrapportaunombredemots.
Grammaireentronçonspourlaprosodie 123
3. Interfacesyntaxe-prosodie
3.1. Unemethodologieascendante
Lasortie de l’analyseur syntaxique,qui comprendune suite de séquences repré-
sentant la phrase donnée en entrée ainsi que la catégorie grammaticale de chaque
motetlamodalité(assertiveouinterrogative),estconnectéeàdesrèglesprosodiques,
commedécritfigure1.Lesrèglespourlagénérationautomatiquedelaprosodiesont
organiséesentroismodules:
–unmodulesyntaxique:
-pour délimiter des unités prosodiques virtuelles, de taille variable, et leur
associerunefrontièrespécifique,
-pour fournir les catégories morpho-syntaxiques qui serviront à générer les
accents;
–unmodulephonotactique,pourprendreencomptelescontraintesrythmiqueset
lesphénomènesdedésaccentuation(voirenparticulierlesrègles10et11);
–unmodule phonético-acoustique,permettantde lier la structureprosodiquede
surface aux paramètres de mouvements mélodiques,pauses dans certainscas, et al-
longement.
Cetensemblederèglesaétéélaboréensuivantuneméthodologieinductive(bottom-
up), à partir de l’inspection d’un corpus d’apprentissage de 220 phrases isolées. La
constructiondececorpusaprisenconsidérationdescontraintessyntaxiques(moda-
lité,inversion,dislocation,natureetfonctiondesgroupes),morphologiques(structure
desmots),distributionnelles(positiondesmots),phonotactiques(nombredesyllabes)
etphonétiques(ilaétéévitédefairecommencerunmotparuneocclusivesourde,afin
declairementdistinguerlespauses).Cecorpusaétéluparunlocuteurparisien,àun
débitd’élocution normal ,etavecuneintonation neutre (sansemphase,quine
(cid:3)(cid:3) (cid:4)(cid:4) (cid:3)(cid:3) (cid:4)(cid:4)
véhiculepasd’émotion):ainsilestyledeprosodieest-ilsimple,etenrelativeadéqua-
tionaveclasyntaxe.Desmesuresdemoyenneausensstatistiqueontétéeffectuées,et
différentesexpériencesontétéconduites,oùl’ondemandaitàdessujetsdecomparer
desstimuli,oudetranscrirelesproéminencesaccentuellesperçues.
Cette section décrit les contraintes syntaxiques et phonotactiques utilisées pour
enrichirlachaînephonématiquedemarqueurspourleparenthésageprosodiqueetle
calculdelastructureaccentuelle.Lastratégieconsidéréesesitueentrelespropositions
extrêmesquiprônentl’uneunerelationbijectivetotaleentrestructuressyntaxiqueset
prosodiques,l’autrel’indépendancecomplètedesdeux,supposantla prosodieentiè-
rementdirigéeparlescontraintesrythmiques.
124 TAL.Volume42-n(cid:2) 1/2001
Figure1.DiagrammeblocdusystèmedesynthèseduLIMSI
Description:prosodiques ont montré l'avantage de cette grammaire sur une approche MOTS-CLÉS : grammaire en tronçons, parenthésage prosodique, 7 tX ksikasj4X ki#da/@ p9a7 /U zø/CR # ae/@ t/CED e/CH t9a7 dulu/@G9 /@I øz./UV.