Table Of ContentModèle de vérification grammaticale automatique
gauche-droite
Agnès Souque
To cite this version:
Agnès Souque. Modèle de vérification grammaticale automatique gauche-droite. Linguistique. Uni-
versité de Grenoble, 2014. Français. NNT: 2014GRENL012. tel-01247368
HAL Id: tel-01247368
https://theses.hal.science/tel-01247368
Submitted on 4 Jan 2016
HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est
archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
THÈSE
Pour obtenir le grade de
DOCTEURE DE L’UNIVERSITÉ DE GRENOBLE
Spécialité : Sciences du langage, Spécialité Informatique et Sciences
du langage
Arrêtéministériel:7août2006
Présentéepar
Agnès SOUQUE
Thèse dirigée par Thomas LEBARBÉ
préparée au sein du Laboratoire LIDILEM – EA 609
dans l’École Doctorale no50 – Langues, Littérature et Sciences Hu-
maines
Modèle de vérification grammaticale
automatique gauche-droite
Thèse soutenue publiquement le 12 décembre 2014,
devant le jury composé de :
M. Thomas LEBARBÉ
Professeur,UniversitéStendhal-Grenoble3,Directeurdethèse
Mme Cécile FABRE
Professeur,UniversitéToulouse2-LeMirail,Rapporteur
M. Geoffrey WILLIAMS
Professeur,UniversitédeBretagneSud,Président
M. Olivier KRAIF
MaîtredeConférences,UniversitéStendhal-Grenoble3,Examinateur
Université Joseph Fourier / Université Pierre Mendès France /
Université Stendhal / Université de Savoie / Grenoble INP
ii
iii
Remerciements
Je tiens tout d’abord à remercier mon directeur de thèse, Thomas Lebarbé, de m’avoir fait
confiance pour mener cette thèse à bien et surtout à son terme.
Je voudrais ensuite remercier Cécile Fabre et Geoffrey Williams d’avoir accepté d’évaluer
mon travail et Olivier Kraif d’avoir accepté de faire partie de mon jury.
Un immensissime (c’est moche mais j’aime bien!!) merci également à Bad Cop et Good Cop,
sans le coaching desquels cette thèse n’aurait jamais connu de fin.
J’aimerais aussi dire, dans le désordre :
Un grand merci aux copines de galère, de poucave et de refaisage de monde dans le bureau,
Aïcha et Paulette;
Un grand merci aux copains des pauses du matin, du midi et de l’aprés-midi, pour les discus-
sions surnaturelles auxquelles elles donnent généralement lieu : Aïcha, Mathieu, Alexia, Thomas,
Ninie, Claude, Aurélie, Bubu, Cristelle, les 2 Isa, Monmon, Tiphaine, Vannina, Hoaï, Arno,
Sylvain, Paulette, Alex, Lucie, Eleni, et sûrement d’autres que j’oublie;
Un grand merci à la fine équipe de CEDIL2010, la petite Isa, Aïcha, Auriane et Tiphaine...
Trop bonne expérience que ce colloque avec vous les filles!
Un grand merci aux collègues du DIP et en particulier Maman Roseline pour sa gentillesse
(mêmesiellefaitdespouet-pouetquandonditdesgrosmots)etNinie,Thomas,Mathieu,Alexia
pour leurs facéties;
UngrandmerciàGégé,quim’aoffertl’asilequotidienetm’anourrie,toujourslegrognement
sourire aux lèvres! Et P’tit mouton, toujours de bonne humeur mais qui chante comme une
casserole;
Un grand merci à mes relecteurs attentifs et parfois psychopathes de la virgule : Paulette
(AINSI!), Ninie (on ne se base pas sa mère), Tiphaine, Vannina, Alex et la grande Isa;
Un grand merci à Math, pour ses jeux de piste dans ses relectures et ses méta-commentaires
désopilants. Tu dois avoir un sacré stock de pincettes!!;
Un grand merci à ma Lucy pour ses conseils en traduction;
Un grand merci à Thomas (et Sandrine), Gégé et leur chat caractériel respectif pour les
résidences d’été studieux;
Un grand merci à Cécile et Élisabeth pour m’avoir accueillie à la MSH;
Ungrandmerciàlacommunautéd’OpenOffice.org,etLaurentGodard,quim’ontparhasard
conduite à cette thèse;
Un grand merci à ma famille pour avoir composé avec la rareté de mes visites;
Un grand merci aux étudiants qui ont réalisé la dictée et les auteurs des mails, des résumés
et des commentaires de blog qui m’ont fourni la matière première de mon travail;
Un grand merci enfin à tous ceux que j’aurais involontairement oubliés...
Cordialement!;-)
iv
Table des matières
Liste des figures vii
Liste des tableaux ix
Conventions 1
Préambule 3
Partie I Problématique 5
1 Approche linguistique de la notion d’erreur de grammaire 7
1.1 Interprétation de la notion de grammaire . . . . . . . . . . . . . . . . . . . . 7
1.1.1 La grammaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 L’orthographe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Définitions de l’erreur et de la faute . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.1 Définitions générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.2 Erreur et faute en didactique des langues . . . . . . . . . . . . . . . . 20
1.2.3 Précisions terminologiques . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Interprétation informatique de l’erreur de grammaire 25
2.1 Mécanismes de gestion des erreurs tapuscrites . . . . . . . . . . . . . . . . . . 25
2.1.1 La vérification orthographique . . . . . . . . . . . . . . . . . . . . . . 26
v
vi Table des matières
2.1.2 La vérification grammaticale . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 De la grammaire académique à la grammaire en bureautique . . . . . . . . . 35
2.2.1 La grammaire des outils bureautiques . . . . . . . . . . . . . . . . . . 35
2.2.2 Les types d’erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Etat des lieux des outils et études sur les erreurs 39
3.1 Documentation et fonctionnement des vérificateurs existants . . . . . . . . . 39
3.1.1 Des outils très peu documentés . . . . . . . . . . . . . . . . . . . . . . 40
3.1.2 Un fonctionnement limité . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.3 Les utilisateurs livrés à eux-mêmes . . . . . . . . . . . . . . . . . . . . 45
3.2 Panorama des études sur les erreurs tapuscrites . . . . . . . . . . . . . . . . . 53
3.2.1 Les études existantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.2 Spécificité des tapuscrits . . . . . . . . . . . . . . . . . . . . . . . . . 57
Partie II Caractérisation des erreurs tapuscrites 61
4 Choix d’une approche corpus 63
4.1 Justification d’une approche corpus . . . . . . . . . . . . . . . . . . . . . . . 64
4.1.1 Définition de la notion de corpus . . . . . . . . . . . . . . . . . . . . . 64
4.1.2 Les corpus disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Méthodologie de constitution du corpus . . . . . . . . . . . . . . . . . . . . . 68
4.2.1 Caractéristiques communes des données . . . . . . . . . . . . . . . . . 68
4.2.2 Variété des scripteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.3 Variété des situations de scription . . . . . . . . . . . . . . . . . . . . 70
4.2.4 Variété des types de documents . . . . . . . . . . . . . . . . . . . . . 71
4.3 Caractérisation du corpus de l’étude . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.1 Écueils de la collecte des textes . . . . . . . . . . . . . . . . . . . . . . 72
vii
4.3.2 Contenu du corpus et représentativité . . . . . . . . . . . . . . . . . . 73
4.3.3 Positionnement de notre corpus . . . . . . . . . . . . . . . . . . . . . 75
5 Constitution du corpus 77
5.1 Recueil des textes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.1 Dictées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.2 Résumés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.1.3 Courriers électroniques . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.1.4 Commentaires de blog . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2 Normalisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.1 Stockage homogène des données . . . . . . . . . . . . . . . . . . . . . 81
5.2.2 Standards d’annotation : XML, TEI, CES . . . . . . . . . . . . . . . . 83
5.2.3 Normalisation des données . . . . . . . . . . . . . . . . . . . . . . . . 86
6 Annotation et analyse des erreurs 89
6.1 Typologies des erreurs et annotation descriptive . . . . . . . . . . . . . . . . 89
6.1.1 Adaptation de typologies existantes . . . . . . . . . . . . . . . . . . . 89
6.1.2 Balisage du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.1.3 Réajustements de la typologie . . . . . . . . . . . . . . . . . . . . . . 103
6.2 Analyse quantitative des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.2.1 Traitements statistiques des données . . . . . . . . . . . . . . . . . . . 109
6.2.2 Description quantitative du corpus . . . . . . . . . . . . . . . . . . . . 112
6.3 Résumé des principaux résultats . . . . . . . . . . . . . . . . . . . . . . . . . 136
Partie III Modélisation de la vérification grammaticale 139
7 Modélisation de la production et de la détection humaine des erreurs 141
7.1 La production du langage écrit . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.1.1 Les processus cognitifs mis en œuvre . . . . . . . . . . . . . . . . . . . 142
viii Table des matières
7.1.2 La production d’erreurs dans le corpus . . . . . . . . . . . . . . . . . 147
7.2 Révision du langage écrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7.2.1 Le processus de révision . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7.2.2 Hypothèses sur la manière de détecter une erreur . . . . . . . . . . . . 163
7.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8 Proposition d’un modèle pour la vérification grammaticale 175
8.1 Structure du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
8.1.1 Mécanisme de lecture gauche-droite . . . . . . . . . . . . . . . . . . . 176
8.1.2 Étiquetage morphosyntaxique . . . . . . . . . . . . . . . . . . . . . . 178
8.1.3 Segmentation en chunks . . . . . . . . . . . . . . . . . . . . . . . . . . 179
8.2 Des attentes aux piles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.2.1 Les valences de Tesnière . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.2.2 Les actants de Mel’čuk . . . . . . . . . . . . . . . . . . . . . . . . . . 186
8.2.3 Des attentes de différents niveaux . . . . . . . . . . . . . . . . . . . . 186
8.2.4 Un traitement par piles . . . . . . . . . . . . . . . . . . . . . . . . . . 188
8.2.5 Contenu des piles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
8.2.6 Portée des attentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.3 Ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
8.3.1 Règles de segmentation en chunks . . . . . . . . . . . . . . . . . . . . 193
8.3.2 Ressources pour les attentes . . . . . . . . . . . . . . . . . . . . . . . 193
8.4 Fonctionnement attendu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.4.1 Exemple de détection par une attente non comblée . . . . . . . . . . . 197
8.4.2 Exemples de détection par un échec d’unification . . . . . . . . . . . . 200
8.4.3 Rétroactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
ix
Conclusion et perspectives 205
Perspectives d’implantation du modèle 207
1 Un système multi-agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
2 Limitations du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
2.1 Complexité de la détection de certaines erreurs . . . . . . . . . . . . . 211
2.2 Des ressources complexes à élaborer . . . . . . . . . . . . . . . . . . . 213
3 La question des rétroactions explicites contextuelles . . . . . . . . . . . . . . 214
3.1 Quel contenu? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
3.2 Quelle représentation? . . . . . . . . . . . . . . . . . . . . . . . . . . 216
3.3 Prise en compte de la décision de l’utilisateur . . . . . . . . . . . . . . 217
4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Acronymes 221
Bibliographie 223
Annexes 239
A Tableaux de données 241
Description:gauche-droite. Agn`es Souque. To cite this version: Agn`es Souque. Mod`ele de vérification grammaticale automatique gauche-droite. Linguistique. Université .. 8.1.1 Mécanisme de lecture gauche-droite . Advances in applied psycholinguistics, volume 2 - Reading, writing, and language learning,.