Table Of ContentLe raisonnement bayésien
Modélisation et inférence
Springer
Paris
Berlin
Heidelberg
New York
Hong Kong
London
Milan
Tokyo
Éric Parent
Jacques Bernier
Le raisonnement bayésien
Modélisation et inférence
Éric Parent
AgroParisTech/ENGREF
19, avenue du Maine
75732 Paris Cedex 15
Jacques Bernier
Le Pech-de-Biaud
24250 Saint-Martial-de-Nabirat
ISBN : 978-2-287-33906-6 Springer Paris Berlin Heidelberg New York
© Springer-Verlag France, Paris, 2007
Imprimé en France
Springer-Verlag France est membre du groupe Springer Science + Business Media
Cet ouvrage est soumis au copyright. Tous droits réservés, notamment la reproduction et la représentationla
traduction, la réimpression, l’exposé, la reproduction des illustrations et des tableaux, la transmission par voie
d’enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conserva-
tion des banques de données. La loi française sur le copyright du 9septembre 1965 dans la version en vigueur
n’autorise une reproduction intégrale ou partielle que dans certains cas, et en principe moyennantle paiement
de droits. Toute représentation, reproduction, contrefaçon ou conservation dans une banque de données par
quelque procédé que ce soit est sanctionnée par la loi pénale sur le copyright.
L’utilisation dans cet ouvrage de désignations, dénominations commerciales, marques de fabrique, etc. même
sans spécification ne signifie pas que ces termes soient libres de la législation sur les marques de fabrique et la
protection des marques et qu’ils puissent être utilisés par chacun.
La maison d’édition décline toute responsabilité quant à l’exactitude des indications de dosage et des modes
d’emploi. Dans chaque cas, il incombe à l’usager de vérifier les informations données par comparaison à la
littérature existante.
Maquette de couverture : Jean-François Montmarché
Collection
Statistique et probabilités appliquées
dirigée parYadolah Dodge
Professeur Honoraire
Université de Neuchâtel
Suisse
[email protected]
Comité éditorial :
Christian Genest Stephan Morgenthaler
Département de Mathématiques École Polytechnique Fédérale
et de statistique de Lausanne
Université Laval Département des Mathématiques
Québec GIK7P4 1015 Lausanne
Canada Suisse
Marc Hallin Gilbert Saporta
Université libre de Bruxelles Conservatoire national
Campus de la Plaine CP210 des arts et métiers
1050 Bruxelles 292, rue Saint-Martin
Belgique 75141 Paris Cedex 3
France
Ludovic Lebart
École Nationale Supérieure
des Télécommunications
46, rue Barrault
75634 Paris Cedex 13
France
Dans la même collection :
– Statistique. La théorie et ses applications
Michel Lejeune, avril 2004
– Le choix bayésien.Principes et pratique
Christian P.Robert, novembre 2005
– Maîtriser l’aléatoire.Exercices résolus de probabilités et statistique
Eva Cantoni, Philippe Huber, Elvezio Ronchetti, novembre 2006
– Régression.Théorie et applications
Pierre-André Cornillon, Éric Matzner-Løber, janvier 2007
Préface
Faire de la statistique bayésienne a été, du moins en France, longtemps
considéré comme adhérer à une église : une affaire de foi avec les querelles de
chapelle qui s’ensuivent. Étant agnostique en la matière, je confesse le grand
plaisirquej’aieuàlirecelivreetàenrédigerlapréface,d’autantplusquecela
me donne l’occasion de rendre hommage à l’un des auteurs qui m’a beaucoup
appris quand j’étais étudiant.
Curieuse situation en vérité que celle de la statistique bayésienne alors que
chacun s’accorde à considérer qu’il faut prendre en compte, dans une prévision
ou une estimation, les informations que l’on peut avoir a priori.
L’expression a priori signifie ici préalablement à une nouvelle expérience,
enquête, etc.etnonausensd’uneopinionpréétablieetnonprouvée(Monsieur
vous avez des a priori...).
L’utilisationd’uneinformationpréalablefigured’ailleursdansdesapproches
classiques delastatistique,enparticulierenthéoriedessondagesoùlapriseen
compted’informationsauxiliairesjoueungrandrôle,àlafoispourconstituerle
pland’échantillonnage(stratification)oupouramélioreraprèscouplesestima-
tions (les fameux redressements). Malgré l’abondance d’informations a priori,
je n’ai encore jamais vu utiliser d’estimation bayésienne pour des intentions
de vote ou des indices de popularité : on continue à utiliser des estimations
fréquentistes basées sur les seules données de la dernière enquête alors que l’on
saitpertinemmentquelepourcentagedevoixdetelcandidataudeuxièmetour
des élections présidentielles ne sera pas inférieur à 40 % ni supérieur à 70 % et
n’est pas n’importe quelle valeur comprise entre 0 et 1!
Pourquoi cette, sinon méconnaissance, du moins réticence à employer l’ap-
proche bayésienne? Très vraisemblablement cela provient de la suspicion que
l’on peut avoir à l’encontre de la conception subjectiviste des probabilités que
l’on associe à la démarche bayésienne : si chacun peut avoir sa distribution de
probabilitéquireflètesescroyances,alorscommententirerdesconclusionsac-
ceptablespartous?Unautrehandicap,d’unenaturetoutedifférente,étaitque
lescalculsdesdistributionsprédictivesétaientd’unecomplexitédécourageante,
mais les performances des ordinateurs ont rendu faisables des procédés de si-
mulationsefficacesetladisponibilitédeprogrammesinformatiquesachangéla
donne.
Undesméritesdecetouvrageestdemontreravecungrandnombred’exemples
viii Le raisonnement bayésien
tirés de la vaste expérience des auteurs, comment on peut modéliser de façon
naturelle les distributions a priori et en tirer des inférences adéquates. Les
auteurs réalisent le tour de force pour qui n’est pas bayésien, de présenter
l’approche bayésienne comme une démarche objective.
Ils’agitdoncd’unvéritableprécisdemodélisation,nepassantaucunaspect
soussilence:lelecteur,j’ensuissûr,apprécieralespartiesconsacréesaucalcul
bayésien. Les auteurs ne sont pas tombés dans le travers, trop fréquent dans
de nombreuses publications, qui consiste à s’intéresser plus aux techniques de
simulation qu’au problème à résoudre.
La rigueur et la qualité pédagogique de cet ouvrage devraient certainement
contribuer à la diffusion de cette approche et à une meilleure prise en compte
du raisonnement probabiliste dans les décisions.
Quelques mots pour conclure : la statistique bayésienne donne un cadre
formel séduisant, peut-être l’ultime rationalisation de la statistique classique
où tout est modélisé : paramètres comme observations. Il faut alors prendre
garde au risque de sur-modéliser et de confondre modèle et réalité. Observer
avant de modéliser, s’assurer de la robustesse ou résistance aux données erro-
néesouatypiques,validerlesprédictionssurdesdonnéesindépendantesrestent
des principes indispensables pour le praticien. Être ou ne pas être bayésien, là
n’est plus la question : il s’agit d’utiliser à bon escient les outils adaptés quand
cela est nécessaire.
Gilbert Saporta
Avant-propos
La statistique est un art interdisciplinaire de la quantification sous incerti-
tudes utilisé par les physiciens, les économistes, les ingénieurs, les géographes,
les biologistes, les assureurs, les psychologues, les météorologues, les gestion-
naires d’entreprises, etc. bref, tous les praticiens soucieux de bâtir, sur des
fondations solides, un pont entre théorie et données expérimentales. Depuis
un siècle, la statistique s’est considérablement développée, initiant une révolu-
tion dans les modes de pensée, car elle porte un langage de représentation du
mondeetdesesincertitudes.C’estaujourd’huiunesciencemathématiquedont
l’objectif est de décrire ce qui s’est produit et de faire des projections quant à
ce qu’il peut advenir dans le futur. Parfois, la situation peut être simplement
décriteparquelquesreprésentationsgraphiquesd’analyseélémentairedesdon-
nées. Bien souvent, le problème est beaucoup plus compliqué car de multiples
facteursd’influencedoiventêtreprisencompte.Schématiquement,onconstruit
deux ensembles avec ces facteurs. Un premier paquet contient les facteurs dits
explicatifs, bien identifiés, ceux dont on souhaite étudier l’influence en détail.
En ce qui concerne le second paquet de facteurs, on ne sait, ou on ne veut pas,
représenter leur effet perturbateur au cas par cas et, de ce fait, le jargon des
modélisateurslebaptisesousletermebruit,décritalorsdefaçonplusgrossière
par ses caractéristiques statistiques générales. Dans tous les cas, l’étude de la
variabilité est au centre des débats : il s’agit d’abord de caractériser l’influence
des facteurs identifiés et ensuite de représenter et d’évaluer le bruit résiduel dû
à ces autres facteurs non pris en compte dans l’analyse de façon explicite.
Dansunetellesituation,lestatisticienclassiqueutiliseàlafoisunraisonne-
ment déterministe par l’absurde, afin de proposer des valeurs acceptables pour
les paramètres décrivant les effets des facteurs explicatifs et un raisonnement
probabiliste,pourtraduirelavariabilitédesrésultatsobservésdueaubruit.Ce
mode de pensée s’appuie sur l’hypothèse de la réalité objective des paramètres
(etdoncdumodèlequilesdéfinit)ainsiquesurl’interprétationdelaprobabilité
comme limite des fréquences de résultats observés. C’est cette conception, dite
fréquentiste, qui est généralement enseignée dans les cursus de formation aca-
démique en France. A contrario, le statisticien bayésien utilise le même cadre
depenséepourtraiterparlepariprobabilistel’interactiondecesdeuxniveaux
d’incertitudes : ignorance quant aux valeurs possibles des paramètres et aléa
des bruits entachant les résultats expérimentaux.
x Le raisonnement bayésien
Choisir la piste bayésienne paraîtra à certains inutilement trop sophistiqué
si on se limite aux modèles élémentaires (binomial, normal, etc.) : pour ces cas
d’école simples, l’approche fréquentiste est facile (nombreux logiciels), passée
dans les mœurs (excellents cours de nombreux collègues), et offre au praticien
desrésultatssouventtrèsprochesdeceuxquedonneraituneanalysebayésienne
avec une distribution a priori peu informative. Mais pour peu que l’analyste
souhaite prendre à bras le corps des problèmes plus proches de son réel quo-
tidien, apparaissent variables multiples, données manquantes, effets aléatoires,
grandeurslatentes...breflastructuredesmodèlesdelaviescientifiquemoderne
seprésentesousuneformeoùdescouchessuccessivesdeconditionnements’em-
boîtent...etpourlesquelsl’approchebayésienneaffirmesavéritablepertinence.
Finalement, nous ne proposons dans ce livre rien d’autre que de tirer parti du
calcul des probabilités conditionnelles. Conditionner, telle est la clé qui ouvre
toutes les portes, à la fois pour la modélisation (où nous plaidons pour l’éla-
boration de modèles avec structures par couches) et pour l’inférence (où le
Bayésien exploitera les structures de conditionnement inverse).
Le livre est construit en deux parties :
– Lessituationsd’ingénieriesousincertitudespartagentdenombreuxpoints
communs. La première partie décrit les principes généraux de modélisa-
tion statistique permettant d’encadrer mais aussi de venir au secours de
l’imagination de l’apprenti modélisateur : sont mis en place les concepts
de décisions, d’informations, d’états de la nature et d’expertise. Dans ce
cadre décisionnel, l’approche bayésienne est présentée comme une ana-
lyse de sensibilité vis-à-vis d’un critère de risque. On décrit ensuite com-
mentlesmodèlescourantspeuventêtreconstruitssurlabasedequelques
conceptsgénéraux:conceptsdesymétrie,deparcimonieetd’entropieou
grâce aux théories de comportements asymptotiques. Enfin, le raison-
nement conditionnel permet la naissance de structures de modèles par
couches de variables latentes et nous décrivons les constructions condi-
tionnelles les plus utiles : données manquantes, modèles hiérarchiques,
modèles dynamiques, etc.
– L’inférence est le processus d’apprentissage qui permet d’identifier un
système en reconstruisant le vecteur des états de la nature à partir des
informations collectées au fur et à mesure. La formule de Bayes donne
la crédibilité à accorder à chaque paramètre sous la forme d’une distri-
bution conjointe de probabilités dite loi a posteriori. Malheureusement,
les modèles courants mettent en jeu de nombreux paramètres et, par
conséquent,ladistributiondeprobabilitéa posteriori estuneloimultidi-
mensionnelledontlaconstantedenormalisationseprésentesouslaforme
d’uneintégralemultiplecomplexe.Parailleurs,laboîteàoutilsstandard
desdistributionsdeprobabiliténedonnedesexpressionsanalytiquesque
pour un nombre trop restreint de distributions multidimensionnelles. La
seconde partie présente donc les méthodes de calcul de ces distributions
a posteriori, notamment les algorithmes de simulation Monte Carlo et
tout particulièrement ceux par chaînes de Markov (MCMC) qui se ré-
Description:Cet ouvrage expose de fa?on d?taill?e la pratique de l'approche statistique bay?sienne ? l'aide de nombreux exemples choisis pour leur int?r?t p?dagogique. La premi?re partie donne les principes g?n?raux de mod?lisation statistique permettant d'encadrer mais aussi de venir au secours de l'imaginatio