Table Of ContentR
EVUE DE STATISTIQUE APPLIQUÉE
L. BELLANGER
D. BAIZE
R. TOMASSONE
L’analysedescorrélationscanoniquesappliquéeà
desdonnéesenvironnementales
Revuedestatistiqueappliquée,tome 54,no4(2006),p. 7-40
<http://www.numdam.org/item?id=RSA_2006__54_4_7_0>
©Sociétéfrançaisedestatistique,2006,tousdroitsréservés.
L’accès aux archives de la revue « Revue de statistique appliquée »
(http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi-
tions générales d’utilisation (http://www.numdam.org/legal.php). Toute utili-
sation commerciale ou impression systématique est constitutive d’une in-
fraction pénale. Toute copie ou impression de ce fichier doit contenir
la présente mention de copyright.
Article numérisé dans le cadre du programme
Numérisation de documents anciens mathématiques
http://www.numdam.org/
Rev.StatistiqueApplique´e,2006,LIV(4),7-40
L’ANALYSEDESCORRE´LATIONSCANONIQUES
APPLIQUE´EA` DESDONNE´ESENVIRONNEMENTALES
L.BELLANGER1,D.BAIZE2,R.TOMASSONE3
(1)De´partementdeMathe´matiquesJeanLeray–UMR6629,Universite´deNantes
BP92208,44322NantesCedex3.
[email protected]
(2)INRA,SciencedesSols,Centred’Orle´ans–BP20619,45166OlivetCedex.
[email protected]
(3)InstitutNationalAgronomique,De´partementdeMathe´matique,75231ParisCedex05.
[email protected]
RE´SUME´
L’analysedescorre´lationscanoniquesestunevieilleme´thodestatistiquesurtoutconnue
pour ses qualite´s the´oriques, puisqu’elle englobe de nombreuses autres me´thodes. Nous
essayons,danscetarticle,demontrerquel’interpre´tationdesre´sultatsqu’ellefournitn’estgue`re
plusdifficilequecelledeme´thodespluslargementemploye´escommelare´gressionmultipleou
l’analyseencomposantesprincipales.Dansledomainedesdonne´esenvironnementales,elle
pourraitconstituerunoutildere´fe´rencede`squ’ils’agitdemettreenrelationdesensembles
devariables.L’analyseestillustre´eparl’e´tudedesrelationsentrelateneurene´le´mentstraces
me´talliquesdegrainsdeble´ enfonctiondecertainescaracte´ristiquesdessolsou` lesble´sont
pousse´,enparticulierapre`se´pandagedebouesd’e´puration.
Mots-cle´s : analyse des corre´lations canoniques, re´gression, re´-e´chantillonnage, e´le´ments
tracesme´talliques,sol,ble´.
ABSTRACT
Canonicalcorrelationsanalysisisanoldmethodwellknownasakeyoneofalotof
others.Wetrytoshowthattheinterpretationofresultsitfurnishesisnomoredifficultthanother
ones,widelyused,asregressionorprincipalcomponentsanalysis.Forenvironmentaldatait
couldbeareferencetoolwhenrelationsbetweentwogroupsofvariatesareconcerned.Analysis
is illustrated by a study of relations between trace metals in wheat and soil characteristics,
particularlyaftersewagesludgespreading.
Keywords: canonicalcorrelationanalysis,regression,resamplingmethods,tracemetals,soil,
wheat.
8 L.BELLANGER,D.BAIZE,R.TOMASSONE
1.Introduction
Parmilesnombreuxproble`mesclassiquesdelaStatistique,celuidel’e´tudede
la relation entre variables est sans nul doute l’un des plus fre´quents : on calcule
le coefficient de corre´lation entre deux variables, on estime les parame`tres d’un
mode`le de re´gression d’une variable a` expliquer en fonction d’une ou plusieurs
autres (les re´gresseurs ou variables explicatives) pour tenter d’«expliquer» cette
variableete´ventuellementdelapre´direpourd’autresvaleursdesre´gresseurs.Quand
on dispose de deux groupes de variables une me´thode, l’Analyse des Corre´lations
Canoniquessouventappele´eAnalyseCanonique(ulte´rieurementnote´eACC),existe
depuisbienlongtemps[11].Bienquedenombreuxlogicielsoffrentunprogramme
pour re´aliser les calculs, elle ne semble pas be´ne´ficier d’une «bonne re´putation» :
peudepublicationsavecdesapplicationsl’utilisent.Lesarticleslesplusre´centsdela
RevuedeStatistiqueApplique´edatentdesanne´es1987-1992,encorequelescorpus
dedonne´esauxquelsilss’appliquentsoientdenaturediffe´rente[7],[20],[21],[15].
Est-ce une me´thode sans inte´reˆt, trop difficile d’emploi, pour tout dire
«maudite»?A` premie`revue,ilsembleraitquecesoitlecassinousreprenonsquelques
ouvrageslapre´sentant :
– «La me´thode d’analyse canonique ... pre´sente un inte´reˆt assez limite´ pour les
applications, car elle conduit a` de grandes difficulte´s d’application. Cependant
elle joue un roˆle the´orique important : en effet, elle constitue un cadre ge´ne´ral
dontlare´gressionmultiple,laplupartdesme´thodesd’analysedesdonne´es...et
l’analysediscriminantesontdescasparticuliers»[16],pp.275.
– «Si les applications directes de l’analyse canonique sont peu nombreuses, elle
n’enconstituepasmoinsuneme´thodefondamentalecarsade´marcheseretrouve
dans d’autres me´thodes comme l’analyse des correspondances ou l’analyse
discriminante»[22],pp.188.
– «Canonicalanalysisisoftencoolyreceiveddespitealackofsuitablealternatives».
«Surprisingly, substantive applications of these methods in ecology are few. In
practice, all too often other less suitable forms of analysis are pressed into
service for the purpose. Among these multiple regression analysis and principal
componentsanalysisarefrequentlyencountered»[10],pp.1.
– En 2004, les auteurs du plus re´cent des ouvrages tiennent le meˆme discours :
«Canonical correlation analysis is one of the less commonly used multivariate
techniques.Itslimitedusemaybedue,inpart,tothedifficultyoftenencountered
intryingtointerprettheresults»[1],pp.234.
Pourre´sumer,l’ACCestcaracte´rise´epar:
– uneinterpre´tationdesre´sultatssouventde´licate;
– mais un inte´reˆt the´orique essentiel fournissant un cadre unificateur a` un certain
nombred’autresme´thodes.
Nousnereviendronspassurlesecondaspectbienconnu,maisnousvoulonsa`
partird’unexemplemontrerqu’onpeuttoutdemeˆmeexploiterlesre´sultatsfournis
paruneanalysecanonique,meˆmesil’exploitationpeuts’ave´rercomplexe.
ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 9
Les donne´es que nous allons pre´senter proviennent d’une e´tude qui peut
s’apparentera` un«casd’e´cole»pourl’analysecanonique:en1998,leMiniste`rede
l’Ame´nagementduTerritoireetdel’Environnementalance´leprogrammeGESSOL
(FonctionsenvironnementalesdessolsetGEStiondupatrimoineSOL[3]).Unedes
questionsfondamentalesdeceprogrammee´tait:
«Est-ilpossibledebaˆtirdesmode`lespermettantdede´tecterparavancelescas
deconcentrationsexcessivesene´le´mentstracesme´talliques(ETM)danslesgrains
deble´ a` partirdedonne´espertinentesacquisessurdese´chantillonsdesol?».
Le proble`me est d’une extreˆme importance pour de multiples raisons lie´es
a` l’e´volution des pratiques agricoles; en particulier celle lie´e a` l’e´pandage de
boues d’e´puration riches en ETM [8] et aux pole´miques qui en de´coulent [23].
Actuellement, les publications sur le sujet [19], pour inte´ressantes qu’elles soient,
sontdescompilationsdere´sultatsd’essaisagronomiquessurdenombreusesplantes.
Les seules me´thodes d’analyse utilise´es sont la re´gression line´aire et l’analyse des
composantesprincipales.Lesre´sultatsstatistiquesdesre´gressionsselimitenta` une
e´quation, une valeur du coefficient de de´termination (R2), mais aucune analyse
critiquedelavalidite´ decesre´gressionsn’estfaite.
Nous allons d’abord pre´senter le corpus de donne´es qui doit nous aider a`
re´pondrea`laquestionpose´e( 2);nousrappelleronsensuitelade´marcheclassiquede
§
l’analysecanonique( 3)etnousdonneronsunepremie`reinterpre´tationdesre´sultats
§
( 4); enfin nous montrerons que des indices rarement utilise´s peuvent faciliter
§
l’interpre´tation( 5).
§
2.Lesdonne´es:ade´quationa` l’objectifduprogrammederecherche
2.1.Lecorpusdedonne´es
Il est constitue´ par un e´chantillon de n = 198 sites e´tudie´s selon le meˆme
protocole dans diverses re´gions de France. Il s’agit de sols agricoles «ordinaires»,
c’est-a`-direnonpollue´setn’ayantpasrec¸udebouesd’e´puration(saufunedouzainede
casparticuliers[8]).Ilsappartiennenta`18famillespe´do-ge´ologiquescontraste´es.Sur
chaquesite,desgrainsdeble´onte´te´re´colte´sa`maturite´sur1m2(varie´te´«Soissons»
ou«Tre´mie»).Aupiedduble´ainsire´colte´,l’horizondesurfacelaboure´dusolae´te´
e´galementpre´leve´.Surdese´chantillonsse´che´settamise´sa`2mmdeceshorizonsde
surface,nousavonsde´termine´ :
– 9 variables caracte´ristiques des proprie´te´s agro-pe´dologiques classiques : granu-
lome´trie5fractions(argile:A;limonfinetgrossier:LF,LG;sablefinetgrossier:
SF,SG)1,lecarboneorganique(CS),lepHmesure´apre`sagitationdansl’eau(pH),
lecalcaire(CaCO )etlacapacite´d’e´changecationique(CEC);cesvariablessont
3
desteneurs,sauflepHetlaCEC.
– 8variablesrepre´sentantlesconcentrationstotalesdesme´tauxdusolobtenuesapre`s
mise en solution par les acides fluorhydrique et perchlorique selon la norme NF
ISO14869-1:FeS,MnS,CdS,CrS,CuS,NiS,PbSetZnS.
1 A+LF+LG+SF+SG=100%,maisnaturellementpaslasommedeleurlogarithme.
10 L.BELLANGER,D.BAIZE,R.TOMASSONE
– et 8 variables qui sont les concentrations en me´taux extraits par deux re´actifs,
DTPA (Die´thyle`neTriamine-PentaAce´tique) et NH NO (nitrate d’ammonium),
4 3
choisis pour leur capacite´ a` atteindre seulement les formes chimiques les plus
re´actives et les plus susceptibles d’eˆtre absorbe´es par les racines des plantes.
Les quantite´s extraites au DTPA correspondraient plutoˆt aux me´taux associe´s
aux matie`res organiques et aux oxydes de fer, tandis que celles extraites par le
NH NO correspondraient plutoˆt aux formes me´talliques e´changeables, les plus
4 3
phyto-disponibles.Soit:CdD,CuD,PbDetZnD(pourDTPA),CdN,CuN,PbN
etZnN(pourNH NO ).
4 3
– 7 variables repre´sentant les concentrations dans les grains de ble´ en CdB, CrB,
CuB, FeB, NiB, PbB et ZnB. Notons que deux autres variables potentiellement
inte´ressantesMgBetMnBn’ontpueˆtremesure´esquesurles162premierssites.
Nousavonsdoncdeuxgroupesdevariables:
– 25variablesSOL:
A,LF,LG,SF,SG,CEC,CaCO ,CS,pH,CdS,CrS,CuS,FeS,MnS,NiS,PbS,
3
{
ZnS,CdD,CuD,PbD,ZnD,CdN,CuN,PbN,ZnN
}
– 7variablesBLE:
CdB, CrB, CuB, FeB, NiB, PbB, ZnB +2 MgB, MnB sur un e´chantillon de
{ } { }
moindretaille.
2.2.Difficulte´sapriori
Aveccecorpusdedonne´esest-ilpossibledere´pondrea`laquestionfondamen-
taleduprogrammeGESSOL:pre´voirlateneurenETMdegrainsdeble´ enutilisant
desdonne´esanalytiquesdel’horizondesurfacedusoldanslequelceble´ae´te´cultive´?
Unetellepre´tentionseheurtea` d’e´videntesdifficulte´sdeprincipe:
– cequisepasseauchampa` l’interfaceentrelesracinesetlasolutiondusoln’est
pasbiende´critpardesanalysesre´alise´esaulaboratoiresurdese´chantillonsdesol
se´che´settamise´sa` 2mm!
– leroˆledesautrescouchesdusol(horizonsprofonds)estcomple`tementne´glige´;
– les processus de redistribution des e´le´ments absorbe´s au niveau des racines vers
lesdiversorganesdelaplantenesontpasprisencompte;
– de meˆme que ne sont pas pris en compte les synergies et les antagonismes
intervenanta` l’e´chelledescellulesdesve´ge´taux.
Cependant de nombreux scientifiques dans le monde entier utilisent cette
approche car elle est tre`s simple a` mettre en œuvre. Nous ferons de meˆme tout en
sachantquenousnepourronspasde´criredefac¸onparfaitelarelationentrelesolet
leble´.
ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 11
2.3.Premiersregardssurlecorpusdedonne´es
Une question pre´alable a` l’analyse est le choix du corpus : doit-on travailler
sur les 198 sites ou sur les 162 qui ont l’avantage de contenir toutes les variables
importantesdisponibles?Iln’existepasdere´gleabsoluepourre´pondrea` cetypede
question.Silesdeuxcorpussontassezvoisins,ilestsansdoutepre´fe´rabledetravailler
surceluiquicontientdavantagedevariables,meˆmes’ilestdetailleplusre´duite.Les
36 sites qui sont exclus peuvent ulte´rieurement servir de donne´es comple´mentaires
pourvaliderlesre´sultats.
Lesdistributionsdechacunedes34variabless’e´tantave´re´estre`sdissyme´triques
(lesgrandesvaleurssontrelativementrares),unetransformationlogarithmiques’est
impose´e.Laconse´quenceimme´diatepourl’interpre´tationestquenousdevronspenser
a` desproduitsoudesrapportsdevariablesetnona` dessommesoudesdiffe´rences.
Unexamenplusde´taille´ montrequePbNn’aque43valeursdiffe´rentesdeze´ro;en
fait,lesvaleursnullessontde´critesparlelaboratoired’analysecomme«infe´rieuresa`
uncertainseuildequantification»,cequiestunedifficulte´classiquedanslesdosages
chimiques;cesontdesvaleursnullesoutre`sprochesdeze´ro;maiscenesontpasdes
donne´esmanquantes.Dansunee´tudedanslaquellenousallonsanalyserdesvariations
simultane´esdevariables,ilestpre´fe´rabled’e´liminercettevariable.Leproble`meest
sensiblementvoisinpourCaCO (47valeursdiffe´rentesdeze´ro);a`ladiffe´renceque
3
CaCO vaut effectivement ze´ro dans tous les cas ou` les sols ne sont pas calcaires.
3
Etant donne´ l’importance possible du carbonate de calcium, le pe´dologue souhaite
qu’onlaconserve.
Enconclusion,nousallonstravaillersurlecorpusden=162sitesavec:
– 24variablesSOL: A,LF,LG,SF,SG,CEC,CaCO ,CS,pH,CdS,CrS,CuS,
3
{
FeS, MnS, NiS, PbS, ZnS, CdD, CuD, PbD, ZnD, CdN, CuN, ZnN , ensemble
}
de´finiparunematriceX ,
162 24
×
– 9variablesBLE: CdB,CrB,CuB,FeB,NiB,PbB,ZnB,MgB,MnB ,ensemble
{ }
de´finiparunematriceY .
162 9
×
Laformedesdistributionsdecesdeuxensemblesdevariablesestfourniesurles
figures1et2.Nousaurionspulespre´sentersouslaformeclassiqued’histogrammes,
toutefoisellessontplus«parlantes»avecuneversionlisse´eobtenueparestimation
deladensite´(lelecteurinte´resse´pourraconsultersurcesujet[25](pp.132-138)).Ces
distributionssontd’autantplusinte´ressantespourlasuitedel’analysequeleurforme
est voisine de celle de la distribution Normale ou pour le moins syme´trique; c’est
le cas pour la majorite´ d’entre elles sauf pour CaCO (et nous avons vu pourquoi
3
ci-dessus) et pour PbB qui a aussi de nombreuses valeurs au-dessous du seuil de
de´tection. Certaines pre´sentent une bimodalite´ ge´ne´ralement peu marque´e. Notons
quelesfiguresobtenuespourles198sites(saufe´videmmentpourMgBetMnB)ont
toutes la meˆme allure; nous pouvons donc raisonnablement penser que les 36 sites
exclusnesontpastre`sdiffe´rentsducorpusquenousallonsmaintenante´tudier.
12 L.BELLANGER,D.BAIZE,R.TOMASSONE
FIGURE1
Distributionsdes24variablesSOL
FIGURE2
Distributionsdes9variablesBLE
ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 13
3.Principedel’analysedescorre´lationscanoniques
Pour e´tudier la relation entre deux ensembles de variables definis chacun par
une matrice X pour le premier et Y pour le second l’ACC va eˆtre un outil
n p n q
privile´gie´.Lenom×bredelignesndechaque×matriceestidentique;XapcolonnesetY
enq;noussupposeronsquerang(X)=petrang(Y)=q.Leslignesrepre´sentent
les individus ou les observations : une observation i est repre´sente´e par un vecteur
se´pare´ endeux:
x =[x ,...,x ]T ety =[y ,...,y ]T , (i=1,...,n)
i i1 ip i i1 iq
Lesdeuxmatricesdedonne´essontdonc:
X =[x1 ... xk ... xp] et Y =[y1 ... yl ... yq]
n p n q
× ×
ou` xk (resp.yl)estlevecteurvariabledecomposantesxik (resp.yil),(1 (cid:1) i (cid:1) n).
Les variables des deux groupes xk et yl, repre´sente´es par des vecteurs de Rn,
sontsuppose´escentre´es.Ainsi,lamatricedecovariancesexpe´rimentalesdesp+q
caracte`ress’e´crit:
S= 1 XTX XTY = S11 S12 , S =ST .
n(cid:2)YTX YTY(cid:3) (cid:2)S21 S22(cid:3) 12 21
3.1.Formulationclassique
L’ide´e initiale de Hotelling [11] a consiste´ a` rechercher deux combinaisons
line´airesl’unedex1,...,xp de´finieparunpremiervecteura` pcomposantesa ,
p 1
l’autre de y1,...,yq, de´finie par un second vecteur a` q composantes b , te×lle
q 1
que les vecteurs aT = [a ... a ... a ] et bT = [b ... b .×.. b ]
1 k p 1 l q
maximisentlecoefficientdecorre´lationentreu= X a etv= Y b vecteurs
n p p 1 n q q 1
deRn.uetvsontappele´svariablescanoniques,tand×isqu×elesvecteu×rsde×coefficients
a Rpetb Rq sontappele´sfacteurscanoniqu(cid:4)e(cid:5)s(cid:6).(cid:7)(cid:4)(cid:5)(cid:6)(cid:7) (cid:4)(cid:5)(cid:6)(cid:7)(cid:4)(cid:5)(cid:6)(cid:7)
∈ ∈
Onmontrequeceproble`mesere´sumeenfaita` :
– obtenir les vecteurs de coefficients a Rp et b Rq qui rendent maximal
cor(u,v)=r = 1aTXTYb ∈ ∈
n
– detellesortequelesdeuxcombinaisonline´airessoientdevariance1,soit:
aTS a=1
11
(cid:8)bTS22b=1
Lorqu’un premier couple de caracte`res u1,v1 a e´te´ obtenu, on recherche, un
deuxie`mecouple u2,v2 telquer =cor(u2,v2)soitmaximaletcor(u2,u1)=
2 (cid:9) (cid:10)
(cid:9) (cid:10)
14 L.BELLANGER,D.BAIZE,R.TOMASSONE
cor(u2,v1)=cor(v1,v2)=0etainsidesuite.Ilexisteaumoinss=min(p,q)
couplesdetelsvecteurs uk,vk .
(cid:9) (cid:10)
Matriciellement,leproble`meserame`nedonca`trouverdeuxmatricesdepoids:
A =[a1 ... ak ... as] etB =[b1 ... bl ... bs]
p s q s
× ×
permettantdecalculerdeuxmatricesn s,U= X A etV= Y B ,telles
×
n p p s n q q s
× × × ×
que la matrice de covariances de la matrice transforme´e [U V] ait la forme plus
(cid:4)(cid:5)(cid:6)(cid:7)(cid:4)(cid:5)(cid:6)(cid:7) (cid:4)(cid:5)(cid:6)(cid:7)(cid:4)(cid:5)(cid:6)(cid:7)
simple:
AT 0 S S A 0 I Γ
11 12 s
var[U V]= =
(cid:2) 0 BT (cid:3)(cid:2)S21 S22(cid:3)(cid:2) 0 B(cid:3) (cid:2)Γ Is(cid:3)
ou` :
Γ=diag(rk), 1(cid:2)r1 (cid:2)....(cid:2)rs (cid:2)0.
Larecherchedesdeuxmatricesdepoidsfournitsimultane´mentlesscoefficientsde
corre´lation;elles’obtientparlarecherchedessolutionsde:
S21S−111S21−γ2S22 b=0
(cid:9) (cid:10)
oude:
S12S−221S21−γ2S11 a=0
(cid:9) (cid:10)
Les quantite´s γ2 (k = 1,...,s), identiques dans les deux e´quations pre´ce´dentes,
k
donnentlescarre´sdescoefficientsdecorre´lationr = γ2entrelesdeuxvariables
k k
uketvk;touteslesvaleurspropresγ2(k =s+1,...,p)sontnulles(sinoussupposons
k (cid:11)
quep > q,doncques = q).Onpeutobtenirlesak a` partirdesbk ouinversement
lesbk a` partirdesak :
S−111S12bk = γkak
S−221S21ak = γkbk
Cesdeuxe´quationsontuneinterpre´tationinte´ressante:γ ak estlaprojectiondebk
k
surl’espacede´finiparlescolonnesdeX,espacedesvariablesdupremiergroupe,et
γ bk estcelledeak surl’espacede´finiparlescolonnesdeY,espacedesvariables
k
du second groupe. L’obtension des deux matrices de poids des variables de de´part
A etB permetalorsdecalculerlesvariablescanoniquesuk etlesvk.Less
p s q s
coe×fficients×de corre´lation r entre uk et vk s’appellent coefficients de corre´lation
k
canonique.
ANALYSEDESCORRE´LATIONSCANONIQUESSURDESDONNE´ESENVIRONNEMENTALES 15
3.2.Autrespre´sentations
Ilenexisteplusieurs;ellessontd’ine´galinte´reˆtmaisellespeuventfournirun
e´clairagecomple´mentairepourlecalculoul’interpre´tationdel’ACC.
Unepremie`reconsistedansl’utilisationdelade´compositionsingulie`red’une
matrice.Partantdelade´compositiondeCholeskidesdeuxmatricesde´finiespositives
S =PT P etS =PT P etende´finissantlanouvellematricededimension
11 11 11 22 22 22
p × q : C = PT11 −1S12P−221, a` partir de la de´composition singulie`re de cette
dernie`reC =L Θ M ,onobtientdirectementlesvariablescanoniques
p q p s s s s q
Un s =XP×−111(cid:9)Let×(cid:10)Vn s×=YP×−221MT dontlamatricedecovariancesest:
× ×
I Θ
s
(cid:2)Θ I (cid:3)
s
LestermesdelamatricediagonaleΘ,e´galea`Γ,donnentdirectementlescoefficients
decorre´lationcanoniquer .
k
Onpeutausside´riverlesvariablescanoniquesd’autresfac¸onspar:
– moindres carre´s [5] : si on cherche les matrices A et B qui minimisent la trace
de (XA YB)T (XA YB) ,lessolutionssontlesmatricesquenousavons
− −
trou(cid:12)ve´esdansl’approcheclassiqu(cid:13)edel’ACC.
– un mode`le line´aire ge´ne´ral multidimensionnel : le mode`le de re´gression line´aire
multidimensionnels’e´crit:
Y =X Φ +E
n q n p p q n q
× × × ×
danslequelYestunematriced’observationsdeqvariables,Xunematriceconnue,
Φ une matrice de parame`tres inconnus a` estimer et E une matrice de termes
ale´atoires. Si on a V = YB et U = XA on a V = UD+E, avec
n s n s
D=Γ=diag(r ),ce×quicorresponda`×lare´gressionmultidimensionnelledeV
k
surU.Onende´duitque:
V =U D +E =X A D +E
n s n s s s n s n p p s s s n s
× × × × × × × ×
Less(=q)colonnesdelamatricedeparame`tresΦ =ADrepre´sentent l’estima-
p s
tiondescoefficientsdere´gressiondechacunedesq×variablescanoniquesdusecond
groupe sur les p variables du premier; c’est la meilleure estimation, au sens des
moindrescarre´s.L’avantagedecetteapprochetienta` cequ’ellepre´cise,demanie`re
explicite,lastructurestochastiquedumode`le.Toutefois,ellee´clipsel’aspectsyme´tri-
quedelapre´sentationclassique,cepeuteˆtreunavantage,commedansl’e´tudeque
nous pre´sentons. Plus pre´cise´ment, avec les p valeurs x = [x ,...,x ]T et les
0 01 0p
parame`tresADnousconnaissonslessvaleursdesvariablescanoniquesu dupre-
0
miergroupe,doncaussiv cellesdusecondgroupeetparconse´quentlesq valeurs
0
y =[y ,...,y ]T;onobtientdoncy enutilisantlesparame`tresdelare´gressionde
0 01 0q 0
Ysurlesvariablescanoniquesdupremiergroupe.Donc,silapre´dictiondesvariables
Description:L'analyse des corrélations canoniques est une vieille méthode statistique surtout connue pour ses qualités théoriques, puisqu'elle englobe de