Table Of Content

Apprentissage incrémental anytime d’un classifieur Bayésien naïf pondéré C.Hue∗,M.Boullé∗,V.Lemaire∗ ∗OrangeLabsLannion,2avenuePierreMarzin,22300Lannion Résumé. Nous considérons le problème de classification supervisée pour des flux de données présentant éventuellement un très grand nombre de variables explicatives. Le classifieur Bayésien naïf se révèle alors simple à calculer et relativementperformanttantquel’hypothèserestrictived’indépendancedesva- riablesconditionnellementàlaclasseestrespectée.Lasélectiondevariableset lemoyennagedemodèlessontdeuxvoiesconnuesd’améliorationquireviennent àdéployerunprédicteurBayésiennaïfintégrantunepondérationdesvariables explicatives.Danscetarticle,nousnousintéressonsàl’estimationdirected’un telmodèleBayésiennaïfpondéré.Nousproposonsunerégularisationparcimo- nieusedelalog-vraisemblancedumodèleprenantencomptel’informativitéde chaque variable. La log-vraisemblance régularisée obtenue étant non convexe, nous proposons un algorithme de gradient en ligne qui post-optimise la solution obtenue afin de déjouer les minima locaux. Les expérimentations menées s’intéressentd’unepartàlaqualitédel’optimisationobtenueetd’autrepartaux performancesduclassifieurenfonctionduparamétragedelarégularisation. 1 Introduction Dufaitdel’accroissementcontinudescapacitésdestockage,lacaptureetletraitementdes donnéesontprofondémentévoluédurantcesdernièresdécennies.Ilestdésormaiscourantde traiter des données comprenant un très grand nombre de variables et les volumes considérés sonttelsqu’iln’estplusforcémentenvisageabledepouvoirleschargerintégralement:onse tourne alors vers leur traitement en ligne durant lequel on ne voit les données qu’une seule fois. Dans ce contexte, on considère le problème de classification supervisée où Y est une variable catégorielle à prédire prenant J modalités C ,...,C et X = (X ,...,X ) l’en- 1 J 1 K sembledesK variablesexplicatives,numériquesoucatégorielles.Ons’intéresseàlafamille desprédicteursdetypeBayésiennaïf.L’hypothèsed’indépendancedesvariablesexplicatives conditionnellement à la variable cible rend les modèles directement calculables à partir des estimationsconditionnellesunivariéesdechaquevariableexplicative.Pouruneinstancen,la probabilitédeprédirelaclassecibleC conditionnellementauxvaleursdesvariablesexplica- tivessecalculealorsselonlaformule: P(Y =C)(cid:81)K p(xn|C)wk P (Y =C|X =xn)= k=1 k (1) w (cid:80)Jj=1P(Cj)(cid:81)Kk=1p(xnk|Cj)wk Apprentissageincrémentalanytimed’unclassifieurBayésiennaïfpondéré On considère ici qu’une estimation des probabilités a priori P(Y = C ) et des probabilités j conditionnelles p(x |C ) sont disponibles. Dans notre cas, ces probabilités seront estimées k j danslesexpérimentationspardiscrétisationougroupageunivariéMODL(cf.(Boullé,2007)). Ces probabilités univariées étant connues, un prédicteur Bayésien naïf pondéré est décrit en- tièrement par son vecteur de poids des variables W = (w ,w ,...,w ). Au sein de cette 1 2 K familledeprédicteurs,onpeutdistinguer: - les prédicteurs avec des poids à valeur booléenne. En parcourant l’ensemble des com- binaisons possibles de valeurs pour le vecteur de poids, on peut calculer le prédicteur MAPàsavoirleprédicteurquimaximiselavraisemblancedesdonnéesd’apprentissage. Cependant, quand le nombre de variables est élevé un tel parcours exhaustif devient impossibleetl’ondoitserésoudreàunparcourssous-optimaldel’espace{0,1}K. - les prédicteurs avec des poids continus dans [0,1]K. De tels prédicteurs peuvent être obtenus par moyennage de modèles du type précédent avec une pondération propor- tionnelle à la probabilité a posteriori du modèle (Hoeting et al., 1999) ou à leur taux de compression (Boullé, 2007). Cependant, pour des bases comprenant un très grand nombredevariables,onobservequelesmodèlesobtenusparmoyennageconserventun trèsgrandnombredevariablescequirendlesmodèlesàlafoispluscoûteuxàcalculer etàdéployeretmoinsinterprétables. Danscetarticleons’intéresseàl’estimationdirecteduvecteurdespoidsparoptimisationde la log vraisemblance régularisée dans [0,1]K. L’attente principale est d’obtenir via cette ap- prochedesmodèlesrobustescomprenantmoinsdevariables,àperformanceséquivalentes.Des travaux préliminaires (Guigourès et Boullé, 2011) ont montré l’intérêt d’une telle estimation directedespoids.Lasuitedel’articleestorganiséedelafaçonsuivante:larégularisationpar- cimonieuseproposéeestprésentéeensection2etlamiseenplaced’unalgorithmedegradient enligne,anytimeetàbudgetlimitépourl’optimisationducritèrerégulariséensection3.Plu- sieurs expérimentations sont présentées en section 4 avant un bilan et la présentation de nos perspectivespourcestravaux. 2 Construction d’un critère régularisé Étant donné un jeu de données D = (x ,y )N , on cherche à minimiser sa log- N n n n=1 vraisemblancenégativequis’écrit: N (cid:32) K (cid:32) J K (cid:33)(cid:33) ll(w,D )=−(cid:88) logP(Y =yn)+(cid:88)logp(xn|yn)wk −log (cid:88)P(C )(cid:89)p(xn|C )wk N k j k j n=1 k=1 j=1 k=1 (2) Vucommeunproblèmeclassiqued’optimisation,larégularisationdelalogvraisemblanceest opéréeparl’ajoutd’untermederégularisation(outermed’apriori)quiexprimelescontraintes quenoussouhaiterionsimposerauvecteurdepoidsW.Lecritèrerégulariséestdoncuncritère delaforme: N (cid:88) CRDN(w)=− ll(w,z =(x ,y ))+λf(w,X ,...,X ) (3) n n n 1 K n=1 C.Hue,M.Boullé,V.Lemaire oùlldésignelalogvraisemblance,f lafonctionderégularisationetλlepoidsdelarégulari- sation. Plusieursobjectifsontguidénotrechoixpourlafonctionderégularisation: 1. Sa parcimonie, c’est à dire qu’elle favorise les vecteurs de poids comprenant le plus possible de composantes nulles. Les fonctions de norme Lp sont classiquement utili- séesenrégularisationparl’ajoutd’untermederégularisationdelaforme(cid:80)k |w |p. k=1 k Toutes ces fonctions sont croissantes et favorisent donc les vecteurs de poids dont les composantessontpeuélevées.Pourp > 1,lafonctiondenormeLp estconvexecequi facilitel’optimisationetlarenddoncattractive.Cependant,dufaitdecetteconvexité,la minimisationdecetermederégularisationpourp>1neconduitpasforcémentàl’éli- minationdevariablesetrendlechoixp≤1plusfavorableàl’obtentiond’unvecteurde poidsparcimonieux. 2. Sa capacité à prendre en compte un coefficient C associé à chaque variable explica- k tive afin qu’à vraisemblance équivalente, les variables "simples" soient préférées aux variables"complexes".EnpondérantlacontrainteennormeLp parlapriseencompte d’untelcoefficient,onobtientuntermedepénalisationdelaforme:(cid:80)K C ∗|w |p. k=1 k k Ce coefficient est supposé connu en amont de l’optimisation. Si aucune connaissance n’est disponible, ce coefficient est fixé à 1. Il peut être utilisé pour intégrer des préfé- rences"métier"entrelesvariables.Dansnotrecas,onydécritlecoûtdepréparationde lavariable,i.e.lecoûtdediscrétisationpourunevariablenumériqueetlecoûtdegrou- pagepourunevariablecatégorielledécritsrespectivementéquations(2.4),resp.(2.7)de (Boullé,2007). 3. Sa cohérence avec le critère régularisé du prédicteur MODL Bayésien naïf avec sé- lectionbinairedesvariables(Boullé,2007).Pourquelesdeuxcritèrescoïncidentpour λ=1etw àvaleursbinaires,onutilisefinalementletermederégularisation: k f(w,X ,...,X )=(cid:80)K (logK−1+C )∗wp 1 K k=1 k k 3 Algorithme d’optimisation : descente de gradient par mini-lots avec perturbation à voisinage variable Notons p = P(Y = yn), p = P(C ), a = p(xn|yn), a = p(xn|C ) qui sont n j j k,n k k,j k j toutesdesquantitésconstantesdansceproblèmed’optimisation. Lecritèrerégulariséàminimisers’écritalors:    (cid:88)N  (cid:88)K (cid:88)J (cid:89)K  CRDN(w)=− logpn+ (wk∗logak,n)−log pj (ak,j)wk   n=1 k=1 j=1 k=1 (4) K (cid:88) +λ (logK−1+C )∗w p k k k=1 Onsedonnelacontrainteque w soitàvaleursdans [0,1]K afind’obtenirdesmodèlesinter- prétables. Ce critère est non convexe mais différentiable en tout vecteur de poids avec pour Apprentissageincrémentalanytimed’unclassifieurBayésiennaïfpondéré Entrees:D :fluxdedonnées; N :profondeurd’historiqueconservépourévaluerlavaleurducritère; L:tailledeslotsutiliséspourlamiseàjourdespoids; w :vecteurinitialdepoids; 0 η :vecteurinitialdepas; 0 Max:nombremaximald’itérations; Tol:nombretolérédedégradationssuccessives; Sorties : w∗ =argminCRD(w); t =nombred’itérationseffectuées; total while(AméliorationducritèreoumoinsdeToldégradationssuccessives)etNombre d’itérations<Maxdo t:indexdel’itérationcourante; D =t-èmelotdedonnéesdetailleL; t,L D =historiquededonnéesdetailleN terminantàlafindut-èmelotdedonnées; t,N wt+1 =P[0,1]K(cid:0)wt−ηtL1∇CRDt,L(wt)(cid:1); Calculdeη ; t+1 Calculdelavaleurducritèresurl’historiquedetailleN :CRDt,N(wt+1); ifaméliorationducritèrethen mémorisationdelameilleurevaleur:w∗ =w ; t+1 else incrémentationducompteurdesdégradationssuccessives; end end Algorithme1:Algorithmededescentedegradientprojetéparmini-lots(DGML) dérivéepartielle: ∂CRDN(w) =−(cid:88)N (cid:40)loga − (cid:80)Jj=1pjlogaγ,j(cid:81)Kk=1(ak,j)wk(cid:41) ∂wγ n=1 γ,n (cid:80)Jj=1pj(cid:81)Kk=1(ak,j)wk (5) +λ(logK−1+C )∗p∗w p−1 k γ Legradient∇CRDN(wt)estlevecteurdecesdérivéespartiellespourγ =1,...,K. On s’est intéressé à sa minimisation par un algorithme de type descente de gradient projeté (Bertsekas,1976)c’estàdireunalgorithmedetypedescentedegradientpourlequel,àchaque itération,levecteurwobtenuestprojetésur[0,1]K. Plusieursobjectifsontguidénotrechoixd’algorithme: 1. algorithmeenligne:quelastructuredel’algorithmesoitadaptéeautraitementd’unflux dedonnéesetqu’ilnenécessitedoncpasletraitementdelabasedanssonintégralité; 2. algorithme anytime : que l’algorithme soit interruptible et qu’il soit en mesure de re- tournerlameilleureoptimisationétantdonnéuntempsdecalculbudgétéaupréalable. Dans l’algorithme de gradient projeté de type batch, on procède itérativement en mettant àjourlevecteurdepoidsàchaqueitérationtselonlegradientcalculésurtouteslesinstances pondéré par un pas. Si on note wt le vecteur de poids obtenu à l’itération t, la mise à jour à C.Hue,M.Boullé,V.Lemaire Entrees:T:nombremaximald’itérationsautotal; TailleVoi:tailleinitialeduvoisinage; Entrees:(DGML):D :fluxdedonnées; N :profondeurd’historiqueconservépourévaluerlavaleurducritère; L:tailledeslotsutiliséspourlamiseàjourdespoids; w :vecteurinitialdepoids; 0 η :vecteurinitialdepas; 0 Max:nombremaximald’itérationspouruneoptimisationDGML; Tol:nombretolérédedégradationssuccessives; Sorties :w∗ =argminCRD(w) Initialisationdew0à0.5K ; 1 Initialisationw∗ =w0; 1 InitialisationSommeT =0; whileSommeT <T do Calculde(w∗ ,tm )=DGML(D,N,L,w0 ,η ,Max,Tol); m total m 0 SommeT =SommeT +tm ; total ifaméliorationparrapportàw∗then Mémorisationdew∗ =w∗ m else TailleVoi=min(2∗TailleVoi,1) end w0 =P (w∗ +Random([−TailleVoi,TailleVoi])); m+1 [0,1]K m end Algorithme2:Algorithmededescentedegradientprojetéavecperturbationàvoisinage variable(DGML-VNS) l’itérationt+1s’effectueselonl’équation:wt+1 = P[0,1]K[wt−ηt∇CRDN(wt)]oùlepas ηpeut,selonlesvariantes,êtreuneconstantescalaireouvarierselonlesitérationset/ouvarier selon les composantes du vecteur de poids. La projection sur [0,1]K consiste simplement à bornerlesvaleursobtenuespourlespoidssurl’intervalle[0,1].Cetteapprochebatchsuppose quel’ondisposedel’intégralitédelabasepourêtreenmesurededébuterl’optimisation.Dans sa variante stochastique, la mise à jour se fait en intégrant le gradient calculé sur une seule instance. La descente de gradient peut alors se révéler chaotique si la variance du gradient d’uneinstanceàl’autreestélevée.Souhaitantadopteruneapprocheenlignenousavonsretenu unevarianteàlacroiséedecesdeuxapproches(batchetstochastique)àsavoirl’approchepar mini-lots (Dekel et al., 2012) qui consiste à orienter la descente dans le sens des gradients calculés sur des paquets successifs de données de taille que nous noterons L. Afin que les cheminsdedescentesoientcomparableslorsquelatailledeslotsvarie,legradientutiliséest rapportéàlatailleLdesmini-lots.L’algorithmededescentedegradientparmini-lotsadopté estrésumédansl’algorithme1. La valeur optimale du pas η a fait l’objet de nombreuses recherches conduisant à des t algorithmesplusoumoinscoûteuxentempsdecalcul.NousavonsoptépourlaméthodeRprop (RiedmilleretBraun,1993):lecalculdupasestspécifiqueàchaquecomposanteduvecteur c’estàdirequeηestunvecteurdepasdedimensionKetquechaquecomposantedecevecteur Apprentissageincrémentalanytimed’unclassifieurBayésiennaïfpondéré estmultipliéparunfacteurplusgrand,resp.pluspetitque1,siladérivéepartiellechange,resp. nechangepas,designed’uneitérationàl’autre.Entermedecomplexitéalgorithmique,chaque itérationnécessitel’évaluationducritèresurunéchantillondetailleN soitunecomplexitéen O(K ∗N).PourL = N,onretrouvel’algorithmebatchclassiqueetpourL = 1,legradient stochastique. Etant donné la non-convexité du critère à optimiser, il présente en général de nombreux minimalocauxverslesquelsunetelledescentedegradientpeutconverger.Ilestalorscourant delancerplusieursdescentesdegradientavecdesinitialisationsaléatoiresdistinctes(approche multi-start)enespérantquel’undecescheminsdedescenteconduiseauminimumglobaldu critère.Afinderendrel’optimisationefficaceetdenepasperdredetempsdecalculaudébut dechacunedecesdescentes,ilestégalementpossibledeperturberlasolutionobtenueaubout d’uncertainnombred’itérationsafinde"sortir"del’éventuellecuvettecontenantunminimum local.Enrendantvariablelatailleduvoisinagedanslequelonperturbelasolution,onsedonne lesmoyensdesortirdesminimalocaux(approcheVariableNeighborhoodSearch(Hansenet Mladenovic, 2001)). Cette approche notée DGML-VNS est décrite dans l’algorithme 2. On peutremarquerque,pourunvoisinagerecouvrantintégralement[0,1]K,l’algorithmeDGML- VNSrevientàunestructuremulti-startavecinitialisationaléatoire.D’autrepart,précisonsque letiragealéatoirepeutconduireàunevaleurnonnullepourunpoidsmisàzéroàl’issuedu startprécédent.Unevariablepeutdoncré-apparaîtreencoursdelectureduflux. L’algorithme DGML-VNS est anytime dans le sens où une estimation du minimum du critèreestdisponibleàlafindelapremièredescentedegradientetqu’elleestensuiteaméliorée en fonction du budget disponible en temps de calcul mais interruptible à tout moment. Sa complexité totale est en O(T ∗K ∗N) où T est le nombre total d’itérations autorisées. Ce paramétrageparT permetdelimiterlebudgetmaximalutiliséparl’algorithme. 4 Expérimentations Les premières expérimentations ont pour objectif d’évaluer la qualité de l’optimisation obtenue avec l’algorithme DGML-VNS en fonction de la taille L des mini-lots présentés et dunombretotald’itérationsautoriséesT.Pourétudierlaqualitéintrinsèquedel’optimisation indépendamment des performances statistiques du prédicteur associé, nous avons pour cela fixélepoidsλdelarégularisationà0cequirevientàoptimiserdirectementlavraisemblance nonrégularisé.Lasecondepartiedesexpérimentationstraitedesperformancesstatistiquesdu classifieurobtenuparoptimisationducritèrerégularisé(λ(cid:54)=0). Pour l’ensemble des expérimentations les paramètres suivants de l’algorithme DGML sont fixésauxvaleurssuivantes: – w ={0.5}K 0 – η = {10−2}K avecunemultiplicationpar0.5,resp.1.2,encasdechangement,resp. 0 nonchangement,designeentredeuxgradientsuccessifs – Max = 100lenombremaximald’itérations(i.e.lenombredemini-lotsprésentés).On avérifiéquecenombren’avaitjamaisétéatteintpourles36basestestées. – Tol=5lenombrededégradationssuccessivesautorisées. Onconsidèrequ’ilyaaméliorationducritèrepouruneaméliorationd’aumoins(cid:15) = 10−4 de lavaleurprécédenteducritère.Lespoidsinférieursàunseuilégalà10−3sontmisà0. C.Hue,M.Boullé,V.Lemaire Base Ni Nv Nc Base Ni Nv Nc Abalone 4177 8 28 Mushroom 8416 22 2 Adult 48842 15 2 PenDigits 10992 16 10 Australian 690 14 2 Phoneme 2254 256 5 Breast 699 10 2 Pima 768 8 2 Bupa 345 6 2 Satimage 768 8 6 Crx 690 15 2 Segmentation 2310 19 7 Flag 194 29 8 Shuttle 58000 9 7 German 1000 24 2 SickEuthyroid 3163 25 2 Glass 214 10 6 Sonar 208 60 2 Heart 270 13 2 Soybean 376 35 19 Hepatitis 155 19 2 Spam 4307 57 2 Horsecolic 368 27 2 Thyroid 7200 21 3 Hypothyroid 3163 25 2 Tictactoe 958 9 2 Ionosphre 351 34 2 Vehicle 846 18 4 Iris 150 4 3 Waveform 5000 21 3 LED 1000 7 10 WaveformNoise 5000 40 3 LED17 10000 24 10 Wine 178 13 3 Letter 20000 16 26 Yeast 1484 9 10 TAB.1– Caractéristiquesdes36basesdel’UCI:Ni=nombred’instances,Nv=Nombreinitial devariables,Nc=Nombredeclasses. Touteslesexpérimentationsontétémenéesen10-fold-cross-validationsurles36basesde l’UCI décrites dans le tableau 1. Dans la présentation des résultats ’SNB’ désigne la perfor- manced’unclassifieurdeBayesmoyennéàl’aidedutauxdecompression(Boullé,2007). 4.1 Expérimentationssurlaqualitédel’optimisation 0.586 l mpression en Test0.5820.584 Taux de co0.580 l SDNGBML−Batch 0.578 DDGGMMLL−−1100000 0.662 0.664 0.666 0.668 0.670 Taux de compression en Train FIG.1– TauxdecompressionmoyenenTrainetenTestpour36basesdel’UCI Toutd’abord,nousavonsétudiélesperformancesdel’algorithmeDGML,c’estàdirede l’algorithme de descente de gradient projeté sans post-optimisation, en fonction de la taille des mini-lots L. Nous avons choisi comme indicateur de la qualité de l’optimisation le taux Apprentissageincrémentalanytimed’unclassifieurBayésiennaïfpondéré 1600 lllllllllllllll l l Critère1200 ll 800 l 400600 l LLL===b11a00t00c0h llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll 0 20 40 60 80 Itération FIG.2– Cheminsdeconvergenceducritèreselonlatailledesmini-lots(DGML)aucoursdes itérationspourlabasePhoneme de compression qui mesure le logarithme négatif de la vraisemblance du modèle, normalisé parl’entropiedeShannon.Pluscetauxestprochede1,pluslavraisemblancedumodèleest élevée.Pourdesmodèlesmoinsperformantsquelemodèlealéatoire,letauxdecompression estnégatif.Lavaleurdutauxsurlesdonnéesd’apprentissageestdoncunbonindicateurdela qualité de l’optimisation obtenue étant donné que le critère non régularisé est réduit à la log vraisemblancenégative. Lafigure1présenteletauxdecompressionobtenuenTrainetenTestetmoyennésurles36 basesdel’UCIpourdifférentestaillesdemini-lotsL = 100,1000,N.Danslederniercas,le choixL=N revientàunalgorithmedetypebatch.LestauxdecompressionobtenusenTrain et en Test pour le SNB MODL (Boullé, 2007) servent ici de référence. Les résultats obtenus indiquentque,pluslatailledesmini-lotsestpetite,pluslaqualitédel’optimisationsedégrade. D’autrepart,lesrésultatsobtenuspourL=1000etL=N sonttrèsproches.Letauxdecom- pression en Train est significativement meilleur en batch que pour L = 1000 pour 8 des 36 bases. Lafigure2présenteàtitreillustratiflasériedesvaleursprisesparlecritèreaucoursdel’op- timisationselonlavaleurdeL = 100,1000,N pourlabasePhoneme.Surl’ensembledes36 baseslaconvergenceestplusrapidemaispluschaotiquelorsquelatailledesmini-lotsdiminue. Nous avons ensuite comparé la qualité de l’optimisation pour l’algorithme DGML sans post-optimisationd’unepartetpourunalgorithmeDGMLpost-optimiséd’autrepart.Plusieurs types de post-optimisations ont été testées : par multi-start (DGML-MS) ou par perturbation aléatoireàvoisinagevariable(DGML-VNS). Pour avoir une complexité du même ordre de grandeur que celle de l’algorithme de pré- traitement univarié MODL, à savoir O(K ∗ N ∗ log(K∗N)), on a fixé le nombre total d’itérations autorisées T proportionnel à log(K∗N). Plus précisément, on a choisi T = log(K∗N)∗2PostOptiLevel où PostOptiLevel est un entier qui permet de régler le niveau de post-optimisationsouhaité. Pour chacun de ces deux types de post-optimisation, on a étudié l’influence de la valeur du niveau d’optimisation OptiLevel = 3,4,5. Dans la mesure où l’algorithme post-optimisé mémorise au fur et à mesure la meilleure solution rencontrée, la post-optimisation ne peut qu’améliorer le taux de compression en Train. On a donc dans un premier temps mesuré si C.Hue,M.Boullé,V.Lemaire cetteaméliorationétaitsignificativeoupas.Pourunepost-optimisationdetypeMS,letauxde compression en Train est amélioré de manière significative pour 7,16,18 des 36 bases avec unniveaud’optimisationrespectivementde3,4,5.Pourunepost-optimisationdetypeVNS, le taux de compression en Train est amélioré de manière significative pour 18,19,23 des 36 bases avec un niveau d’optimisation respectivement de 3,4,5. La post-optimisation de type VNSsembledoncpréférableàlapost-optimisationMS:l’explorationguidéeparunvoisinage detaillevariableàpartirdumeilleurminimarencontrépermetunerechercheplusfructueuse desautresminimasqu’uneexplorationpurementaléatoire. Lafigure3permetd’illustrercephénomènede"gaspillage"d’itérationsenmodeMSaudébut 1500 llllllllllllllllll lllllllllllllllllll lllllllllllllllllll lllllllllllllllllll llllllllllllllllllll llllllllllllllllllll llllllllllllllllllll lllllllllllllllllll lllllllllllllllllll llllllllllllllllllll llllllllllllllllllll lMVNSS Critère 1000 lll llll llll llll lll lll lll llll lll llll lll 500 lllllllllllllllllllllllllllllllllllllllll llllllllllllllllllllllllllllllllllllllll llllllllllllllllllllllllllllllllllllllllllllll lllllllllllllllllllllllllllllllll lllllllllllllllllllllllllllll llllllllllllllllllllllllllllllll lllllllllllllllllllllllllllllllllllllllllllllllllll lllllllllllllllllllllllllllll llllllllllllllllllllllllllllllllllllll llllllllllllllllllllllllllllllllll llllllllllllllllllllllllllllllllllllllllllllll 0 100 200 300 400 500 600 Itération FIG.3– Cheminsdeconvergenceducritèreselonlapost-optimisationpourlabasePhonème etpourunniveaud’optimisationégalà5 dechaquenouveaulancementpourlabase. Lesexpérimentationsprésentéesdanscettesectionontmisenévidence:l’effetdelataille desmini-lotssurlaqualitédel’optimisation.Pluscettetailleestélevéemeilleureestlaqua- litéde l’optimisation; l’intérêtdelapost-optimisation VNScomparénotammentà unepost- optimisation MS. Nous retenons donc pour la suite des expérimentations un algorithme de type DGML-VNS avec une taille de mini-lots fixée à L = 1000 et un niveau d’optimisation PostOptiLevel=5. 4.2 Performancesduclassifieurrégularisé Nousprésentonslesperformancesduclassifieurenfonctionduparamétragepourlepoids delarégularisationλetl’exposantpdelafonction|w |p.Troisvaleursontététestéespourλ= k 0.01,0.1,0.5 et pour p = 0.5,1,2. Les performances en terme d’AUC des neuf prédicteurs régularisésassociésàcesvaleurssontprésentéesfigure4avecpourréférencelesperformances duprédicteurnonrégulariséobtenupourλ=0etduprédicteurSNB. Pour la valeur la plus élevée du poids de régularisation, à savoir λ = 0.5 (en violet sur la figure), les performances en terme d’AUC sont dégradées par rapport aux performances obtenuessansrégularisation(enrondrougesurlafigure)quellequesoitlavaleurdep.Enre- Apprentissageincrémentalanytimed’unclassifieurBayésiennaïfpondéré l l 8 1 9 Test 0. ll SLaNmBbda=0 (SansReg) n p=1 Lambda=0.01 UC e 14 pp==11 LLaammbbddaa==00..15 A 0.9 p=0.5 Lambda=0.01 p=0.5 Lambda=0.1 p=0.5 Lambda=0.5 p=2 Lambda=0.01 0 p=2 Lambda=0.1 1 0.9 p=2 Lambda=0.5 0.932 0.934 0.936 0.938 0.940 AUC en Train FIG. 4– AUCmoyenneenTrainetenTestpour36basesdel’UCIenfonctiondupoidsdela régularisationetdesontype vanche,pourlesautresvaleursdepoidsλ=0.01etλ=0.1,lesperformancessontsimilaires pour toutes les valeurs de p et légèrement supérieures ou identiques en moyenne à celle du prédicteursansrégularisation.Cesdeuxvaleursdupoidsdelarégularisationconduisentdonc àdesperformancesstatistiqueséquivalentesàcelleduprédicteurnonrégularisé. D’autre part, pour étudier la parcimonie des prédicteurs obtenus, la figure 5 présente le nombre de variables retenues et la somme de leur poids. On voit tout d’abord que plus p est faiblepluslenombredepoidsnonnulsestfaibleégalement.Larégularisationquadratiqueest celle qui conduit aux prédicteurs les moins parcimonieux. Parmi la régularisation en valeur absolue(p = 1)etcelleenracinecarrée(p = 0.5),c’estlasecondequipermetuneréduction la plus importante du nombre de variables retenues. Concernant la somme des poids des va- riablesretenues,touslestypesderégularisationpermettentderéduireenmoyennelasomme despoids.D’autrepart,àpoidsλdonné,larégularisationquadratiqueaunimpactmoinsim- portant sur la réduction de la somme des poids que les deux autres régularisations dont les performancessonttrèsprochespourcetindicateur. Enprenantencomptecesdeuxaspectsdeperformancestatistiqueetdeparcimonie,lecompro- misp = 1etλ = 0.1sembleleplusfavorable.Sansdégraderlesperformancesduprédicteur nonrégularisé,ilpermetderéduiredefaçonimportantelenombredevariablessélectionnées cequirendleprédicteurplusinterprétableetmoinscomplexeàdéployer. 5 Conclusion Nousavonsproposéunerégularisationparcimonieusedelalogvraisemblanced’unclas- sifieurBayésiennaïfpondéré.Nousavonsdécritetexpérimentéunalgorithmededescentede gradientintégrantenlignedesmini-lotsdedonnéesetoptimisantlespoidsdececlassifieurpar exploration plus ou moins poussée de la solution optimale courante en fonction d’un budget donné.Lesexpérimentationsmenéesontpermisdemontrerl’intérêtdel’introductiondeces

Description:

Le classifieur Bayésien naïf se révèle alors simple à calculer et Ces probabilités univariées étant connues, un prédicteur Bayésien naïf pondéré est

Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction PDF

12 Pages·2013·0.25 MB·French

Checking for file health...

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Download Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction PDF Free - Full Version

by Unknow| 2013| 12 pages| 0.25| French

Download Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction by in PDF format completely FREE. No registration required, no payment needed. Get instant access to this valuable resource on PDFdrive.to!

Free Download PDF

About Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction

Le classifieur Bayésien naïf se révèle alors simple à calculer et Ces probabilités univariées étant connues, un prédicteur Bayésien naïf pondéré est

Detailed Information

Author:	Unknown
Publication Year:	2013
Pages:	12
Language:	French
File Size:	0.25
Format:	PDF
Price:	FREE

Download Free PDF

Safe & Secure Download - No registration required

Why Choose PDFdrive for Your Free Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction Download?

100% Free: No hidden fees or subscriptions required for one book every day.
No Registration: Immediate access is available without creating accounts for one book every day.
Safe and Secure: Clean downloads without malware or viruses
Multiple Formats: PDF, MOBI, Mpub,... optimized for all devices
Educational Resource: Supporting knowledge sharing and learning

Frequently Asked Questions

Is it really free to download Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction PDF?

Yes, on https://PDFdrive.to you can download Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction by completely free. We don't require any payment, subscription, or registration to access this PDF file. For 3 books every day.

How can I read Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction on my mobile device?

After downloading Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction PDF, you can open it with any PDF reader app on your phone or tablet. We recommend using Adobe Acrobat Reader, Apple Books, or Google Play Books for the best reading experience.

Is this the full version of Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction?

Yes, this is the complete PDF version of Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction by Unknow. You will be able to read the entire content as in the printed version without missing any pages.

Is it legal to download Apprentissage incrémental anytime d'un classifieur Bayésien naïf pondéré 1 Introduction PDF for free?

https://PDFdrive.to provides links to free educational resources available online. We do not store any files on our servers. Please be aware of copyright laws in your country before downloading.

The materials shared are intended for research, educational, and personal use in accordance with fair use principles.