Table Of ContentUniversité Abdelhamid Ibn Badis Mostaganem
Faculté des Sciences Exactes et de l’Informatique
Département d’informatique
Thèse de Docorat
Présentée par :
Amine ROUKH
Prise en compte de l’énergie dans la phase
d’exploitation des bases de données volumineuses
Spécialité : Informatique
Option : Apprentissage Automatique et Web Intelligence
Soutenue le Date de la soutenance devant un jury composé de :
Présidentdujury Dr.AmirABDESSAMAD (UniversitédeMostaganem)
Examinateur Pr.DjamalBENSLIMANE (IUT,UniversitédeLyon1,France)
Directeurdethèse Dr.OmarBELHAMITI (UniversitédeMostaganem)
Co-directeurdethèse Pr.LadjelBELLATRECHE (ISAE/ENSMA,Poitiers)
Invité Pr.NadjiaBENBLIDIA (UniversitédeBlida)
Résumé
Àl’èreduBigData,lagestiondelaconsommationd’énergieparlesserveursetlescentresdedonnées
est devenue un défi majeur pour les entreprises, les institutions et les pays. Parmi les applications
déployées sur les centrées données, les systèmes de gestion de base de données (SGBD) sont l’un
des principaux consommateurs d’énergie lors de l’exécution de requêtes complexes impliquant de
trèsgrandestaillededonnées.Parailleurs,letraitementdecetypedebasededonnéesrequiertdes
infrastructures informatiques et matérielles coûteuses et consommatrices d’énergie. Les pratiques
actuellesd’utilisationetd’exploitationdesbasesdedonnéesextrêmementlargesmontrentquelecoût
énergétiquedetraitementderequêteesttotalementnégligéparlesutilisateursetégalementparles
concepteurs.Sachantquelefacteurleplusimportantpourl’utilisateurestlaminimisationdutempsde
réponsederequêtes.Danscettethèsenousproposonsuneformalisationmulti-objectifsdesproblèmes
d’exploitationdesbasesdedonnées,entenantcomptededeuxbesoinsnon-fonctionnels :laperformance
etlaconsommationd’énergielorsdel’exécutiond’unechargederequêtes.Cetteformalisationnousa
permisdetirerpartidestechniquesavancéesproposédansl’étatdel’artpourlarésolutiondesproblèmes
d’optimisationmulti-objectifs.Pourcefait,toutd’abordnousdévelopponsdesmodèlesdecoûtpour
estimerlecoûténergétiquedesrequêtesexécutéesd’unemanièreisoléeouparallèle.Cesmodèlesde
coûtsontensuiteintégrésdansl’undesmoduleslesplusimportantsdansunSGBD,quiestlemodule
de traitement de requêtes. La nouvelle objective de ce module est la sélection des plans d’exécution
desrequêtesaveclecompromisdésiréparlesutilisateursentreletempsetl’énergiedesrequêtes.De
plus,nousproposonsuneinitiativequiintègreladimensionénergétiquedanslaphasedeconception
physiquedesbasesdedonnées,àfindesélectionnerdesstructuresd’optimisationenprenantencompte
lesaspectsénergétiques.Nousétudionslecasdesvuesmatérialisées,l’unedesstructuresd’optimisation
redondantestrèsrépondu.Danschaquecontributiondenotrethèse,desexpérimentationsintensives
sontconduitesenutilisantundispositifréelpourlesmesuresd’énergieetlesdonnéesdesbenchmarks
TPC-H,TPC-DSetSBBavecdesdiversesconfigurationsmatériellesetlogicielles.
Mots-clés : Efficacité énergétique, modèles de coût, traitement de requêtes, conception physique,
gestiond’énergie,optimisationmulti-objectifs.
ﱠ َ
ٌ ُ
صخلم
(cid:1133) ً ﱢ (cid:1132) (cid:1131) َ َ َ ﱢ ﱠ (cid:1132) ُ َ (cid:1131) َ ْ (cid:1131)
تاسسؤ(cid:541)اوت(cid:466)(cid:336)للا(cid:631)(cid:1140)بك(cid:623)(cid:1140)د(cid:626)ت(cid:623)ايبلازكارمومِدِاوخللةبسنل(cid:623)(cid:1139) ةقاطلاك(cid:304)(cid:647)ساةرادإتحبصأ،ةِمخضلاتِ (cid:623)ايبلا(cid:368)ِ ع(cid:459)(cid:1140)
(cid:1132) (cid:1131) ﱠ ُ َ(cid:1131) (cid:1131) (cid:1133) (cid:1133) (cid:1131) َ ﱡ
(cid:527)(cid:1140) ل(cid:647)سم(cid:631)(cid:1139)كأنمةدحاوت(cid:623)ايبلادعاوقةرادإةمظنأنأد(cid:626)(cid:1139)ِ ،ت(cid:623)ايبلازكارم(cid:571)عة(cid:631)كبة(cid:336)تن(cid:541)اتاقيبطتلا(cid:642)(cid:1140)بنم .لودلاو
جُ(cid:304)عِ ،كلذ(cid:571)عةًو(cid:304)عِو .ت(cid:623)(cid:1131)ايبلانماد(cid:740)ج(cid:631)(cid:1140)بكمٍ(cid:306)(cid:1139) (cid:571)عيوطنْت(cid:657)(cid:1140) (cid:1132)لاةدقﱠع(cid:541)اتامَ(cid:304)َ عْتِسْ(cid:303)اذيفنتءانثأكلذو،ةيﱠئ(cid:623)(cid:1139)رَ(cid:517)لاةقاطﱠ لا
ْ ﱠ ﱠ ً ً (cid:1132) ﱠ َ (cid:1132) َ ُ ﱠ (cid:1131)
،ديعب(cid:631)ِ (cid:1140)غنمز(cid:569)إ .ةيئ(cid:623)(cid:1139)ر(cid:517)لاةقاطللة(cid:631)(cid:1140)بكةكل(cid:647)سمونمثلاةظه(cid:623)(cid:1139) ةيت(cid:626)ةينبوايجولونكتبلطتيت(cid:623)ايبلادعاوقنمعونلااذه
(cid:1132) ً(cid:1132) َ َ ْ ُ (cid:1131) ﱠ (cid:1131) ﱠ ُ َ ُْ َ
نم اءاوس ،اما(cid:633) (cid:557)م(cid:587) مج(cid:533)ا ةِ(cid:631)(cid:1140)بك ت(cid:623)ايبلا دعاوق ليغشتو مادختس(cid:623)(cid:1139) ةصا(cid:533)ا تام(cid:304)عتس(cid:303)ا ة(cid:533)(cid:1139) اعم ءانثأ ةقاطلا ةف(cid:476)ت تن(cid:466)
ﱢ(cid:1132)ََ َ ُ َ ُ ْ ﱢ َ َ(cid:1133) (cid:1130) ﱠ (cid:1131) ﱢ ُ (cid:1131) َ
(cid:461)(cid:1140) لتوتام(cid:304)عتس(cid:303)اة(cid:533)(cid:1139) اعمنمزليلقتوهمدِختس(cid:545)لةي(cid:607)أ(cid:631)ك(cid:303)الماعلانأثيح .(cid:642)(cid:1140)ممص(cid:543)البقنموأ(cid:642)(cid:1140)مدختس(cid:541)الِبقِ
ُ
(cid:1131) ْ ْ (cid:1130) (cid:1131) (cid:1130) ُ ً ُ (cid:1132) (cid:1130) (cid:1131) ُ (cid:1130) ﱠ
(cid:642)(cid:1140)عبذِخ(cid:303)اقيرطنعاذهو،ت(cid:623)ايبلادعاوقل(cid:304)غتسا(cid:472)اش(cid:541)فاده(cid:303)اةددِعتمةغايصِ ح(cid:631)قنةحورط(cid:303)اهذه(cid:459)(cid:1140) .ةع(cid:336)ب(cid:625)(cid:1136) اتنلا
ﱠ (cid:1132) ُ (cid:1130) ُ(cid:1131) (cid:1132) ﱠ ْ (cid:740)
هذه .تام(cid:304)عتس(cid:303)انمةٍعوم(cid:577)(cid:1139) ليغشتدنعةقاطلاك(cid:304)(cid:647)ساليلقتوءِاد(cid:303)ا(cid:642)(cid:1140)س(cid:626) :ةيفِيظِولا(cid:631)ِ (cid:1140)غتاجايتح(cid:303)انم(cid:478)رابتع(cid:303)ا
َ
(cid:1132) َ َ ْ(cid:1130) ُ ﱢ ﱠ ﱢ ﱢ (cid:1132) (cid:1131) َ (cid:1132) ُ ﱢ ُ ﱠ ﱢ َ َ َ ُ ﱢ
(cid:557)ِ ثم(cid:303)ا (cid:473)شم لح لجأ نم ةقباسلا ةيعانصِ لا ةينقتلا (cid:556)اح (cid:459)(cid:1140) ةح(cid:631)ق(cid:543)ا ةمدقت(cid:543)ا تاينقتلا نم ةدافتس(cid:303)(cid:623)(cid:1139) تح(cid:338) ةغايصلا
(cid:1132) ﱠ ﱠ ُ َ ُ ﱠ (cid:1131) ُ(cid:1132) (cid:1130) ﱠ (cid:1131) (cid:1130) َ ﱢ ُ
(cid:556)ٍ وزعمةقيرطب،تام(cid:304)عتس(cid:303)اليغشتلةمز(cid:304)لاةقاطلاةف(cid:476)ت(cid:630)(cid:1140)دقتلةف(cid:476)تلاجذا(cid:633)(cid:630)(cid:1140)وطتبان(cid:443)رم(cid:303)الِوأ(cid:459)(cid:1140) ،اذ(cid:558) .فاده(cid:303)اةِددعتم
ِ
(cid:1131) ُ (cid:1131) ﱢ َ (cid:1131) ﱠ(cid:1131) َ (cid:1132)
ة(cid:533)(cid:1139) اعمةدحوِ (cid:609)(cid:1140) و(cid:303)أ ،ت(cid:623)ايبلادعاوقةرادإمظن (cid:459)(cid:1140) تادحولا(cid:606)أنمةدحِ او(cid:459)(cid:1140) جذ(cid:638)لاهذه (cid:576)(cid:1136) دبان(cid:443)،كلذدعب .ةٍيزاوتموأ
ْ ﱠ َ (cid:1131) ْ (cid:1130) َ ُ ُ
ةيوِستلا (cid:637)ِ(cid:1140)قِ نم ةٍعوم(cid:548)(cid:1139) رابتع(cid:303)ا (cid:642)(cid:1140)عب ذخ(cid:303)ا عم م(cid:304)عتس(cid:303)ا ذيفنت طِ طخ رايتخا وه ةدحوِلا هذ(cid:558) ديد(cid:533)(cid:1139) ا فد(cid:558)ا .م(cid:304)عتس(cid:303)ا
(cid:576)(cid:1136) دلةًغَيصانح(cid:631)(cid:1132)قا،اضيأ .ا(cid:558)اخدإنعنولوؤس(cid:541)ا(cid:606)ُ ُ نومدختس(cid:541)ا(cid:637)ُ (cid:1140)قِلاهذه،ةكل(cid:647)(cid:1132)س(cid:543)ُ اةقاطﱠ لاوليغشتلاتقو(cid:642)(cid:1131) (cid:1140)ْبةضياق(cid:543)ُ او
ِ
َ
َ (cid:1131) (cid:1130) (cid:1132) َ َ ْ(cid:1130) َ (cid:1131) ﱢ (cid:1132) (cid:1131) ﱢ ﱠ ُ
بنِاجرابتع(cid:303)ا(cid:642)(cid:1140)عبذخ(cid:303)اعم(cid:557)ِ ثم(cid:303)ا(cid:472)ِ ايهرايتخاقيرطنعكلذو،ت(cid:623)ايبلادعاوقليدا(cid:541)ا(cid:637)(cid:1140)مصتلا(cid:557)حرم(cid:459)(cid:1140) يوقاطلادِعبلا
(cid:1132) ُ (cid:1132) َ (cid:1130) ﱢ ً ﱡ ُ (cid:1132) (cid:1130) ﱢ (cid:1132) ﱠ (cid:1132)
(cid:557)معتس(cid:543)ا (cid:557)ثم(cid:303)ا (cid:472)ِايه (cid:606)أنم ةدحاودعت (cid:657)لاو،تام(cid:304)عتس(cid:303)ا (cid:625)(cid:1136) اتنظفحِ ةينقتةساردبان(cid:443)،كلذل ةجيتن .ةقاطلاك(cid:304)(cid:647)سا
(cid:1140)
ُ
ك(cid:304)(cid:647)(cid:1132)سا سايقل (cid:571)(cid:1140)ﱟ عف زا(cid:315)(cid:1139) مادختس(cid:623)(cid:1139) قاطنﱢلا ةِعساو بَ را(cid:626)(cid:1139)(cid:1132) ءارج(cid:623)(cid:1138)(cid:1139) ان(cid:443)(cid:1132) ،ةِحورط(cid:303)(cid:1130) ا هذه تا(cid:607)اسم نم ة(cid:607)اسم (cid:472)ﱢ (cid:459)(cid:1140)(cid:1131) .ة(cid:631)(cid:1133)كب
ﱟ ﱠ (cid:1131) (cid:1131) ً (cid:1132) ﱠ ُ
صر(cid:533)ِ اعمSBBوTPC-H،TPC-DSنم(cid:472)سِ يياق(cid:633)(cid:1139) ةصا(cid:533)اتام(cid:304)عتس(cid:303)اوت(cid:623)ايبلا(cid:571)عاد(cid:638)عاو،مدِاخللةيئ(cid:623)(cid:1139)ر(cid:517)لاةردقلا
َ(cid:1132) ﱢ (cid:1131) ﱠ ﱢ (cid:1131) ﱢ ْ
.ةبر(cid:626)(cid:1139) (cid:472)(cid:459)(cid:1140) ةي(cid:577)(cid:1139) (cid:631)(cid:1139)لاوةيدا(cid:541)ات(cid:623)وك(cid:541)اعيونت(cid:571)ع
ﱢ ٌ(cid:1132) َ ﱠ ﱡ ﱠ ُ َ ﱠ ُ (cid:1131) ﱠ ُ ﱠ
ةددعتم (cid:557)ثمأ ،ةقاطلا ةرادإ ،يدا(cid:541)ا (cid:637)(cid:1140)مصتلا ،م(cid:304)عتس(cid:303)ا ة(cid:533)(cid:1139) اعم ،ةف(cid:476)تلا جذا(cid:633) ،ةقاطلا مادختسا ةءافك :ةيحاتف(cid:541)ا تا(cid:483)لا
(cid:1130)
.فاده(cid:303)ا
Abstract
IntheBigDataEra,themanagementofenergyconsumptionbyserversanddatacentershasbecome
achallengingissueforcompanies,institutions,andcountries.Indata-centricapplications,Database
ManagementSystemsareoneofthemajorenergyconsumerswhenexecutingcomplexqueriesinvolving
very large databases. Moreover, the processing of this type of database requires costly and energy-
intensive computing and hardware infrastructures. Current practices in the use and exploitation of
extremelylargedatabasesshowthattheenergycostofqueryistotallyneglectedbyusersandalsoby
designers.Knowingthatthemostimportantfactorfortheuserisminimizingtheresponsetimeofqueries.
Inthisthesisweproposeamulti-objectiveformalizationofthedatabasesexploitationtechniques,taking
intoaccounttwonon-functionalrequirements:theperformanceandtheenergyconsumptionduring
theexecutionofaqueriesworkload.Thisformalizationenabledustotakeadvantageoftheadvanced
techniquesproposedinthestate-of-the-artforsolvingthemulti-objectiveoptimizationproblems.For
thispurpose,wefirstdevelopcostmodelsthatestimatetheenergyconsumptionofqueriesexecutedin
anisolatedorparallelmanner.Thesecostmodelsarethenintegratedintooneofthemostimportant
modulesinaDBMS,whichisthequeryprocessingmodule.Thenewobjectiveofthismoduleisthe
selectionofexecutionplansofquerieswiththetrade-offdesiredbytheusersbetweenthetimeand
theenergyofthequeries.Further,weproposeaninitiativethatintegratestheenergydimensioninthe
physicaldesignphaseofdatabases,inordertoselectoptimizationstructurestakingintoaccountthe
energyaspects.Westudythecaseofmaterializedviews,oneoftheredundantoptimizationstructures
heavy used by database administrator. In each contribution of our thesis, intensive experiments are
conductedusingarealdevicefortheenergymeasurementsanddataoftheTPC-H,TPC-DSandSBB
benchmarkswithvarioushardwareandsoftwareconfigurations.
Keywords :Energyefficiency,costmodels,queryprocessing,physicaldesign,energymanagement,
multi-objectiveoptimization.
Àtousceuxquimesontchers :
Mesparents,
Mesfrères.
vii
Table des matières
Listedesfigures xvii
Listedestableaux xxi
PartieI IntroductionGénérale 1
Chapitre1IntroductionGénérale 3
1.1 Contexteetproblématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Objectifsetcontributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Organisationdelathèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
PartieII Étatdel’art 11
Chapitre2Latechnologiedesbasesdedonnées 13
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Technologiedesbasesdedonnées . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Conceptionetcycledevie . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1.1 Analysedesbesoins . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1.2 Modélisationconceptuelle . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1.3 Modélisationlogique . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.4 Modélisationphysique . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1.5 Déploiementetmaintenance . . . . . . . . . . . . . . . . . . . . 27
2.2.1.6 Bilanetdiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2 TraitementderequêtesdansunSGBDrelationnel . . . . . . . . . . . . . . 29
2.2.2.1 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2.2 Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2.3 Générationdesplansetoptimisation . . . . . . . . . . . . . . . . 35
ix
Tabledesmatières
2.2.2.4 Exécution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.2.5 Bilanetdiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3 Compromisentrelaperformanceetl’énergie :Optimisationmulti-objectifs . . . . 44
2.3.1 Problèmed’optimisationmulti-objectifs . . . . . . . . . . . . . . . . . . . . 44
2.3.2 Méthodesderésolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2.1 Méthodesclassiques . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2.2 Méthodesévolutionnaires . . . . . . . . . . . . . . . . . . . . . . 51
2.3.3 Optimisationmulti-objectifsdanslesbasesdedonnées . . . . . . . . . . . 55
2.3.3.1 PSV multi-objectifs . . . . . . . . . . . . . . . . . . . . . . . . 56
2.3.3.2 Traitementderequêtesmulti-objectifs . . . . . . . . . . . . . . . 57
2.3.4 Bilanetdiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Chapitre3L’énergiedanslessystèmesinformatiques 61
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2 L’énergiedanslatechnologiedel’information . . . . . . . . . . . . . . . . . . . . . 62
3.2.1 Leconceptdel’énergie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.2 Méthodesd’évaluationdel’EE . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.2.1 Modèlesetmétriquesdecoût . . . . . . . . . . . . . . . . . . . . 64
3.2.2.2 Benchmarking . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.3 Approchesd’EEdanslessystèmesinformatiques . . . . . . . . . . . . . . . 67
3.2.3.1 Approchesd’EEauniveaumatériel . . . . . . . . . . . . . . . . . 68
3.2.3.2 Approchesd’EEauniveausystèmed’exploitation . . . . . . . . 70
3.2.3.3 Approchesd’EEauniveauapplication . . . . . . . . . . . . . . . 70
3.3 Approchesd’EEdanslesBD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3.1 AOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3.1.1 Dispositifdetraitement . . . . . . . . . . . . . . . . . . . . . . . 72
3.3.1.2 Gestiondustockage . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3.2 Bilanetdiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.3 AOL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.3.1 Définitiondesmodèlesdecoûts. . . . . . . . . . . . . . . . . . . 75
3.3.3.2 Techniquesbaséessurdesmodèlesdecoûts . . . . . . . . . . . . 77
3.3.3.3 Base de données en tant que référentiel pour le stockage et la
gestiondesdonnéesdel’énergie . . . . . . . . . . . . . . . . . . 79
3.3.4 Bilanetdiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.4 Versdesbasesdedonnéesvert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
x
Description:Notamment, les équipements des serveurs (processeur, mémoire et disque) consomment la moitié d'énergie totale, qui est une quantité importante. données XML incluent les logiciels commerciaux MarkLogic et Oracle Berkeley DB XML, ainsi que les logiciels libre comme Clusterpoint Distributed