Table Of ContentProposta de preservació de dades científiques
en accés obert mitjançant tècniques
d’anàlisi forense digital
Teodoro Wilderbeek López del Castillo
Aquesta tesi doctoral està subjecta a la llicència Reconeixement- NoComercial –
CompartirIgual 4.0. Espanya de Creative Commons.
Esta tesis doctoral está sujeta a la licencia Reconocimiento - NoComercial – CompartirIgual
4.0. España de Creative Commons.
This doctoral thesis is licensed under the Creative Commons Attribution-NonCommercial-
ShareAlike 4.0. Spain License.
Facultat de Biblioteconomia i Documentació
Programa de doctorat:
Informació i Documentació en la societat del coneixement
Proposta de preservació de dades
científiques en accés obert mitjançant
tècniques d’anàlisi forense digital
Tesi doctoral
Teodoro Wilderbeek López del Castillo
Director de tesi: Dr. Miquel Térmens Graells
Barcelona, juny de 2017
Títol de la tesi: Proposta de preservació de dades científiques en accés
obert mitjançant tècniques d’anàlisi forense digital
Doctorand: Teodoro Wilderbeek López del Castillo
Programa de doctorat: "Informació i Documentació en la societat del
coneixement" del Departament de Biblioteconomia,
Documentació i Comunicació Audiovisual. Universitat de
Barcelona
Director de la tesi: Miquel Térmens Graells. Departament de Biblioteconomia,
Documentació i Comunicació Audiovisual. Universitat de
Barcelona
Aquesta obra està subjecta a una llicència de Reconeixement-NoComercial-
CompartirIgual 4.0 Internacional de Creative Commons
Tots els noms propis de programaris, maquinaris, sistemes operatius, etc. que apareixen
en la present tesi són marques registrades pels seus respectius fabricants, organitzacions
i companyies.
SUMARI
Agraïments ..................................................................................................................... 11
1. Introducció ............................................................................................. 13
1.1 Presentació .......................................................................................................... 15
1.2 Justificació i delimitació de l’estudi ................................................................... 16
1.2.1 Dades de recerca en accés obert ............................................................... 16
1.2.2 Preservació digital..................................................................................... 17
1.2.3 Anàlisi forense digital ............................................................................... 18
1.2.4 Model de preservació ................................................................................ 18
1.3 Definicions .......................................................................................................... 19
1.3.1 Dades obertes ............................................................................................ 19
1.3.2 Dades de recerca "finals" .......................................................................... 21
1.3.3 Dades de recerca "en brut" i material de suport ........................................ 22
1.3.4 Compartició de dades de recerca .............................................................. 23
1.3.5 Accés obert ............................................................................................... 24
1.3.6 Dataset ...................................................................................................... 26
1.3.7 Metadades i estàndards ............................................................................. 27
1.3.8 Pla de gestió de dades ............................................................................... 28
1.3.9 Repositori digital....................................................................................... 29
1.3.10 Anàlisi forense digital ............................................................................. 30
1.4 Hipòtesi ............................................................................................................... 31
1.5 Metodologia ........................................................................................................ 32
1.5.1 Anàlisi de la literatura ............................................................................... 32
1.5.2 Entrevistes a responsables tècnics i institucionals de repositoris ............. 33
1.5.3 Creació de la proposta de preservació ...................................................... 35
2. Dades de recerca en accés obert ........................................................... 39
2.1 Orígens de l’open research data .......................................................................... 41
2.2 Polítiques de les agències de finançament .......................................................... 44
Proposta de preservació de dades científiques en accés obert 3
mitjançant tècniques d’anàlisi forense digital
2.2.1 Horizon 2020 (Comissió Europea) ........................................................... 46
2.2.2 Research Councils UK (Regne Unit) ........................................................ 50
2.2.3 Wellcome Trust (Regne Unit)................................................................... 64
2.2.4 National Institutes of Health (Estats Units d’Amèrica) ............................ 65
2.2.5 National Science Foundation (Estats Units d’Amèrica) ........................... 74
2.2.6 Plan Estatal de Investigación Científica y Técnica y de Innovación
(Espanya) ...................................................................................................... 76
2.2.7 Síntesi i conclusions.................................................................................. 78
2.3 Formats digitals de les dades de recerca ............................................................. 82
2.3.1 Polítiques als repositoris ........................................................................... 83
2.3.2 Archivematica ........................................................................................... 96
2.3.3 Síntesi de formats preferits ....................................................................... 97
2.4 Marc legal de les dades de recerca .................................................................... 105
2.4.1 Propietat intel·lectual .............................................................................. 105
2.4.2 Llicències ................................................................................................ 107
2.4.3 Privacitat ................................................................................................. 110
2.4.4 Dret a l’oblit ............................................................................................ 111
3. Preservació digital ............................................................................... 115
3.1 Dipòsits de dades .............................................................................................. 117
3.1.1 ICPSR ..................................................................................................... 119
3.1.2 Dryad ...................................................................................................... 120
3.1.3 Dataverse ................................................................................................ 122
3.1.4 Figshare ................................................................................................... 124
3.1.5 Zenodo .................................................................................................... 126
3.1.6 Edinburgh DataShare .............................................................................. 127
3.2 Estàndards de preservació digital ..................................................................... 128
3.2.1 Model de referència OAIS ...................................................................... 129
3.2.2 TDR: auditoria i certificació de repositoris ............................................ 138
3.3 Metadades ......................................................................................................... 144
3.3.1 Dublin Core............................................................................................. 146
3.3.2 DFXML .................................................................................................. 153
4 Proposta de preservació de dades científiques en accés obert
mitjançant tècniques d’anàlisi forense digital
3.3.3 PREMIS .................................................................................................. 158
3.3.4 BagIt........................................................................................................ 163
4. Anàlisi forense digital.......................................................................... 167
4.1 Metodologia dins l’anàlisi forense digital ........................................................ 171
4.1.1 Preparatius inicials .................................................................................. 172
4.1.2 Captura forense ....................................................................................... 173
4.1.3 Examen i anàlisi de contingut ................................................................. 173
4.1.4 Emmagatzematge digital......................................................................... 174
4.1.5 Accés i consulta dels recursos ................................................................ 174
4.2 Casos d’ús de tècniques forenses a biblioteques i arxius .................................. 175
4.2.1 British Library......................................................................................... 175
4.2.2 Bodleian Library ..................................................................................... 180
4.2.3 National Library of Australia .................................................................. 183
4.2.4 Emory University .................................................................................... 186
4.2.5 Projecte AIMS ........................................................................................ 190
4.2.6 BitCurator ............................................................................................... 203
4.3 Proves amb el programari forense BitCurator .................................................. 209
4.3.1 Creació d’imatges forenses ..................................................................... 210
4.3.2 Identificació d’informació privada i sensible ......................................... 215
4.3.3 Avaluació i selecció de dades ................................................................. 218
4.3.4 Exportació de metadades ........................................................................ 225
4.3.5 Síntesi...................................................................................................... 226
5. Model de preservació de dades de recerca........................................ 227
5.1 Adquisició de maquinari i programari .............................................................. 229
5.2 Preparació de l’AIP ........................................................................................... 233
5.2.1 Preparatius inicials .................................................................................. 241
5.2.2 Captura de suport(s) ................................................................................ 247
5.2.3 Examen i anàlisi de contingut ................................................................. 254
5.2.4 Processat de continguts ........................................................................... 270
5.2.5 Preparació dels paquets AIP per a la seva ingesta .................................. 285
Proposta de preservació de dades científiques en accés obert 5
mitjançant tècniques d’anàlisi forense digital
5.2.6 Ingesta al repositori ................................................................................. 290
5.2.7 Flux de treball final ................................................................................. 292
5.2.8 Síntesi d’operacions en terminologia OAIS ........................................... 293
5.3 Preparació del DIP per al seu accés .................................................................. 294
5.3.1 Accions del Consumidor ......................................................................... 294
5.3.2 Accions de l’Administració .................................................................... 295
5.4 Com encaixa DSpace a la nostra proposta de preservació? .............................. 297
5.4.1 Entrevistes amb responsables de repositoris ........................................... 299
5.4.2 Mida dels paquets/fitxers ........................................................................ 303
5.4.3 Ingesta de paquets BagIt ......................................................................... 304
5.4.4 Metadades ............................................................................................... 305
6. Conclusions i línies futures de recerca .............................................. 309
6.1 Requeriments de les agències de finançament .................................................. 311
6.2 Tècniques d’anàlisi forense digital ................................................................... 314
6.3 Repositori DSpace ............................................................................................ 317
6.4 Línies futures de recerca ................................................................................... 319
Annex A. Cas pràctic d’aplicació del flux de treball ........................... 321
A.1 Introducció ....................................................................................................... 323
A.2 Preparatius inicials ........................................................................................... 326
A.3 Captura forense ................................................................................................ 329
A.4 Examen i anàlisi de contingut .......................................................................... 331
A.5 Processat de continguts .................................................................................... 333
A.6 Preparació dels paquets AIP ............................................................................ 339
Annex B. Formulari de lliurament de dades de recerca ...................... 341
Annex C. Qüestionari de les entrevistes realitzades a responsables
de repositoris .................................................................................... 347
6 Proposta de preservació de dades científiques en accés obert
mitjançant tècniques d’anàlisi forense digital
Annex D. Glossari .................................................................................... 351
Bibliografia ................................................................................................................... 357
Índex de taules .............................................................................................................. 385
Índex de figures ............................................................................................................ 387
Llista d’acrònims .......................................................................................................... 391
Proposta de preservació de dades científiques en accés obert 7
mitjançant tècniques d’anàlisi forense digital
A la memòria del meu pare (1949-2016)
Description:5.4 Com encaixa DSpace a la nostra proposta de preservació? .. seves dades i així fer-les aptes per a la seva reutilització i preservació a llarg