Table Of ContentAUTOR: Diego Darío Guerrero Fernández
http://orcid.org/0000-0001-6749-0962
EDITA: Publicaciones y Divulgación Científica. Universidad de Málaga
Esta obra está sujeta a una licencia Creative Commons:
Reconocimiento - No comercial - SinObraDerivada (cc-by-nc-nd):
Http://creativecommons.org/licences/by-nc-nd/3.0/es
Cualquier parte de esta obra se puede reproducir sin autorización
pero con el reconocimiento y atribución de los autores.
No se puede hacer uso comercial de la obra y no se puede alterar, transformar o hacer
obras derivadas.
Esta Tesis Doctoral está depositada en el Repositorio Institucional de la Universidad de
Málaga (RIUMA): riuma.uma.es
tesis doctoral
Plataforma de supercomputaci´on
para bioinform´atica
Diego Dar´ıo Guerrero Ferna´ndez
Universidad de Ma´laga
Departamento de Biolog´ıa Molecular y Bioqu´ımica
Facultad de Ciencias
Plataforma Andaluza de Bioinform´atica
Edificio de Bioinnovaci´on
Ma´laga. Mayo de 2015
Plataforma de supercomputaci´on para
bioinform´atica
Memoria presentada por:
Diego Dar´ıo Guerrero Fern´andez
Para optar al grado de Doctor por la Universidad de Ma´laga
Tesis realizada bajo la direccio´n del Dr. M. Gonzalo Claros D´ıaz en la Plataforma
Andaluza de Bioinform´atica y el Departamento de Biolog´ıa Molecular y Bioqu´ımica de
la Universidad de Ma´laga
Fdo. Diego Dar´ıo Guerrero Fern´andez
Vo.Bo. DIRECTOR DE LA TESIS DOCTORAL:
Fdo. M. Gonzalo Claros D´ıaz
M´alaga, mayo de 2015
2
D. M. Gonzalo Claros D´ıaz, Investigador de la Plataforma Andaluza de Bioinform´atica y
el Departamento de Biolog´ıa Molecular y Bioqu´ımica de la Universidad de M´alaga.
CERTIFICA:
Que Don Diego Dar´ıo Guerrero Ferna´ndez, Ingeniero en Inform´atica, ha realizado
bajo mi direcci´on en el Departamento de Biolog´ıa Molecular y Bioqu´ımica y la Plataforma An-
daluza de Bioinform´atica de la Universidad de M´alaga, el trabajo de investigaci´on recogido en
la presente memoria de Tesis Doctoral que lleva por t´ıtulo: “Plataforma de supercomputaci´on
para bioinform´atica”.
Tras la revisi´on de la presente Memoria se ha estimado oportuna su presentaci´on ante
la Comisi´on de Evaluaci´on correspondiente, por lo que autorizo su exposici´on y defensa para
optar al grado de Doctor.
Y para que as´ı conste, en cumplimiento de las disposiciones legales vigentes, firmo el
presente certificado.
M´alaga, mayo de 2015
El Director de la Tesis,
Dr. D. M. Gonzalo Claros D´ıaz
3
D. M. Gonzalo Claros D´ıaz, Investigador del Departamento de Biolog´ıa Molecular y
Bioqu´ımica de la Universidad de M´alaga.
INFORMA:
Que Don Diego Dar´ıo Guerrero Ferna´ndez, Ingeniero en Inform´atica, ha realizado
bajo mi direcci´on en el Departamento de Biolog´ıa Molecular y Bioqu´ımica y la Plataforma
Andaluza de Bioinform´atica de la Universidad de M´alaga, el trabajo de investigaci´on recogido
en la presente memoria de Tesis Doctoral que lleva por t´ıtulo: “Plataforma de supercompu-
taci´on para bioinform´atica”, y que la misma cumple los requisitos de idoneidad necesarios para
ser presentada por compendio de publicaciones. La memoria est´a avalada por los siguientes
art´ıculos:
- AlignMiner: a Web-based tool for detection of divergent regions in multiple sequence
alignments of conserved sequences. - Guerrero, D., Bautista, R., Villalobos, D. P., Cant´on, F.
R., and Claros, M. G. - Algorithms for Molecular Biology.
- SCBI MapReduce, a New Ruby Task-Farm Skeleton for Automated Parallelisation
and Distribution in Chunks of Sequences: The Implementation of a Boosted Blast+ - Dar´ıo
Guerrero-Fern´andez, Juan Falgueras, and M. Gonzalo Claros - Computational Biology Journal
- GENote v.�: A Web Tool Prototype for Annotation of Unfinished Sequences in Non-
model Eukaryotes - Bioinformatics for Personalized Medicine - No´e Fern´andez-Pozo, Dar´ıo
Guerrero-Fern´andez, Roc´ıo Bautista, Josefa G´omez-Maldonado, Concepci´on Avila, Francisco
M. C´anovas, M. Gonzalo Claros - Lecture Notes in Computer Science
Y para que as´ı conste, en cumplimiento de las disposiciones legales vigentes, firmo el
presente informe.
M´alaga, mayo de 2015
El Director de la Tesis,
Dr. D. M. Gonzalo Claros D´ıaz
4
Proyectos de investigaci´on
IncrementodelaeficienciaenelusodelaguaenVitis vin´ıfera L.:basesgen´eticasyfisiol´ogi-
cas para una mejor adaptaci´on al cambio clim´atico (2014-2017, RTA2013-00068-C03-02,
MINECO-INIA). IP: M.G. Claros
Implementaci´on de TECnolog´ıas INNOvadoras de mejora gen´etica en lenguado senegal´es
(Solea senegalensis) y dorada (Sparus aurata) para la optimizaci´on de su producci´on in-
dustrial (INNOTECSS) (2014-2017, RTA2013-00023-C02-01, MINECO-INIA). IP: Manuel
Manchado Campan˜a
Desarrollo de herramientas bioinform´aticas para los estudios gen´omicos y transcript´omicos
a partir de datos de secuenciaci´on de lecturas cortas de alto rendimiento para las especies
quenotienenunorganismomodelodereferencia(NEOGEN)(1-4-11a30-4-2016;Proyecto
de Excelencia de la Junta de Andaluc´ıa, P10-CVI-6075). IP: M. G. Claros
Arquitecturas, compiladores y aplicaciones en multiprocesadores - TIN2010-16144 [2011-
2013] Ip: E. L´opez Zapata y Oscar Plata
GenomictoolsinmaritimePINEforenhancedbiomassproductionandSUSTAINableforest
Management (SUSTAINPINE). (2010-2013; MICINN and FP7-PLANT-KBBE Scientific
Advisory Board PLE2009-0016). IP: Francisco C´anovas
Art´ıculos y cap´ıtulos de libros
Canales, J., Bautista, R., Label, P., G´omez-Maldonado, J., Lesur, I., Fern´andez-Pozo, N.,
... C´anovas, F. M. (2014). De novo assembly of maritime pine transcriptome: Implica-
tions for forest breeding and biotechnology. Plant Biotechnology Journal, 12(3), 286–299.
http://doi.org/10.1111/pbi.12136
Benzekri, H., Armesto, P., Cousin, X., Rovira, M., Crespo, D., Merlo, M., ... Manchado,
M. (2014). De novo assembly, characterization and functional annotation of Senegalese sole
(Solea senegalensis) and common sole (Solea solea) transcriptomes: integration in a data-
base and design of a microarray. BMC Genomics, 15(1), 952. http://doi.org/10.1186/1471-
2164-15-952
Dar´ıo Guerrero-Fern´andez, Juan Falgueras, M. Gonzalo Claros (2013). SCBI MapReduce,
aNewRubyTask-FarmSkeletonforAutomatedParallelisationandDistributioninChunks
of Sequences: The Implementation of a Boosted Blast+. Computational Biology Journal:
10/2013; 2013. DOI:10.1155/2013/707540
Dar´ıo Guerrero-Fern´andez, Rafael Larrosa, and M. Gonzalo Claros (2013). FQbin a com-
patibleandoptimizedformatforstoringandmanagingsequencedata.IWBBIO2013,page
337-344.
5
No´e Fern´andez-Pozo, Dar´ıo Guerrero-Fern´andez, Roc´ıo Bautista, Josefa G´omez-
Maldonado, Concepci´on Avila, Francisco M. C´anovas, M. Gonzalo Claros (2012). GENote
�.1: A Web Tool Prototype for Annotation of Unfinished Sequences in Non-model Eukar-
yotes. Bioinformatics for Personalized Medicine - 10.1007/978-3-642-28062-7 7
Claros, M. G., Bautista, R., Guerrero-Fern´andez, D., Benzerki, H., Seoane, P., and
Fern´andez-Pozo, N. (2012). Why Assembling Plant Genome Sequences Is So Challenging.
Biology. http://doi.org/10.3390/biology1020439
Fern´andez-Pozo, N., Canales, J., Guerrero-Fern´andez, D., Villalobos, D. P., D´ıaz-Moreno,
S. M., Bautista, R., ... and Claros, M. G. (2011). EuroPineDB: a high-coverage web data-
base for maritime pine transcriptome. BMC genomics, 12(1), 366.
Guerrero, D., Bautista, R., Villalobos, D. P., Cant´on, F. R., and Claros, M. G. (2010).
AlignMiner: a Web-based tool for detection of divergent regions in multiple sequen-
ce alignments of conserved sequences. Algorithms for Molecular Biology : AMB, 5, 24.
http://doi.org/10.1186/1748-7188-5-24
Art´ıculos en preparaci´on o revisi´on
Rosario Carmona, A. Zafra , Pedro Seoane, A. Castro, Dar´ıo Guerrero-Fern´andez,Trinidad
Castillo,AnaMedina-Garc´ıa,FranciscoM.C´anovas,Jos´eF.Aldana-Montes,IsmaelNavas-
Delgado, Juan D. Alch´e , M. Gonzalo Claros - ReprOlive: a Database with Linked-Data
for the Olive Tree (Olea europaea L.) Reproductive Transcriptome - Frontiers in Journal
(2015).
Guerrero-Fern´andez, D., Bocinos, A., Bautista, R.Fern´andez-Pozo, Juan Falgueras and
Claros, M. G. SeqTrimNext: pre-processing sequence reads for next-generation sequencing
projects.
Guerrero-Fern´andez and Claros, M. G. InGeBIOL: A web interface generator for command
line tools.
Fern´andez-Pozo, N., Guerrero-Fern´andez, D., Bautista, R. and Claros, M. G. FULL-
LENGTHERNEXT: A tool for fine-tuning de novo assembled transcriptomes of non-model
organisms.
Comunicaciones orales en congresos
Dar´ıo Guerrero-Fern´andez, No´e Fern´andez-Pozo, Almudena Bocinos, Roc´ıo Bautista and
M. Gonzalo Claros. “Highly e�cient pre-processing of NGS reads and identification of
full-length genes” - JBI2012, Barcelona. Enero 2012.
6
D. Guerrero, A. Bocinos, R. Bautista, J. Falgueras, M.G. Claros. “SeqTrimNext: prepro-
cessing for NGS”. RES Scientific Seminar of Supercomputing and Next Generation Se-
quencing, M´alaga. Marzo 2011.
D. Guerrero, “Infraestructuras del DataCenter” - IIR Datacenter design. Madrid. Noviem-
bre 2011.
D.Guerrero,“Introducci´onalusodelasherramientasbioinform´aticasdelaPAB”-ICurso
PAB de an´alisis de micromatrices - M´alaga. 2010.
Otras colaboraciones y comunicaciones a congresos
P. Seoane, R. Carmona, R. Bautista, D. Guerrero-Fern´andez, M.G. Claros. AutoFlow:
an easy way to build workflows. International Work-Conference on Bioinformatics and
Biomedical Engineering IWBBIO14. Granada, abril 2014.
PedroSeoane,RosarioCarmona,Roc´ıoBautista,Dar´ıoGuerrero-Fern´andezyM.G.Claros.
((UsingAutoflow,aworkframetoresolveworkflows,tobuildadenovoplanttranscriptome)).
Plant Genomics Congress, Londres (UK), 12-13 de mayo de 2014
Hicham Benzekri, Dar´ıo Guerrero-Fern´andez, Roc´ıo Bautista, and M.G. Claros. “Detec-
ting and correcting mis-assembled reads in contigs”. International Work-Conference on
Bioinformatics and Biomedical Engineering IWBBIO13. Granada, marzo 2013
Hicham Benzekri, Roc´ıo Bautista, Dar´ıo Guerrero-Fern´andez, No´e Fern´andez-Pozo, M. G
Claros.((Areliablepipelineforatranscriptomereferenceinnon-modelspecies)).Internatio-
nal Conference The next NGS Challenge: data processing and integration. Valencia, mayo
2013
H. Benzekri, N. Fern´andez-Pozo, D. Guerrero-Fern´andez, R. Bautista, M.G. Claros “Apro-
ximaci´on bioinform´atica al transcriptoma de Solea y su disponibilidad en SoleaDB”. Bio-
tecnolog´ıa y recursos gen´omicos aplicados a la acuicultura. Avances logrados en AQUA-
GENET. Puerto Real, mayo 2012.
N. Fern´andez-Pozo, D. Guerrero-Fern´andez, R. Bautista, J. G´omez-Maldonado, C. Avila,
F.M.Canovas,M.G.Claros.((GeNOTE:awebtoolforannotationofnon-modeleukaryotic,
unfinished sequences)). Workshop on Bioinformatics for Personalized Medicine (X Jornadas
de Bioinform´atica). M´alaga, 27-29/05/10 INT
D.Guerrero-Fern´andez,R.Bautista,D.P.Villalobos,F.R.Cant´on,M.G.Claros.“Detection
of divergent regions in aligned conserved sequences with AlignMiner”. Workshop on Bioin-
formatics for Personalized Medicine (X Jornadas de Bioinform´atica). M´alaga, 27-29/05/10
INT
7
M.G. Claros, R Bautista, N Fdez-Pozo, D Guerrero, J Falgueras “Free bioinformatics tools
for forestry genomics at the Andalusian Bioinformatics Platform”. Sustainable forest Ma-
nagement: genomic and biotechnological resources, Baeza, setiembre de 2009
8
Description:De novo assembly, characterization and functional annotation of Senegalese sole . for forestry genomics at the Andalusian Bioinformatics Platform”.