Table Of ContentTrabajo Fin de M(cid:19)aster
Evaluacio(cid:19)n y mejora de algoritmos
bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica
para la detecci(cid:19)on de macro-indels
Jim(cid:19)enez Otero, Norman
M(cid:19)aster en T(cid:19)ecnicas Estad(cid:19)(cid:16)sticas
Curso 2015-2016
ii
iii
Propuesta de Trabajo Fin de M(cid:19)aster
T(cid:19)(cid:16)tulo en galego: Avaliaci(cid:19)on e mellora dos algoritmos bioinform(cid:19)aticos con base estat(cid:19)(cid:16)stica
para a detecci(cid:19)on de macro-indels
T(cid:19)(cid:16)tulo en espan~ol:Evaluaci(cid:19)onymejoradealgoritmosbioinform(cid:19)aticosconbaseestad(cid:19)(cid:16)stica
para la detecci(cid:19)on de macro-indels
English title:Evaluationandimprovementofstatistically-basedbioinformaticsalgorithms
for the detection of macro-indels
Modalidad: Modalidad B
Autor: Jim(cid:19)enez Otero, Norman, Universidad de Vigo
Director: de Un~a A(cid:19)lvarez, Jacobo, Universidad de Vigo
Tutora: Gonz(cid:19)alez Castro, Lorena, Gradiant
Breve resumen del trabajo:
La secuenciaci(cid:19)on del ADN ha sufrido un desarrollo sin precedentes con la introducci(cid:19)on en los u(cid:19)ltimos an~os de las tecnolog(cid:19)(cid:16)as de
secuenciacio(cid:19)nmasiva(Next-Generationsequencing,NGS),quegraciasasualtorendimientoest(cid:19)anpotenciandoeldesarrollodenuevas
aplicacionesypruebasbiol(cid:19)ogicas.Desdelaaparici(cid:19)ondelNGS,sehanutilizadodiferentesalgoritmosdemachinelearningparamodelar
losperfilesgen(cid:19)eticos,aplic(cid:19)andoseendiversosestudiosqueanalizanlaestructuradelasvariacionesdelgenomahumanoytratande
encontrarrelacionesestad(cid:19)(cid:16)sticasconlasenfermedades.ElproyectoGRIDD(desarrolladoenGradiantconlacolaboraci(cid:19)ondelCHUS)
tienecomoobjetivoeldesarrollodeunalgoritmoquepermitaladetecci(cid:19)onautom(cid:19)aticademacroinsercionesymacrodeleciones(un
tipoespec(cid:19)(cid:16)ficodevariantesestructuralesdelgenoma)quepermitir(cid:19)aasistiralosprofesionalessanitariosyacelerareldiagn(cid:19)osticode
enfermedadesneurometab(cid:19)olicascong(cid:19)enitas.Pararealizarelan(cid:19)alisisestad(cid:19)(cid:16)sticodelosdatosseest(cid:19)anutilizandoactualmentet(cid:19)ecnicas
cla(cid:19)sicasdereconocimientodepatrones,comoelan(cid:19)alisisdecomponentesprincipales(PCA)ylasm(cid:19)aquinasdevectoressoporte(SVMs).
Entrelosobjetivosaalcanzardentrodeestapr(cid:19)acticaseencuentraneldeevaluardiferentesalgoritmosyherramientasexistentes(como
porejemploCONTRA[1]),as(cid:19)(cid:16)comolaaplicaci(cid:19)ondet(cid:19)ecnicasestad(cid:19)(cid:16)sticasquecontribuyanamejorarlosresultadosdedetecci(cid:19)ondel
algoritmoqueest(cid:19)asiendodesarrolladodentrodelmarcodeesteproyecto.Porello,esdeseablequeelalumnoseacapazdecomprender
algoritmosimplementadosendiferenteslenguajesdeprogramaci(cid:19)on(comoPythonoC/C++)ydemanejarherramientasestad(cid:19)(cid:16)sticas
comoRoMatlab.
Recomendaciones:
Otras observaciones:
Gradiant se reserva el derecho a participar en el proceso selectivo del estudiante.
iv
v
Don de Un~a A(cid:19)lvarez, Jacobo, Catedr(cid:19)atico de Universidad de la Universidad de Vigo, y don~a Gonz(cid:19)alez
Castro, Lorena, Investigadora, Ingeniera de Telecomunicaciones de Gradiant, informan que el Trabajo
Fin de M(cid:19)aster titulado
Evaluaci(cid:19)on y mejora de algoritmos bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica para la
detecci(cid:19)on de macro-indels
fuerealizadobajosudirecci(cid:19)onpordonJim(cid:19)enezOtero,NormanparaelM(cid:19)asterenT(cid:19)ecnicasEstad(cid:19)(cid:16)sticas.
Estimando que el trabajo est(cid:19)a terminado, dan su conformidad para su presentaci(cid:19)on y defensa ante un
tribunal.
En Vigo, a 29 de Junio de 2016.
El director:
Don de Un~a A(cid:19)lvarez, Jacobo
La tutora:
Don~a Gonz(cid:19)alez Castro, Lorena
El autor:
Don Jim(cid:19)enez Otero, Norman
vi
Agradecimientos
Quiero agradecer este trabajo, especialmente, a mi tutor Jacobo, que, adem(cid:19)as, de despertar en
m(cid:19)(cid:16) el inter(cid:19)es por las matem(cid:19)aticas en mi u(cid:19)ltimo an~o de carrera en biolog(cid:19)(cid:16)a y motivarme para estudiar
este master, me ha apoyado y ayudado para poder realizar este trabajo, ya que sin su consejo y cono-
cimiento no hubiera sido posible su realizaci(cid:19)on.
Tambi(cid:19)enquieroagradeceraLorenayaHelenasuafecto,apoyoyrecibimiento,durantemiestancia
en Gradiant, y quiero agradecerles haberme dado la oportunidad de poder trabajar con ellas. Sin su
ayuda no habr(cid:19)(cid:16)a sido posible este trabajo.
Tambi(cid:19)en quiero agradecer a mis padres y en especial a Paula el apoyo y (cid:19)animos que me ha dado
para durante estos u(cid:19)ltimos an~os.
vii
viii
(cid:19)
Indice general
Resumen XI
Prefacio XIII
1. Introducci(cid:19)on 1
2. Secuenciaci(cid:19)on de nueva generaci(cid:19)on (NGS) 5
2.1. Forma de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Errores de secuenciaci(cid:19)on y longitud de los reads . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Sesgo GC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3. Modelo 13
3.1. Modelo: R constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Par(cid:19)ametro general del experimento (cid:21) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3.1. Lema Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3.2. Comparaciones mu(cid:19)ltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.3. Contraste aplicado a una regi(cid:19)on real . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.1. Simulaci(cid:19)on alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.6. Simular alteraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6.1. Deleci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.2. Duplicaci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6.3. Varianza en las alteraciones y comparaci(cid:19)on con ejemplos reales . . . . . . . . . . 31
3.7. Validez del contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.8. Estad(cid:19)(cid:16)stico resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4. Modelo con R aleatorio 45
4.1. Modelo: R aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.1. Longitud de los reads R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5. Enfoque funcional 55
5.1. Detecci(cid:19)on de una regi(cid:19)on alterada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
ix
x (cid:19)INDICE GENERAL
6. Algoritmo CONTRA 61
6.1. CONTRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2. Pasos detallados del algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2.1. Correcci(cid:19)on del taman~o de la librer(cid:19)(cid:16)a . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2.2. Contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.3. Enfoque heur(cid:19)(cid:16)stico para la predicci(cid:19)on de grandes CNV . . . . . . . . . . . . . . . . . . . 67
7. Conclusi(cid:19)on 69
A. C(cid:19)odigo de R de los scripts utilizados y datos 71
Bibliograf(cid:19)(cid:16)a 93
Description:particular, se aplica un contraste clásico de Neyman-Pearson para El contraste de la cobertura de las regiones se encuentra en el script contraste. y alternativa simples, aplicar el lemma de Neyman-Pearson al igual que.