Table Of Content

Trabajo Fin de M(cid:19)aster Evaluacio(cid:19)n y mejora de algoritmos bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels Jim(cid:19)enez Otero, Norman M(cid:19)aster en T(cid:19)ecnicas Estad(cid:19)(cid:16)sticas Curso 2015-2016 ii iii Propuesta de Trabajo Fin de M(cid:19)aster T(cid:19)(cid:16)tulo en galego: Avaliaci(cid:19)on e mellora dos algoritmos bioinform(cid:19)aticos con base estat(cid:19)(cid:16)stica para a detecci(cid:19)on de macro-indels T(cid:19)(cid:16)tulo en espan~ol:Evaluaci(cid:19)onymejoradealgoritmosbioinform(cid:19)aticosconbaseestad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels English title:Evaluationandimprovementofstatistically-basedbioinformaticsalgorithms for the detection of macro-indels Modalidad: Modalidad B Autor: Jim(cid:19)enez Otero, Norman, Universidad de Vigo Director: de Un~a A(cid:19)lvarez, Jacobo, Universidad de Vigo Tutora: Gonz(cid:19)alez Castro, Lorena, Gradiant Breve resumen del trabajo: La secuenciaci(cid:19)on del ADN ha sufrido un desarrollo sin precedentes con la introducci(cid:19)on en los u(cid:19)ltimos an~os de las tecnolog(cid:19)(cid:16)as de secuenciacio(cid:19)nmasiva(Next-Generationsequencing,NGS),quegraciasasualtorendimientoest(cid:19)anpotenciandoeldesarrollodenuevas aplicacionesypruebasbiol(cid:19)ogicas.Desdelaaparici(cid:19)ondelNGS,sehanutilizadodiferentesalgoritmosdemachinelearningparamodelar losperfilesgen(cid:19)eticos,aplic(cid:19)andoseendiversosestudiosqueanalizanlaestructuradelasvariacionesdelgenomahumanoytratande encontrarrelacionesestad(cid:19)(cid:16)sticasconlasenfermedades.ElproyectoGRIDD(desarrolladoenGradiantconlacolaboraci(cid:19)ondelCHUS) tienecomoobjetivoeldesarrollodeunalgoritmoquepermitaladetecci(cid:19)onautom(cid:19)aticademacroinsercionesymacrodeleciones(un tipoespec(cid:19)(cid:16)ficodevariantesestructuralesdelgenoma)quepermitir(cid:19)aasistiralosprofesionalessanitariosyacelerareldiagn(cid:19)osticode enfermedadesneurometab(cid:19)olicascong(cid:19)enitas.Pararealizarelan(cid:19)alisisestad(cid:19)(cid:16)sticodelosdatosseest(cid:19)anutilizandoactualmentet(cid:19)ecnicas cla(cid:19)sicasdereconocimientodepatrones,comoelan(cid:19)alisisdecomponentesprincipales(PCA)ylasm(cid:19)aquinasdevectoressoporte(SVMs). Entrelosobjetivosaalcanzardentrodeestapr(cid:19)acticaseencuentraneldeevaluardiferentesalgoritmosyherramientasexistentes(como porejemploCONTRA[1]),as(cid:19)(cid:16)comolaaplicaci(cid:19)ondet(cid:19)ecnicasestad(cid:19)(cid:16)sticasquecontribuyanamejorarlosresultadosdedetecci(cid:19)ondel algoritmoqueest(cid:19)asiendodesarrolladodentrodelmarcodeesteproyecto.Porello,esdeseablequeelalumnoseacapazdecomprender algoritmosimplementadosendiferenteslenguajesdeprogramaci(cid:19)on(comoPythonoC/C++)ydemanejarherramientasestad(cid:19)(cid:16)sticas comoRoMatlab. Recomendaciones: Otras observaciones: Gradiant se reserva el derecho a participar en el proceso selectivo del estudiante. iv v Don de Un~a A(cid:19)lvarez, Jacobo, Catedr(cid:19)atico de Universidad de la Universidad de Vigo, y don~a Gonz(cid:19)alez Castro, Lorena, Investigadora, Ingeniera de Telecomunicaciones de Gradiant, informan que el Trabajo Fin de M(cid:19)aster titulado Evaluaci(cid:19)on y mejora de algoritmos bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels fuerealizadobajosudirecci(cid:19)onpordonJim(cid:19)enezOtero,NormanparaelM(cid:19)asterenT(cid:19)ecnicasEstad(cid:19)(cid:16)sticas. Estimando que el trabajo est(cid:19)a terminado, dan su conformidad para su presentaci(cid:19)on y defensa ante un tribunal. En Vigo, a 29 de Junio de 2016. El director: Don de Un~a A(cid:19)lvarez, Jacobo La tutora: Don~a Gonz(cid:19)alez Castro, Lorena El autor: Don Jim(cid:19)enez Otero, Norman vi Agradecimientos Quiero agradecer este trabajo, especialmente, a mi tutor Jacobo, que, adem(cid:19)as, de despertar en m(cid:19)(cid:16) el inter(cid:19)es por las matem(cid:19)aticas en mi u(cid:19)ltimo an~o de carrera en biolog(cid:19)(cid:16)a y motivarme para estudiar este master, me ha apoyado y ayudado para poder realizar este trabajo, ya que sin su consejo y cono- cimiento no hubiera sido posible su realizaci(cid:19)on. Tambi(cid:19)enquieroagradeceraLorenayaHelenasuafecto,apoyoyrecibimiento,durantemiestancia en Gradiant, y quiero agradecerles haberme dado la oportunidad de poder trabajar con ellas. Sin su ayuda no habr(cid:19)(cid:16)a sido posible este trabajo. Tambi(cid:19)en quiero agradecer a mis padres y en especial a Paula el apoyo y (cid:19)animos que me ha dado para durante estos u(cid:19)ltimos an~os. vii viii (cid:19) Indice general Resumen XI Prefacio XIII 1. Introducci(cid:19)on 1 2. Secuenciaci(cid:19)on de nueva generaci(cid:19)on (NGS) 5 2.1. Forma de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2. Errores de secuenciaci(cid:19)on y longitud de los reads . . . . . . . . . . . . . . . . . . . . . . . 10 2.3. Sesgo GC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3. Modelo 13 3.1. Modelo: R constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2. Par(cid:19)ametro general del experimento (cid:21) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.1. Lema Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.2. Comparaciones mu(cid:19)ltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3.3. Contraste aplicado a una regi(cid:19)on real . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.1. Simulaci(cid:19)on alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.6. Simular alteraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.6.1. Deleci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.6.2. Duplicaci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.6.3. Varianza en las alteraciones y comparaci(cid:19)on con ejemplos reales . . . . . . . . . . 31 3.7. Validez del contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.8. Estad(cid:19)(cid:16)stico resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4. Modelo con R aleatorio 45 4.1. Modelo: R aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.1. Longitud de los reads R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.3. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.4. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5. Enfoque funcional 55 5.1. Detecci(cid:19)on de una regi(cid:19)on alterada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 ix x (cid:19)INDICE GENERAL 6. Algoritmo CONTRA 61 6.1. CONTRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.2. Pasos detallados del algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.2.1. Correcci(cid:19)on del taman~o de la librer(cid:19)(cid:16)a . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2.2. Contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.3. Enfoque heur(cid:19)(cid:16)stico para la predicci(cid:19)on de grandes CNV . . . . . . . . . . . . . . . . . . . 67 7. Conclusi(cid:19)on 69 A. C(cid:19)odigo de R de los scripts utilizados y datos 71 Bibliograf(cid:19)(cid:16)a 93

Description:

particular, se aplica un contraste clásico de Neyman-Pearson para El contraste de la cobertura de las regiones se encuentra en el script contraste. y alternativa simples, aplicar el lemma de Neyman-Pearson al igual que.

Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... PDF

108 Pages·2016·2.14 MB·Spanish

Checking for file health...

Save to my drive

Quick download

Download

Download Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... PDF Free - Full Version

by Unknow| 2016| 108 pages| 2.14| Spanish

Download Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... by in PDF format completely FREE. No registration required, no payment needed. Get instant access to this valuable resource on PDFdrive.to!

Free Download PDF

About Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ...

Detailed Information

Author:	Unknown
Publication Year:	2016
Pages:	108
Language:	Spanish
File Size:	2.14
Format:	PDF
Price:	FREE

Download Free PDF

Safe & Secure Download - No registration required

Why Choose PDFdrive for Your Free Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... Download?

100% Free: No hidden fees or subscriptions required for one book every day.
No Registration: Immediate access is available without creating accounts for one book every day.
Safe and Secure: Clean downloads without malware or viruses
Multiple Formats: PDF, MOBI, Mpub,... optimized for all devices
Educational Resource: Supporting knowledge sharing and learning

Frequently Asked Questions

Is it really free to download Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... PDF?

Yes, on https://PDFdrive.to you can download Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... by completely free. We don't require any payment, subscription, or registration to access this PDF file. For 3 books every day.

How can I read Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... on my mobile device?

After downloading Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... PDF, you can open it with any PDF reader app on your phone or tablet. We recommend using Adobe Acrobat Reader, Apple Books, or Google Play Books for the best reading experience.

Is this the full version of Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ...?

Yes, this is the complete PDF version of Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... by Unknow. You will be able to read the entire content as in the printed version without missing any pages.

Is it legal to download Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... PDF for free?

https://PDFdrive.to provides links to free educational resources available online. We do not store any files on our servers. Please be aware of copyright laws in your country before downloading.

The materials shared are intended for research, educational, and personal use in accordance with fair use principles.