Table Of ContentEscuela Te´cnica Superior de
Ingenier´ıa Informa´tica
Master Universitario en Lo´gica, Computacio´n
e Inteligencia Artificial
Trabajo fin de Master:
An´alisis gen´omico a trav´es de herramientas
inform´aticas aplicadas a datos de secuenciaci´on de
nueva generaci´on
Autor:
Alejandro Alem´an Ramos
Tutor:
D. Francisco Romero Campero
Sevilla, Viernes 1 de Julio de 2011
2
El proyecto que aqu´ı presentamos hace una revisio´n exhaustiva de una serie de
herramientas que han surgido en el contexto de la secuenciaci´on de nueva generacio´n.
Para ello se ha dividido dicho proyecto en dos partes claramente diferenciadas.
La primera parte trata sobre una revisio´n del software usado. Dentro del software usado
podemos destacar herramientas para indexar genomas, bu´squeda de alineamientos en
genomas, herramientas para realizar ana´lisis transcript´omicos cualitativos y
herramientas para realizar an´alisis transcripto´micos cuantitativos.
La segunda parte del proyecto se basa en la realizaci´on de una serie de experimentos
donde se muestra la utilizacio´n de dichas aplicaciones anteriormente mencionadas en la
parte primera, as´ı como de los resultados devueltos por dichas aplicaciones
3
4
´
Indice general
I Manuales de usuario 13
1. Bowtie 15
1.1. ¿Qu´e es Bowtie? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2. ¿Qu´e no es Bowtie?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. Obtener Bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.1. Compilando desde los fuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4. El alineador bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1. El modo de alineaci´on -n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2. El modo de alineaci´on -v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.3. Estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.4. Modos de representaci´on de informes . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.5. Alineamiento de Extremos emparejados . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.6. Alineacion por Espacio de Colores . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.7. Optimizaci´on del rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.8. L´ınea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.9. Salida por defecto de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4.10. Salida en formato SAM de bowtie . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.5. El indexador bowtie-build . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.5.1. L´ınea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6. El inspector de´ındices bowtie-inspect . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.6.1. L´ınea de Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2. TopHat 37
2.1. ¿Qu´e es TopHat? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2. ¿Qu´e tipo de lecturas podemos usar con TopHat? . . . . . . . . . . . . . . . . . . . . . . . 37
2.3. ¿C´omo encuentra TopHat las uniones? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5. Obtener e instalar TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6. Usando el mapeador de uniones TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.3. Opciones Avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6.4. Suministrando nuestras propias uniones . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.5. Suministrando nuestas propias inserciones y deleciones . . . . . . . . . . . . . . . . 43
2.6.6. Proporcionando a TopHat un fichero de anotaciones . . . . . . . . . . . . . . . . . 43
2.7. Salida de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3. Cufflinks 45
3.1. ¿Qu´e es Cufflinks? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.1. ¿C´omo ensambla los transcritos Cufflinks? . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.2. ¿C´omo calcula Cufflinks la abundancia de transcritos? . . . . . . . . . . . . . . . . 46
3.1.3. ¿C´omo calcula Cufflinks la distribuci´on de la longitud de los fragmentos? . . . . . 46
3.1.4. ¿C´omo Cufflinks identifica y corrige el sesgo de las secuencias? . . . . . . . . . . . 47
3.1.5. ¿C´omo gestiona Cufflinks las lecturas con mu´ltiples alineaciones? . . . . . . . . . . 47
5
3.1.6. ¿C´omo funciona la anotaci´on de referencia basada en transcritos (RABT)? . . . . 47
3.2. ¿Qu´e es Cuffdiff? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.1. ¿C´omo prueba Cuffdiff la expresi´on diferencial y la regulaci´on? . . . . . . . . . . . 48
3.2.2. ¿C´omo funciona la normalizaci´on del cuartil superior? . . . . . . . . . . . . . . . . 50
3.2.3. ¿C´omo trata Cuffdiff las r´eplicas biol´ogicas? . . . . . . . . . . . . . . . . . . . . . . 50
3.3. Prerrequisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4. Ejecutando Cufflinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.2. Opciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.3. Opciones avanzadas de estimaci´on de la abundancia . . . . . . . . . . . . . . . . . 53
3.4.4. Opciones avanzadas de ensamblaje . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.5. Opciones avanzadas de anotaciones de referencia basada en Transcritos (RABT) . 54
3.4.6. Opciones avanzadas del programa de comportamiento . . . . . . . . . . . . . . . . 55
3.4.7. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.8. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5. Ejecutando Cuffcompare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.3. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.4. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6. Uniendo ensamblajes con Cuffmerge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6.3. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6.4. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7. Ejecutando Cuffdiff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7.1. Argumentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7.2. Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7.3. Opciones avanzadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.7.4. Ficheros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7.5. Ficheros de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.8. Formato de seguimiento FPKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.9. Biblioteca de Tipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4. SAMtools 69
4.1. ¿Qu´e es SAMtools? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2. Comandos y opciones de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
II Casos pr´acticos 75
5. Arabidopsis Thaliana 77
5.1. Genoma de la A. Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2. Indexaci´on del Genoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3. Experimento SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.3.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.3.2. Ejecuci´on de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.3. Ejecuci´on de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3.4. Ejecuci´on de Cufflinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.3.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4. Experimento SRX011868. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4.2. Ejecuci´on de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.4.3. Ejecuci´on de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.4.4. Ejecuci´on de Cufflinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6
5.5. Experimento SRX022366. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5.1. Lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5.2. Ejecuci´on de TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.5.3. Ejecuci´on de SAMtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.5.4. Ejecuci´on de Cufflinks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.5.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Ap´endices 104
A. Formatos de ficheros 107
A.1. SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.1.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.1.2. Cabecera del formato SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
A.1.3. Campos obligatorios de la secci´on de Alineamientos . . . . . . . . . . . . . . . . . 109
A.1.4. Campos opcionales de la secci´on de alineamientos. . . . . . . . . . . . . . . . . . . 112
A.2. BAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3. BED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3.2. Campos obligatorios en el formato BED . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3.3. Campos adicionales u opcionales en el formato BED . . . . . . . . . . . . . . . . . 114
A.3.4. Ejemplo de fichero BED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A.4. FASTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A.4.1. L´ınea de cabecera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
A.4.2. Representaci´on de la secuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
A.5. FASTQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
A.5.1. Formato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
A.6. GFF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.7. GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.7.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.7.2. Campos del formato GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
A.7.3. Ejemplos del formato GTF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Bibliograf´ıa 121
7
8
´
Indice de Figuras
5.1. Detalle de la Arabidopsis Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2. Ficheros del genoma de la A. Thaliana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3. Detalle del Cromosoma 1 de la A.Thaliana. . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4. Ficheros del Genoma indexado de la A.Thaliana . . . . . . . . . . . . . . . . . . . . . . . 79
5.5. Grafico del taman˜o de las lecturas del exp SRP000615 . . . . . . . . . . . . . . . . . . . . 80
5.6. Detalle de las lecturas cortas del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . 81
5.7. Ficheros creados por Tophat en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 83
5.8. Detalle del fichero junctions.bed del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . 83
5.9. Porcentajes de alineamientos en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 84
5.10.Fichero accepted hits.sam del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.11.Fichero genes.fpkm tracking del exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . 86
5.12.Tiempos ejecuci´on exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.13.Expresi´on diferencial en el exp SRP000615 . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.14.Detalle de las lecturas cortas del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . 89
5.15.Ficheros creados por Tophat en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 90
5.16.Porcentajes de alineamientos en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 91
5.17.Fichero accepted hits.sam del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.18.Fichero genes.fpkm tracking del exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . 94
5.19.Tiempos ejecuci´on exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.20.Expresi´on diferencial en el exp SRX011868 . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.21.Detalle de las lecturas cortas del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . 97
5.22.Ficheros creados por Tophat en el exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . 98
5.23.Detalle del fichero junctions.bed del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . 99
5.24.Porcentajes de alineamientos en el exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . 99
5.25.Fichero accepted hits.sam del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.26.Fichero genes.fpkm tracking del exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . 101
5.27.Tiempos ejecuci´on exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.28.Expresi´on diferencial en el exp SRX022366 . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.1. Ejemmplo de lecturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.2. Ejemplo de fichero SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9
10
Description:42. 2.6.5. Suministrando nuestas propias inserciones y deleciones 43. 2.6.6. Proporcionando a TopHat un fichero de anotaciones .