Table Of ContentUniversidade de Bras(cid:237)lia
Instituto de CiŒncias Exatas
Departamento de CiŒncia da Computa(cid:231)ªo
Modelo de Dados para um Pipeline de Sequenciamento
de Alto Desempenho Transcrit(cid:244)mico
Ruben Cruz Huacarpuma
Disserta(cid:231)ªo apresentada como requisito parcial
para conclusªo do Mestrado em InformÆtica
Orientadora
a a
Prof. Dr. Maristela Terto de Holanda
Bras(cid:237)lia
2012
Universidade de Bras(cid:237)lia (cid:22) UnB
Instituto de CiŒncias Exatas
Departamento de CiŒncia da Computa(cid:231)ªo
Mestrado em InformÆtica
Coordenador: Prof. Dr. Mauricio Ayala Rinc(cid:243)n
Banca examinadora composta por:
a a
Prof. Dr. Maristela Terto de Holanda (Orientadora) (cid:22) CIC/UnB
Prof. Dr. SØrgio Lifschitz (cid:22) Departamento de InformÆtica/PUC-Rio
a a
Prof. Dr. CØlia Ghedini Ralha (cid:22) CIC/UnB
CIP (cid:22) Cataloga(cid:231)ªo Internacional na Publica(cid:231)ªo
Huacarpuma, Ruben Cruz.
Modelo de Dados para um Pipeline de Sequenciamento de Alto De-
sempenho Transcrit(cid:244)mico / Ruben Cruz Huacarpuma. Bras(cid:237)lia : UnB,
2012.
99 p. : il. ; 29,5 cm.
Disserta(cid:231)ªo (Mestrado) (cid:22) Universidade de Bras(cid:237)lia, Bras(cid:237)lia, 2012.
1. Modelo Conceitual, 2. Modelo de Dados, 3. Bioinformatica,
4. Banco de Dados, 5. Dados Biol(cid:243)gicos
CDU 10/0055684
Endere(cid:231)o: Universidade de Bras(cid:237)lia
Campus UniversitÆrio Darcy Ribeiro (cid:22) Asa Norte
CEP 70910-900
Bras(cid:237)lia(cid:21)DF (cid:22) Brasil
Universidade de Bras(cid:237)lia
Instituto de CiŒncias Exatas
Departamento de CiŒncia da Computa(cid:231)ªo
Modelo de Dados para um Pipeline de Sequenciamento
de Alto Desempenho Transcrit(cid:244)mico
Ruben Cruz Huacarpuma
Disserta(cid:231)ªo apresentada como requisito parcial
para conclusªo do Mestrado em InformÆtica
a a
Prof. Dr. Maristela Terto de Holanda (Orientadora)
CIC/UnB
a a
Prof. Dr. SØrgio Lifschitz Prof. Dr. CØlia Ghedini Ralha
Departamento de InformÆtica/PUC-Rio CIC/UnB
Prof. Dr. Mauricio Ayala Rinc(cid:243)n
Coordenador do Mestrado em InformÆtica
Bras(cid:237)lia, 01 de mar(cid:231)o de 2012
Dedicat(cid:243)ria
Dedico este trabalho aos meus pais que, ainda longe, sempre acreditaram em mim.
Exemplos de for(cid:231)a e dedica(cid:231)ªo, bases da minha forma(cid:231)ªo como pessoa, que cuidaram com
aten(cid:231)ªo ensinando-me os valores da vida.
Aos meus irmªos e toda minha fam(cid:237)lia que nunca se esqueceram de mim.
Aos mestres que souberam ensinar e guiar na dire(cid:231)ªo correta, a todas as pessoas que
acreditaramnaminhacapacidade. Emespecialaminhaorientadora,queaindadeculturas
diferentes, soube me entender e acreditar em minhas habilidades, (cid:16)MUCHAS GRACIAS(cid:17)
Dra. Maristela Holanda.
(cid:16)Eu acredito demais na sorte. E tenho constatado que, quanto mais duro eu trabalho,
mais sorte eu tenho.(cid:17) Thomas Je(cid:27)erson
iv
Agradecimentos
Antes de tudo preciso dizer que meus agradecimentos nªo sªo formais. Eu nªo me
reconheceria neles se assim fora. Quero agradecer a todas as pessoas que se (cid:28)zeram
presentes, que se preocuparam, que foram solidÆrias, que torceram por mim. Mas bem
sei que agradecer Ø sempre dif(cid:237)cil. Posso cometer mais injusti(cid:231)as esquecendo pessoas que
me ajudaram do que fazer justi(cid:231)a a todas que merecem.
De qualquer forma, todos os que realizam um trabalho de pesquisa sabem que nªo o
fazem sozinhos, embora seja solitÆrio o ato da leitura (em nossos tempos) e o do escrever.
O resultado de nossos estudos foi poss(cid:237)vel apenas pela coopera(cid:231)ªo e pelo esfor(cid:231)o de outros
antes de n(cid:243)s. Como grandes pesquisadores da import(cid:226)ncia de Albert Einstein disse "Nªo
descobri a teoria da relatividade apenas com o pensamento racional". Isto me leva a
questionar quanto deste trabalho Ø meu e quanto Ø dos outros com quem convivi e com
quem convivo, entªo chego (cid:224) conclusªo de que este trabalho nªo Ø s(cid:243) meu.
Queria agradecer de maneira especial a minha professora Maristela Terto de Holanda,
minha orientadora do mestrado pelas aulas, pelas sugestıes pelos conselhos e dicas de
pesquisa, pelo material emprestado, pela paciŒncia que teve comigo, pela participa(cid:231)ªo e
pela ajuda incondicional, juntamente com a Profesora Maria Em(cid:237)lia M. T. Walter quem
com seus conhecimentos e experiŒncia souberam me encaminhar no mestrado. O professor
SØrgio Lifschitz e a professora CØlia Ghedini Ralha que sªo parte da minha banca de
quali(cid:28)ca(cid:231)ªo, agrade(cid:231)o pela sua presen(cid:231)a, suas sugestıes e contribui(cid:231)ıes para com meu
trabalho.
Agrade(cid:231)o a todas as pessoas que con(cid:28)aram em mim desde o primeiro momento que
comecei o mestrado e me ajudaram nas minhas primeiras experiŒncias neste novo pa(cid:237)s
que me acolheu com bra(cid:231)os aberto. Agrade(cid:231)o, particularmente, (cid:224) Juliana Barbosa, mi-
nha primeira amiga e con(cid:28)dente no Brasil que fez todo o poss(cid:237)vel para eu me adaptar
num lugar novo, de costumes diferentes dos meus, muito obrigado Juliana. Nªo poderia
deixar de lado a minha fam(cid:237)lia que, mesmo longe de mim, fez o poss(cid:237)vel para me ajudar e
dar suporte nos momentos dif(cid:237)ceis. Nªo poderia me esquecer de meus colegas de mestrado
que me acompanharam nesta etapa da minha vida, muito obrigado Daniel Saad, Wosley
Arruda, Tulio Conrado, Paulo Alvarez, Felipe Lessa, Halian Vilela, Taina Raiol, Beatriz
Walter, Harley Olivera, e todo o pessoal da BioinformÆtica e do CIC com os quais passei
bons momentos.
MUITO OBRIGADO A TODOS VOC˚S, NUNCA PODEREI PAGAR SEU APOIO
SOMENTE COM MINHA GRATIDˆO ETERNA.
v
Resumo
O rÆpido avan(cid:231)o nas tØcnicas de sequenciamento de alto desempenho de fragmentos de
DNA/RNA criou novos desa(cid:28)os computacionais na Ærea de bioinformÆtica. Um desses de-
sa(cid:28)os Ø administrar o enorme volume de dados gerados pelos sequenciadores automÆticos,
particularmente o armazenamento e a anÆlise desses dados processados em larga escala.
A existŒncia de diferentes formatos de representa(cid:231)ªo, terminologia, estrutura de arquivos
e sem(cid:226)nticas, faz muito complexa a representa(cid:231)ªo e administra(cid:231)ªo desses dados. Neste
contexto, um modelo de dados para representar, organizar e garantir o acesso aos dados
biol(cid:243)gicos Ø essencial para suportar o trabalho dos pesquisadores do campo da biologia,
quando fazendo uso de pipelines de sequenciamento de alto desempenho.
Este trabalho propıe tanto um modelo de dados conceitual, como tambØm seu res-
pectivo esquema relacional, permitindo a representa(cid:231)ªo e o gerenciamento de um pipeline
de sequenciamento de alto desempenho para projetos transcrit(cid:244)micos no intuito de or-
ganizar e armazenar de maneira simples e e(cid:28)ciente os dados gerados em cada fase da
anÆlise do pipeline. Nesta disserta(cid:231)ªo, trabalhamos com pipelines de sequenciamento de
alto desempenho com trŒs fases: (cid:28)ltragem, mapeamento e anÆlise. Para validar nosso mo-
delo, apresentamos dois estudos de casos para identi(cid:28)car a expressªo diferencial de genes
usando dados de sequenciamento de alto desempenho transcrit(cid:244)mico. Estes estudos de
caso mostraram que introduzir o modelo de dados, e o esquema correspondente, tornou o
pipeline mais e(cid:28)ciente, organizado, para dar suporte ao trabalho dos bi(cid:243)logos envolvidos
em um projeto de transcritoma.
Palavras-chave:ModeloConceitual, ModelodeDados, Bioinformatica, BancodeDados,
Dados Biol(cid:243)gicos
vi
Abstract
Therapidadvancesinhigh-throughputsequencingtechniquesofDNA/RNAfragments
created new computational challenges in bioinformatics. One of these challenges is to
managetheenormousvolumeofdatageneratedbyautomaticsequencers,speciallystorage
and analysis of these data processed on large scale. The existence of representation
format, terminology, (cid:28)le structure and semantics, becomes very complex representation
and management of such data. In this context, a data model to represent, organize and
provide access to biological data is essential to support the researchers works into biology
(cid:28)eld when using high-throughput sequencing.
This work proposes a conceptual model as well as its database schema to represent
and manage a high-throughput transcriptome pipeline in order to organize and store in
a simple and e(cid:28)cient way data generated in each pipeline phase. In this dissertation,
we work with three phases high-throughput sequencing pipeline: (cid:28)ltering, mapping and
analysis. In order to validate our model, we present two case studies both having the
objective of identifying di(cid:27)erentially expressed genes using high-throughput sequencing
transcriptome data. These case studies showed that uses a data model, and its database
schema, became the pipeline more e(cid:28)ceint, organized, and support the biologists works
involved in a transcriptome project.
Keywords: Conceptual Model, Data Modeling, Bioinformatics, Database, Biological
Data
vii
SumÆrio
1 Introdu(cid:231)ªo 1
1.1 Motiva(cid:231)ªo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Objetivos Espec(cid:237)(cid:28)cos . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Conceitos BÆsicos de Biologia Molecular e BioinformÆtica 4
2.1 Biologia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Prote(cid:237)na . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 `cidos NuclØicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.3 Dogma Central da Biologia Molecular . . . . . . . . . . . . . . . . . 11
2.2 BioinformÆtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Tecnologias de Sequenciamento de Alto Desempenho . . . . . . . . 12
2.2.2 Projetos Transcritoma . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Pipelines para Projetos Transcritoma . . . . . . . . . . . . . . . . . 13
2.2.4 Bancos de Dados Biol(cid:243)gicos . . . . . . . . . . . . . . . . . . . . . . 15
3 Modelos de Dados para BioinformÆtica 17
3.1 Modelagem de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Modelo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 Modelos de Dados para BioinformÆtica . . . . . . . . . . . . . . . . 23
3.1.3 Proposta de Esquema de Dados para BioinformÆtica . . . . . . . . 29
4 Modelo de Dados para um Pipeline de Sequenciamento de Alto Desem-
penho 32
4.1 Estrutura Geral do Pipeline de Sequenciamento de Alto Desempenho . . . 32
4.2 Modelo Conceitual para o Pipeline de Sequenciamento de Alto Desempenho 34
4.2.1 Modelo de Dados da Fase de Filtragem . . . . . . . . . . . . . . . . 37
4.2.2 Modelo de Dados da Fase de Mapeamento . . . . . . . . . . . . . . 40
4.2.3 Modelo de Dados da Fase de AnÆlise . . . . . . . . . . . . . . . . . 41
4.3 De(cid:28)ni(cid:231)ªo do Esquema Relacional do Pipeline . . . . . . . . . . . . . . . . . 43
4.3.1 Esquema Relacional da Fase de Filtragem . . . . . . . . . . . . . . 43
4.3.2 Esquema Relacional da Fase de Mapeamento . . . . . . . . . . . . . 46
4.3.3 Esquema Relacional da Fase de AnÆlise . . . . . . . . . . . . . . . . 47
viii
5 Estudo de Caso 52
5.1 Visªo Geral do Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Arquitetura Abstrata do Pipeline . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Discussªo e AnÆlises dos Resultados Experimentais do Pipeline . . . . . . 57
5.3.1 AnÆlises Sobre o Modelo Conceitual . . . . . . . . . . . . . . . . . . 57
5.3.2 Compara(cid:231)ªo da E(cid:28)ciŒncia no Armazenamento de Dados . . . . . . 59
5.3.3 AnÆlise de Tempo de Execu(cid:231)ªo . . . . . . . . . . . . . . . . . . . . 62
5.4 Trabalhos Publicados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6 Conclusıes e Trabalhos Futuros 64
ReferŒncias 66
I Diagrama de Clases do Modelo Conceitual 72
II Esquema Relacional do Pipeline 74
IIITabela do Esquema de Filtragem 76
IVTabela do Esquema de Mapeamento 79
V Tabela do Esquema de AnÆlise Usada nos Estudos Caso 81
VIEsquema Relacional do Pipeline Usado nos Estudos de Caso 84
VIIFormato do Arquivo FASTQ 86
ix
Lista de Figuras
2.1 Estrutura geral dos aminoÆcidos adaptado de [1]. . . . . . . . . . . . . . . 5
2.2 Liga(cid:231)ªo pept(cid:237)dica e orienta(cid:231)ıes Φ e Ψ do carbono Cα [2]. . . . . . . . . . . 5
2.3 Estrutura primÆria, secundÆria, terciÆria e quaternÆria da molØcula da he-
moglobina [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 A(cid:231)œcar pentose principal que compıe o nucleot(cid:237)deo criador do DNA: a
desoxirribose. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Bases nitrogenadas que compıem um nucleot(cid:237)deo da molØcula DNA adap-
tado de [4]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.6 A dupla HØlice do DNA mostrando a uniªo das bases [1]. . . . . . . . . . . 10
2.7 A(cid:231)œcar principal do nucleot(cid:237)deo formador do RNA: a ribose adaptado de [4]. 10
2.8 Uracila - base pirimidina que compıe um nucleot(cid:237)deo de molØcula RNA. . 10
2.9 Dogma central da Biologia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1 O Diagrama ER dos elementos que compıem o gene. . . . . . . . . . . . . 19
3.2 Diagrama EER do gene com os elementos que o compıem. . . . . . . . . . 20
3.3 Diagrama da rela(cid:231)ªo do gene com os elementos que o compıem usando o
modelo orientado a objetos. . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Diagrama da rela(cid:231)ªo do gene com os elementos que o compıem usando o
modelo relacional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5 Diagrama para dados gen(cid:244)micos [5]. . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Nota(cid:231)ªo para as rela(cid:231)ıes de ordem, processo e espacial [6] . . . . . . . . . 26
3.7 Os quatro submodelos: modelo operacional, meta modelo, modelo de co-
nhecimento e modelo de informa(cid:231)ªo [7]. . . . . . . . . . . . . . . . . . . . . 27
3.8 De(cid:28)ni(cid:231)ªo de uma ordem entre instancias de tipo agrega(cid:231)ªo [8]. . . . . . . . 28
3.9 Diagrama ER representando o dogma central da Biologia Molecular [9]. . . 30
3.10 Esquema mostra as principais tabelas do m(cid:243)dulo de sequŒncia. Algumas
tabelasecolunasforamomitidasparafazerodiagramamaisconciso. Adap-
tado de [10]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Estrutura do pipeline de alto desempenho com as fases da (cid:28)ltragem, ma-
peamento e anÆlise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Diagrama de classes do modelo conceitual para um pipeline de sequenci-
amento de alto desempenho transcrit(cid:244)mico. Ver diagrama ampliado no
anexo I. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Diagrama de classes do modelo (cid:28)ltragem. . . . . . . . . . . . . . . . . . . . 38
4.4 Diagrama de classes do modelo mapeamento. . . . . . . . . . . . . . . . . . 40
4.5 Diagrama de classes do modelo de anÆlise. . . . . . . . . . . . . . . . . . . 42
x
Description:me ajudaram do que fazer justiça a todas que merecem. 5.1 Visão geral do pipeline de análise para sequênciamento de alto desempenho.