Table Of ContentKATIA CRISTIANE BRUMATTI GONÇALVES
ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE
EXPRESSÃO GÊNICA UTILIZANDO DADOS ORIUNDOS DE
SEQUENCIAMENTO POR TECNOLOGIA DE “NEXT-GENERATION”
EM ANIMAIS CONTROLE E EM MODELOS DE EPILEPSIA DO
LOBO TEMPORAL MESIAL.
CAMPINAS
2015
i
ii
UNIVERSIDADE ESTADUAL DE CAMPINAS
Faculdade de Ciência Médicas
KATIA CRISTIANE BRUMATTI GONÇALVES
ESTUDO DE BIOINFORMÁTICA APLICADO À ANÁLISE DE
EXPRESSÃO GÊNICA UTILIZANDO DADOS ORIUNDOS DE
SEQUENCIAMENTO POR TECNOLOGIA DE “NEXT-GENERATION”
EM ANIMAIS CONTROLE E EM MODELOS DE EPILEPSIA DO
LOBO TEMPORAL MESIAL.
Dissertação apresentada à Faculdade de Ciências
Médicas da Universidade Estadual de Campinas como
parte dos requisitos exigidos para a obtenção do título
de Mestra em Ciências.
ORIENTADORA: PROFA DRA ISCIA TERESINHA LOPES CENDES
COORIENTADORA: DRA CRISTIANE DE SOUZA ROCHA
ESTE EXEMPLAR CORRESPONDE À VERSÃO
FINAL DA DISSERTAÇÃO DEFENDIDA PELA
ALUNA KATIA CRISTIANE BRUMATTI GONÇALVES, E ORIENTADA PELA
PROFA DRA ÍSCIA TERESINHA LOPES CENDES.
_______________________________
CAMPINAS
2015
iii
Ficha catalográfica
Universidade Estadual de Campinas
Biblioteca da Faculdade de Ciências Médicas
Maristella Soares dos Santos - CRB 8/8402
Brumatti Gonçalves, Katia Cristiane, 1976-
B834e Estudo de bioinformática aplicado à análise de
expressão gênica utilizando dados oriundos de
sequenciamento por tecnologia de "Next-Generation" em
animais controle e em modelos de epilepsia do lobo
temporal mesial / Katia Cristiane Brumatti Gonçalves. --
Campinas, SP : [s.n.], 2015.
Orientador : Íscia Teresinha Lopes Cendes.
Coorientador : Cristiane de Souza Rocha.
Dissertação (Mestrado) - Universidade Estadual de
Campinas, Faculdade de Ciências Médicas.
1. Biologia computacional. 2. Expressão gênica. 3.
Processamento alternativo. I. Lopes-Cendes, Íscia
Teresinha,1964-. II. Rocha, Cristiane de Souza,1978-.
III. Universidade Estadual de Campinas. Faculdade de
Ciências Médicas. IV. Título.
Informações para Biblioteca Digital
Título em outro idioma: Bioinformatics study applied to gene expression analysis using
data from "Next-Generation" sequencing technology in control animals and in models of
epilepsy of mesial temporal lobe.
Palavras-chave em inglês:
Computational biology
Gene expression
Alternative Splicing
Área de concentração: Fisiopatologia Médica
Titulação: Mestra em Ciências
Banca examinadora:
Íscia Teresinha Lopes Cendes [Orientador]
Claudia Vianna Maurer Morelli
Ana Lucia Brunialti Godard
Data de defesa: 20-02-2015
Programa de Pós-Graduação: Fisiopatologia Médica
iv
BANCA EXAMINADORA DA DEFESA DE MESTRADO
KATIA CRISTIANE BRUMATTI GONÇALVES
Orientador (a) PROF(A). DR(A). ISCIA TERESINHA LOPES CENDES
Coorientador (a) PROF(A). DR(A). CRISTIANE DE SOUZA ROCHA
MEMBROS:
1. PROF(A). DR(A). ISCIA TERESINHA LOPES CENDES
2. PROF(A). DR(A). ANA LUCIA BRUNIALTI GODARD
3. PROF(A). DR(A). CLAUDIA VIANNA MAURER MORELLI
Programa de Pós-Graduação em Fisiopatooga Médica da Faculdade de
Ciéncias Médicas da Universidade Estadual de Campinas
Data: 20 de fevereiro de 2015
v
vi
Resumo
O campo da bioinformática associada à Next Generation Sequencing (NGS)
ainda está em estado imaturo. A técnica de microarray tem sido muito utilizada nas
últimas décadas em estudos de níveis de expressão de genes, porém essa técnica
possui limitações. Sequenciamento de RNA (RNA-Seq) tem vantagens sobre as
abordagens atuais, pois permite que o transcriptoma inteiro seja pesquisado com
alto rendimento, fazendo com que RNA-Seq seja útil para estudar transcriptomas
complexos, além disso, permite a análise de splicing alternativo. Muitas ferramentas
têm sido desenvolvidas para abordar diferentes aspectos da análise de dados em
RNA-Seq, e sua análise é um desafio constante. Nesse contexto, o objetivo deste
estudo foi utilizar métodos de bioinformática para a análise de expressão gênica
utilizando dados de RNA-Seq. Para isso, foram utilizados dados brutos obtidos em
dois experimentos diferentes: a) utilizando animais normais, na qual a análise
comparativa foi realizada das regiões do hipocampo CA1, CA2 e CA3 e giro
denteado, e b) utilizando animais tratados com pilocarpina e animais controle. Na
análise dos dois experimentos, foram encontrados 3 genes (Nnat, Sv2b e Neurod6)
em comum que tem diferença na expressão, ambos genes tem envolvimento no
sistema nervoso central. Na análise de splicing alternativo, a ferramenta MISO
(Mixture of Isoforms) comparado ao pipeline utilizado em Cuffdiff, gerou resultados
melhores e mais detalhados, já que a ferramenta também realiza a quantificação
dos transcritos, e com seus resultados foram descobertos 6 transcritos (Arpp21,
Gria1, Gria2, Nrxn1, Dclk1 e Rtn1) em comum nas regiões do hipocampo, que tem
alta expressão em giro denteado. Atualmente, existem diversos softwares em
ascensão para análise diferencial, porém, o pipeline utilizado neste trabalho é ainda
uma das principais ferramentas para análise de RNA-Seq, por usar algoritmos
confiáveis e permitir flexibilização das análises quando necessário. Este estudo
apresentou uma proposta de pipeline para a análise de expressão diferencial e
identificação de splicing alternativo, para dados obtidos através de tecnologia de
sequenciamento RNA-Seq. Foram identificados 5760 transcritos considerados
significativamente expressos, e sugere que 6 transcritos sejam decorrentes de
splicing alternativo.
vii
viii
Abstract
The field of bioinformatics associated with Next Generation Sequencing
(NGS) is still in an immature state. The microarray technique has been widely used
in recent decades in studies of gene expression levels, but this technique has
limitations. Sequencing RNA (RNA-Seq) has advantages over current approaches
because it allows the whole transcriptome is researched with high yield, making
RNA-Seq be useful for studying complex transcriptomes, moreover, allows the
analysis of alternative splicing. Many tools have been developed to aproach different
aspects of data analysis in RNA-Seq, and its analysis is a constant challenge. In this
context, the objective of this study was to use bioinformatics methods for gene
expression analysis using RNA-Seq data. For this, the raw data obtained in two
different experiments were used: a) using normal animalsin which was made a
comparative analysis of the hippocampus (CA1, CA2 and CA3) and dentate gyrus,
and b) using pilocarpine treated animals and animals control. In the analysis of two
experiments, were found three genes (NNAT, Sv2b and Neurod6) in common that
there is a difference in the expression, both of genes is involved in the central
nervous system. In alternative splicing analysis, MISO (Mixture of Isoforms) tool
compared to the pipeline used in Cuffdiff, gave better and more detailed results, as
the tool also performs the quantification of transcripts, and their results were found
6 transcripts (Arpp21, Gria1, Gria2, Nrxn1, Dclk1 and Rtn1) in common in the regions
of the hippocampus, which has high expression in the dentate gyrus. Currently, there
are various software on the rise for differential analysis, however, the pipeline used
in this work is still one of the main tools for RNA-Seq analysis, by using reliable
algorithms and allow flexibility of analyzes when necessary. This study showed a
pipeline proposed for the analysis of differential expression, and alternative splicing
of identification data obtained for RNA-Seq sequencing technology. 5760 transcripts
considered significantly expressed were identified, and suggests that 6 transcripts
are derived from alternative splicing.
Key words: Computational biology, Gene expression, Alternative Splicing.
ix
x
Description:Figura 31 - Volcano Plot contendo os genes diferencialmente expressos no modelo pilocarpina . Variações na gravidade das crises, a apresentação clínica das convulsões, e efeitos a longo prazo da síndrome são .. Estatísticas básicas (Basic Statistics): Neste modulo são disponíveis alguma