Table Of ContentALGORITMOS EVOLUCIONARIOS MULTIOBJETIVO PARA ALINHAMENTO
MÚLTIPLO DE SEQÛËNCIAS BIOLÓGICAS
Margarita Ramona Ruiz Olazar
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS
PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE
FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS
NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS
EM ENGENHARIA ELÉTRICA.
Aprovada por:
RIO DE JANEIRO, RJ - BRASIL
ABRIL DE 2007
OLAZAR, MARGARITA RAMONA
RUIZ
Algoritmos Evolucionários Multiobjetivo
para Alinhamento Múltiplo de Seqüências
Biológicas [Rio de Janeiro] 2007
XV, 116 p. 29,7 cm (COPPE/UFRJ,
M.Sc., Engenharia Elétrica, 2007)
Dissertação - Universidade Federal do
Rio de Janeiro, COPPE
1. Algoritmos Evolucionários Multi-
objetivo.
2. Alinhamento Múltiplo de Seqüências.
I. COPPE/UFRJ II. Título ( série )
ii
A minha mãe e a meu pai+ por ter me concientizado da importância
pelo estudo e por suas incomensuráveis ensinanças.
iii
AGRADECIMENTOS
A Deus, por todas as oportunidades e bênçãos na minha vida.
A minha família que sempre acreditou no meu potencial e me deu seu apoio
incondicional em todos os momentos de minha existência. A minha mãe, meus irmãos
e irmãs, meus sobrinhos e sobrinhas, por me dar sempre a força e o alento necessários
nestes dois anos longe de casa.
Ao professor Eugenius Kaszkurewicz, quem me acolheu como sua orientada e
possibilitou que a minha experiência de viver dois anos em função do mestrado fosse a
mais proveitosa possível. Agradeço-te pelo inestimável apoio e pela dedicação do seu
tempo determinantes para o sucesso deste trabalho.
Ao professor Benjamín Barán, quem com sua forma tão simples e humilde
sempre foi o principal modelo a seguir desde os tempos da graduação e foi o motivador
pelo qual tive a ousadia de tentar este mestrado. Graças por seu constante apoio e
motivação e pelos ensinamentos como mestre e como amigo.
Ao professor Amit Bhaya, pela ajuda e apoio nestes dois anos de pesquisa.
A minha grande amiga Júnia, quem com sua incondicional amizade esteve a
meu lado nos maus e bons momentos e tornou minha estada no Rio de Janeiro muito
mais agradável. Amizade para toda a vida.
A meus amigos, do NACAD - Núcleo de Atendimento de Computação de Alto
Desempenho, do Laboratório de Controle e do Laboratório de Potência, por sua cordial
acolhida, amizade e ajuda nos momentos difíceis desta pesquisa.
À Universidade Federal do Rio de Janeiro, e em especial ao Programa de
Engenharia Elétrica da COPPE por ter contribuído para minha formação e ter recebido
e dado oportunidade a uma estudante paraguaia.
À CAPES pelo fundamental apoio financeiro para o cumprimento desta
pesquisa.
Meus sinceros agradecimentos!
iv
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M. Sc.)
ALGORITMOS EVOLUCIONARIOS MULTIOBJETIVO PARA ALINHAMENTO
MÚLTIPLO DE SEQÜÊNCIAS BIOLÓGICAS
Margarita Ramona Ruiz Olazar
Abril/2007
Orientadores: Eugenius Kaszcurewicz
Benjamín Barán Cegla
Programa: Engenharia Elétrica
Estudamos uma metodologia para Alinhamento Múltiplo de Seqüências
biológicas (MSA) usando Algoritmos Evolucionários Multi-objetivo (MOEAs). Este
método evolui uma dada população de alinhamentos gradualmente, melhorando o
“fitness” da população medida por dois critérios; a qualidade do alinhamento calculada
com a função “Soma de pares” utilizando a matriz de substituição de resíduos
BLOSUM62 e a qualidade do alinhamento calculada com a função “Soma de pares”
utilizando a matriz de substituição de resíduos PAM250.
Este problema, em geral, demanda tempo elevado de processamento, e a
implementação proposta pretende tirar proveito da computação de alto desempenho
uma vez que o programa é executado em paralelo por vários processadores.
As vantagens da metodologia proposta é que ela pode ser usada tanto para
seqüências de proteínas como de DNA, além de apresentar a possibilidade de otimizar
diferentes funções objetivo, qualquer sejam estas. Os resultados obtidos demostram que
os MOEAs são métodos efetivos e eficientes de otimização e podem ser utilizados em
problemas de MSA, quando o domínio do problema é determinado.
v
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.)
MULTIOBJECTIVE EVOLUCIONARY ALGORITHMS FOR BIOLOGICAL
MULTIPLE SEQUENCES ALIGNMENT
Margarita Ruiz
Abril/2007
Advisors: Eugenius Kaszcurewicz
Benjamín Barán Cegla
Department: Electrical Engineering
We studied a methodology for the Biological Multiple Sequences
Alignment (MSA) using Multi-Objective Evolutionary Algorithms (MOEAs). This
method evolves gradually a given population of alignments, improving the “fitness” of
the population measured by two criteria; the quality of the alignment calculated with
the “SP score” function using the matrix of substitution BLOSUM62 and the quality of
the alignment calculated with “SP score” function using the matrix of substitution
PAM250.
In general, this problem demands a huge processing time; therefore, the
proposed implementation tries to benefit from high performance computation using
several processors to run a parallel program.
The main advantage of the proposed methodology is that it can be used for
protein and DNA sequences as well. In addition, it gives the possibility of optimizing
different objective functions at a time. Experimental results show that MOEAs are
efficient methods of optimization and can be used in MSA problems, when the problem
domain is determined.
vi
SUMÁRIO
Resumo...................................................................................................................v
Abstract.................................................................................................................vi
Lista de Figuras.....................................................................................................x
Lista de Tabelas...................................................................................................xii
Lista de Símbolos ou Nomenclaturas...............................................................xiii
1. Introdução
1.1 Contexto................................................................................................1
1.2 Motivação..............................................................................................2
1.3 Revisão Bibliográfica............................................................................3
1.4 Objetivo.................................................................................................5
1.5 Estrutura do Trabalho............................................................................6
2. Alinhamento de Seqüências de Biomoléculas
2.1 O Problema da Comparação de Seqüências..........................................7
2.1.1 Alinhamento de Seqüências....................................................7
2.1.2 Tipos de Alinhamentos...........................................................8
2.2 Descrição da Representação Utilizada neste Trabalho..........................8
2.3 Esquema de Valoração para um Alinhamento de duas Seqüências ..10
2.4 Esquema de Valoração para MSA.......................................................12
2.5 Matrizes de Substituição.....................................................................13
2.5.1 Matrizes PAM.......................................................................14
2.5.2 Matrizes BLOSUM...............................................................14
2.5.3 Diferencias entre PAM e BLOSUM.....................................15
2.6 Penalidade dos Gaps............................................................................17
2.7 Função Soma Ponderada de pares de Seqüências...............................19
2.8 Função COFFEE.................................................................................21
2.9 Heurísticas mais utilizadas em MSA..................................................24
2.9.1 Programação Dinâmica.........................................................24
2.9.2 Alinhamento Progressivo.....................................................26
2.9.3 Métodos Iterativos................................................................28
2.10 Métricas de Performance: Balibase...................................................30
vii
2.11 Considerações Gerais........................................................................32
3. Introdução à Otimização Multi-objetivo
3.1 Otimização Multi-objetivo e Otimização Simples..............................34
3.2 Problema de Otimização Multi-objetivo.............................................37
3.3 Conceitos Básicos de Otimização Multi-objetivo...............................38
3.3.1 MOP Convexo e não Convexo.............................................38
3.3.2 Dominância e Ótimalidade de Pareto...................................40
3.3.3 Condições de Ótimalidade....................................................43
3.4 Metas em Otimização Multi-objetivo..................................................45
3.5 Diferencias com a Otimização de Objetivo Simples...........................46
3.6 Convergência e Diversidade das Soluções de um MOP.....................46
3.7 Classificação das Técnicas para Resolução de MOP..........................48
3.7.1 Técnicas não baseadas em Pareto.........................................48
3.7.2 Técnicas baseadas em Pareto................................................49
3.8 Algoritmos Evolutivos Multi-objetivo................................................50
3.8.1 Soma Ponderada (Weighted Sum)........................................51
3.8.2 SPEA (Strength Pareto Evolutionary Algorithm)................54
3.8.3 NSGA II (Non Sorting Genetic Algorithm).........................57
4. Método de Solução Proposto para o Problema de Alinhamento de Seqüências de
Proteínas.
4.1 Justificativa do Método Proposto para Resolução de MSA................62
4.2 Processo de Avaliação da Qualidade do MSA de Proteínas...............63
4.3 Função de Aptidão para os MOEAs SPEA e NSGAII........................64
4.4 Função de Aptidão para o Algoritmo Soma Ponderada......................65
4.5 Codificação do Alinhamento Múltiplo de proteínas...........................65
4.6 Processo de obtenção do Alinhamento Inicial....................................66
4.7 Processo de obtenção da População Inicial.........................................67
4.8 Operador de Cruzamento....................................................................67
4.9 Operadores de Mutação.......................................................................69
4.10 Modelo Paralelo aplicado aos MOEAs SPEA e NSGAII.................71
4.11 Modelo Paralelo aplicado ao Algoritmo Soma Ponderada...............73
4.12 Considerações Gerais........................................................................74
viii
5. Experimentos e Resultados
5.1 Conjunto de Teste utilizado................................................................75
5.2 Plataforma de Testes utilizada............................................................76
5.3 Método de Avaliação dos Resultados.................................................76
5.4 Resultados obtidos..............................................................................77
5.5 Análise dos Resultados.......................................................................79
5.6 Conclusão do Trabalho........................................................................85
5.7 Perspectiva Futura...............................................................................86
Apêndice A: Introdução à Biologia Molecular................................................88
Apêndice B: Computação Evolutiva..................................................................96
Apêndice C: Paralelização................................................................................101
Referência Bibliográfica...................................................................................109
ix
LISTA DE FIGURAS
Figura 2.1: Alinhamento de duas seqüências...............................................................8
Figura 2.2: Alinhamento de duas seqüências.............................................................17
Figura 2.3: (a) Parte de uma árvore guia ilustrando como pesos de seqüências são
calculados. O circulo em linha de pontos ilustra a subárvore com raiz n. (b) Os pesos
j
de cada uma das folhas de uma arvore exemplo, calculada desde as etiquetas sobre os
lados............................................................................................................................20
Figura 2.4: Biblioteca par a par do alinhamento A....................................................22
Figura 2.5: Função COFFEE.....................................................................................23
Figura 2.6 : Programação Dinâmica..........................................................................24
Figura 2.7: Cálculo da cela H .................................................................................25
2,0
Figura 2.8: Caminho que indica um alinhamento ótimo............................................25
Figura 2.9: Alinhamento par a par.............................................................................27
Figura 2.10: Árvore guia............................................................................................27
Figura 2.11: Alinhamento progressivo propriamente dito.........................................28
Figura 2.12: Fluxo de um Algoritmo Genético..........................................................30
Figura 3.1: Soluções hipotéticas. Problema de tomada de decisão de compra de um
carro............................................................................................................................34
Figura 3.2: Esquema do procedimento de otimização multi-objetivo ideal..............36
Figura 3.3: Esquema de um procedimento de otimização multi-objetivo baseado em
preferência...................................................................................................................36
Figura 3.4 : Uma função convexa..............................................................................39
Figura 3.5 : Conjunto convexo e não convexo...........................................................39
Figura 3.6 : Gráfica das opções de compra................................................................42
Figura 3.7: Gráfica do problema 1.............................................................................44
Figura 3.8: Frente Pareto das funções objetivo f e f do problema 1........................44
1 2
Figura 3.9: Distribuição de soluções na Fronteira Pareto..........................................45
x
Description:MÚLTIPLO DE SEQÛËNCIAS BIOLÓGICAS. Margarita Ramona Ruiz Olazar the “SP score” function using the matrix of substitution BLOSUM62 and the quality of the alignment calculated with “SP score” function from high performance computation using several processors to run a parallel program.