Table Of ContentMeta-aprendizagem aplicada à
classificação de dados de expressão
gênica
Bruno Feres de Souza
SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP
Data de Depósito:
Assinatura:
Meta-aprendizagem aplicada à
classificação de dados de expressão
gênica
1
Bruno Feres de Souza
Orientador: Prof. Dr. André C. P. L. F. Carvalho
Co-orientador: Prof. Dr. Carlos Manoel M. de Oliveira Pinto Soares
Tese apresentada ao Instituto de Ciências
Matemáticas e de Computação - ICMC-USP,
como parte dos requisitos para obtenção do
título de Doutor em Ciências - Ciências de
Computação e Matemática Computacional.
USP - São Carlos
Agosto/2010
1Trabalho realizado com auxílio financeiro da FAPESP
Agradecimentos
Agradeço, primeiramente, a Deus por tudo e, em especial, pelas oportunidades
que me tem concedido e pelas pessoas que tem posto em meu caminho.
Sou muito grato a meus pais e irmãos por serem meu porto seguro. O amor,
o companheirismo, a amizade e a dedicação incondicionais que eles me têm são
recíprocos e espero sempre poder demonstrá-los com a mesma intensidade com que
os recebi. Mãe, obrigado pelas palavras de conforto e fé ao telefone. Pai, obrigado
pela confiança e pelos assuntos cotidianos que me acalmavam. Mana, obrigado por
ter sempre a palavra certa nas horas em que eu mais precisei. Ivo Jr., obrigado pelo
apoio e por ter nos dado de presente Giovanna.
Agradeço ao professor André por sempre ter estado comigo para comemorar os
bons resultados. Mas especialmente, eu sou grato por também estar presente quando
dos resultados, aparentemente, desfavoráveis. Nessas horas, aprendi muito com ele
sobre o que trata a pesquisa e também que, nesse ramo que escolhemos, reveses
podem ser tão valiosos quanto sucessos. Eu sou muito afortunado por ter meu
caminho ligado ao dele durante os anos de mestrado e doutorado. Ele é uma pessoa
pela qual eu tenho profunda admiração em diversos aspectos, tanto profissional
quanto pessoalmente e, devido a seus ensinamentos e exemplos, eu me considero
hoje alguém melhor.
Agradeço imensamente ao Carlos por ter aceitado ser meu co-orientador. Graças
aos seus vastos conhecimentos sobre meta-aprendizagem, esse projeto pôde ser
concluído. Eutenhomuitoorgulhodotrabalhoquedesenvolvemosjuntoseconsidero
que as oportunidades surgidas dessa colaboração vão sempre figurar entre os pontos
altos do meu currículo acadêmico e de minha vida pessoal.
O meu doutorado foi uma jornada. Por vezes, considerei-a longa demais. Nessas
horas, a amizade, as brincadeiras, a parceria e a presença de pessoas como o Calvo,
Thiago, Pablo, Rosane, Paulo, Mariá, André, Chris, Lucas, Luiz, Murilão, Cerri,
Ricardinho, Danilo, Jonathan, Renatinho, Márcio, Marcelinho, Rodrigão, Marcelão,
Mônica, Erika, Mello, Balans, Elaine, Leo, Arnaldo, Robertox, Edmilson, QRU,
Camillão, Chico, Glória, Nilson e Tanaka me mostraram que na verdade ela foi curta.
Muito curta. Este trabalho não teria sido possível sem a inestimável ajuda desses
amigos. Também de fundamental importância foram os amigos que tive a honra de
v
fazer no BIOCOMP, no LABIC e nos demais laboratórios do ICMC e da USP durante
esses anos. O convívio com eles foi bastante enriquecedor e não será esquecido. Em
especial,sougratoaoJapa,àDeboraeaoVinícius. ConheçooJapadesdeomestrado.
Ele sempre foi meu amigo. Durante os meses finais do doutorado, mostrou-se
um verdadeiro irmão. Sem sua ajuda e conselhos nos momentos mais críticos do
trabalho, eu, definitivamente, não teria conseguido terminar. Com a Debora partilhei
diversas situações. Seu entendimento, simpatia, generosidade e presença nas horas
difíceis me deram a força necessária pra seguir adiante. A parceria do Vinícius foi
importante. Quando a quantidade de trabalho parecia excessiva, ele prontamente se
dispôs a me ajudar. Assim, muitíssimo obrigado, pessoal! Considero essa tese uma
obra conjunta e tenho enorme satisfação em ter vocês todos como co-autores!
Agradeço a todos os professores e funcionários do ICMC, por tudo que eu aprendi
e por estarem sempre dispostos a ajudar.
Agradeço à FAPESP, pelo suporte financeiro essencial a este trabalho.
vi
Resumo
Dentre as aplicações mais comuns envolvendo microarrays, pode-se destacar
a classificação de amostras de tecido, essencial para a identificação correta da
ocorrência de câncer. Essa classificação é realizada com a ajuda de algoritmos
de Aprendizagem de Máquina. A escolha do algoritmo mais adequado para um
dado problema não é trivial. Nesta tese de doutorado, estudou-se a utilização de
meta-aprendizagemcomoumasoluçãoviável. Osresultadosexperimentaisatestaram
o sucesso da aplicação utilizando um arcabouço padrão para caracterização dos
dados e para a construção da recomendação. A partir de então, buscou-se realizar
melhorias nesses dois aspectos. Inicialmente, foi proposto um novo conjunto de
meta-atributos baseado em índices de validação de agrupamentos. Em seguida,
estendeu-se o método de construção de rankings kNN para ponderar a influência
dos vizinhos mais próximos. No contexto de meta-regressão, introduziu-se o uso de
SVMs para estimar o desempenho de algoritmos de classificação. Árvores de decisão
também foram empregadas para a construção da recomendação de algoritmos. Ante
seu desempenho inferior, empregou-se um esquema de comitês de árvores, que
melhorou sobremaneira a qualidade dos resultados.
Palavras-chave: Classificação de dados de expressão gênica. Aprendizado de
Máquina. Meta-aprendizagem.
vii
viii
Abstract
Among the most common applications involving microarray, one can highlight the
classification of tissue samples, which is essential for the correct identification of
the occurrence of cancer and its type. This classification takes place with the aid
of machine learning algorithms. Choosing the best algorithm for a given problem
is not trivial. In this thesis, we studied the use of meta-learning as a viable
solution. The experimental results confirmed the success of the application using
a standard framework for characterizing data and constructing the recommendation.
Thereafter, some improvements were made in these two aspects. Initially, a new set
of meta-attributes was proposed, which are based on cluster validation indices. Then
the kNN method for ranking construction was extended to weight the influence of
nearest neighbors. In the context of meta-regression, the use of SVMs was introduced
toestimatetheperformanceofrankingalgorithms. Decisiontreeswerealsoemployed
for recommending algorithms. Due to their low performance, a ensemble of trees was
employed, which greatly improved the quality of results.
Keywords: Gene expression data classification. Machine Learning. Meta-learning
ix
x
Description:Schwartz, D. R.; Kardia, S. L. R.; Shedden, K. A.; Kuick, R.; Michailidis,. G.; Taylor expression correlates of clinical prostate cancer behavior. Cancer