Table Of ContentUma abordagem para pr´e-processamento de
dados textuais em algoritmos de aprendizado
Claudia Aparecida Martins
SERVIC¸O DE PO´S-GRADUAC¸A˜O DO ICMC-USP
Data de Dep´osito: 29/08/2003
Assinatura:
Uma abordagem para pr´e-processamento de
dados textuais em algoritmos de aprendizado
Claudia Aparecida Martins
Orientadora: Profa Dra Maria Carolina Monard
Tese apresentada ao Instituto de Ciˆencias Matem´aticas
e de Computa¸c˜ao - ICMC-USP, como parte dos requi-
sitos para obten¸c˜ao do t´ıtulo de Doutor em Ciˆencias de
Computa¸c˜ao e Matem´atica Computacional.
USP - S˜ao Carlos
agosto/2003
Resumo
A representa¸c˜ao atributo-valor de documentos usada no processo de minera¸c˜ao de
textos ´e uma estrutura adequada `a maioria das tarefas de classifica¸c˜ao e agrupamento
de documentos. No contexto de algoritmos de aprendizado de m´aquina, a representa¸c˜ao
atributo-valor de documentos frequ¨entemente utiliza a abordagem bag-of-words. Essa
abordagem ´e caracterizada pela alta dimensionalidade na representa¸c˜ao dos dados, pois
toda palavra presente no documento pode ser um poss´ıvel atributo. Deve ser considerado,
portanto, que uma boa representa¸c˜ao de documentos tem uma influˆencia fundamental no
desempenho dos algoritmos de aprendizado (supervisionado ou n˜ao supervisionado).
Como uma das principais contribui¸c˜oes deste trabalho, ´e apresentada uma ferra-
menta para pr´e-processamento que eficientemente decomp˜oe textos em palavras usando
a abordagem bag-of-words, bem como o uso de m´etodos para reduzir a dimensionalidade
da representa¸c˜ao gerada. Essa ferramenta transforma os documentos em um formato
acess´ıvel `a maioria dos algoritmos de aprendizado, nos quais os dados s˜ao descritos como
um vetor de dimens˜ao fixa.
A ferramenta computacional implementada, entre as diversas funcionalidades, reduz
a dimensionalidade da representa¸c˜ao de documentos com o objetivo de obter um melhor
desempenhodosalgoritmosdeaprendizadodem´aquinautilizados. Aescolhadoalgoritmo
de aprendizado a ser utilizado, supervisionado e n˜ao supervisionado, ´e dependente do
problema em quest˜ao. Algoritmos de aprendizado supervisionado podem ser aplicados
a documentos rotulados, enquanto algoritmos de aprendizado n˜ao supervisionado s˜ao
frequ¨entemente aplicados a dados n˜ao rotulados.
No caso do aprendizado n˜ao supervisionado, para avaliar se um dado cluster corre-
sponde a um certo conceito, neste trabalho ´e utilizada uma abordagem usando algoritmos
de aprendizado indutivo para auxiliar na interpreta¸c˜ao dos clusters. Nesta abordagem o
interesse consiste em compreender como o sistema representa e raciocina sobre o conhec-
imento adquirido. Essa compreens˜ao ´e necess´aria tanto para o usu´ario aceitar a solu¸c˜ao
gerada pelo sistema quanto para analisar o racioc´ınio utilizado.
v
Abstract
The attribute-value representation of documents used in text mining provides a
natural framework for classifying or clustering documents based on their contents. In the
contextof machine learningalgorithms, the attribute-value representation of documents is
oftenaccomplishedbyusingthebag-of-wordsapproach. Sinceeverywordinthedocument
could be treated as an attribute, such an approach is characterized by yielding very high
dimensional data. In fact, the representation of documents has a crucial influence on how
well some learning algorithms (either supervised or unsupervised) can perform.
Asoneofthemaincontributionsofthiswork,aframeworktoefficientlydecomposing
textintowords byusingthe bag-of-words approach, as wellas reducingthe dimensionality
of the representation generated, is presented. This framework makes text accessible to
most machine learning algorithms for it only requires data to be described as a vector of
fixed dimensionality.
In order to illustrate the framework proposed, a computational tool was imple-
mented. This tool by, among other things, reducing the dimensionality of the text repre-
sentation can lead to an improvement in the performance of the machine learning tech-
niques being applied. The types of machine learning algorithms employed were either
supervised or unsupervised, depending on the problem in hand. For instance, super-
vised learning algorithms can be applied whenever the documents have labels preassigned,
whereas unsupervised learning algorithms are often applied to unlabelled data.
For the case of unsupervised learning, in order to evaluate if a given cluster corre-
sponds to a certain concept, this work takes another approach by using inductive learning
techniques. For example, with this approach one could understand how the system rep-
resents and reasons about the acquired knowledge. Explanation facilities are required
both for user acceptance of the solution generated by the system, and for the purpose of
understanding whether the reasoning is sound.
vii
Dedicat´oria
Dedico esse trabalho em mem´oria do meu pai Jos´e Pac´ıfico Sobrinho, que sempre
foi um exemplo para mim de garra, dedica¸c˜ao e amor. A vocˆe, por tudo que me ensinou
na vida. Saudades.
Agradecimentos
A professora Carolina que ´e muito mais do que uma orientadora, pois orienta com
sabedoria, questionamentos, ensinamentos e, principalmente, amizade. Reconhe¸co e ad-
miro sua atitude em ajudar seus“desorientandos”, mesmo que isso muitas vezes significa
abrir m˜ao de alguma coisa. Obrigada pela sua amizade, por aceitar ser minha orientadora,
por me orientar, por me incentivar, enfim, por me ensinar. Aprendi muito com vocˆe! E
a cada dia, percebo o quanto ainda tenho a aprender. A vocˆe Carolina, o meu muito
obrigada por tudo!
Agrade¸co a todas as pessoas que me ajudaram na realiza¸c˜ao deste trabalho. Um
agradecimento especial ao Edson (Takashi) por seu excelente trabalho, pela disposi¸c˜ao
em me ajudar v´arias vezes e, acima de tudo, por saber que sempre poderia contar com
vocˆe. Ao Ronaldo que ´e uma pessoa bastante acess´ıvel e, por saber disso, n˜ao hesitava
em importun´a-lo diante de qualquer du´vida. Ao Gustavo que, entre outros, disponibilizou
as suas implementa¸c˜oes e fez os ajustes necess´arios para que eu pudesse utiliz´a-los. Ao
Augusto que foi o primeiro a me dar dicas de Perl, ao Walter pelas configura¸c˜oes de
m´aquinas que precisei, ao Marcelo pela ajuda com a formata¸c˜ao deste trabalho. Agrade¸co
a todos vocˆes n˜ao s´o pelo trabalho, pois certamente sem a ajuda de vocˆes tudo seria muito
mais dif´ıcil, mas tamb´em pelos bons momentos.
A convivˆencia no Labic e do ICMC durante esses quatro anos ser´a sem du´vida uma
grande e boa recorda¸c˜ao. Algumas pessoas foram muito mais do que apenas colegas de
trabalho. Dentre essas pessoas, algumas convivi mais de perto, Patr´ıcia, Jaque, Claudia,
Katti, Huei, Edson (Melanda) e Fernanda, Lorena, Cristiane, Adriano, Gedson, Daniel,
Valmir, Marquinho, Marcos, Chandler, Humberto, Sadao. Citar nomes ´e complicado e
com certeza posso ter esquecido algu´em, que me desculpe. Tamb´em, vou sempre guardar
as boas recorda¸c˜oes dos momentos divertidos e de amizade com Marc´ılio e Tha´ıs, prin-
cipalmente, nos dias de maior stress na finaliza¸c˜ao deste trabalho. Ao Marc´ılio agrade¸co
tamb´em pela ajuda final com o inglˆes. Com muito carinho, obrigada a todos vocˆes!
Ao pessoal do Nilc por disponibilizar o conjunto de dados textuais e, principalmente,
a Juliana Greghi que esclareceu diversas du´vidas e se mostrou disposta a me ajudar.
Aos professores Solange, Andr´e e Alneu que tornam esse ambiente de trabalho
mais agrad´avel, pela simpatia, dinamismo e disponibiliza¸c˜ao de material. Principalmente,
Solange que sempre foi mais do que uma simples professora e coordenadora de p´os.
Ao pessoal da p´os-gradua¸c˜ao do ICMC, Beth, Laura, Ana Paula, Mar´ılia pela efi-
ciˆencia, simpatia e por todos os esclarecimentos. E tamb´em ao pessoal da biblioteca.
Durante esse trabalho pude contar com a amizade e o carinho de Cleide, Rosana,
Marcelinho, Alexandre, Regina, Edna, Cidinho, que mesmo longe, sempre t˜ao perto.
Agrade¸co a minha fam´ılia que ´e o meu porto seguro. A minha m˜ae Nilta que ´e
for¸ca, paciˆencia e amor. Aos meus irm˜aos Jos´e Antˆonio, Eleida e ‘Catita’, que sempre
me apoiaram em qualquer coisa que tenha decidido fazer. Ao amor, algumas vezes in-
explic´avel, que sempre recebi de meus sobrinhos: Filipe, Fabr´ıcio e Maria Beatriz. Aos
meus cunhados Vanilda e Carlinhos. Todos vocˆes s˜ao especiais e representam muito para
mim.
Agrade¸cooapoiofinanceirodaCAPESedaUniversidadeFederaldeMatodeGrosso
(UFMT). A todo o pessoal do Departamento de Ciˆencia da Computa¸c˜ao da UFMT.
Agrade¸co a Deus por estar sempre presente.
Description:6.1.3 Resultados Obtidos Usando o Atributo Classe Original . A alta dimensionalidade do conjunto de atributos é uma das caracterısticas do pro- 18 cidad:6. 19 filh:8. 20 trabalh:10. Figura 5.9: Exemplo de arquivo oneGram.txt. 1 amig : 5 (1/5). 2 amiga : 2. 3 amigas : 1. 4 amigo : 1. 5 amigos :