Table Of ContentMIRNA FERNANDA DE OLIVEIRA
PRESSUPOSTOS TE(cid:211)RICO-METODOL(cid:211)GICOS
PARA A ELABORA˙ˆO DA BASE LEXICAL
DE UM THESAURUS ELETR(cid:212)NICO
Araraquara
2002
MIRNA FERNANDA DE OLIVEIRA
PRESSUPOSTOS TE(cid:211)RICO-METODOL(cid:211)GICOS
PARA A ELABORA˙ˆO DA BASE LEXICAL
DE UM THESAURUS ELETR(cid:212)NICO
Disserta(cid:231)ªo apresentada (cid:224) Faculdade de CiŒncias
e Letras de Araraquara, Universidade Estadual
Paulista, como parte dos requisitos para a
obten(cid:231)ªo do t(cid:237)tulo de Mestre em Letras
(Ling(cid:252)(cid:237)stica e L(cid:237)ngua Portuguesa).
Orientador: Prof. Dr. Bento Carlos Dias da Silva
Araraquara
2002
III
COMISSˆO JULGADORA
_____________________________________________
Orientador
______________________________________________
Examinador (a) 1
______________________________________________
Examinador (a) 2
IV
Aos meus pais Geraldo e Elza, e (cid:224)
minha tia, Iria, meus primeiros
educadores, que com amor tomaram
minhas mªos e me conduziram ao
caminho do conhecimento. A eles,
minha eterna gratidªo.
V
AGRADECIMENTOS
A realiza(cid:231)ªo deste trabalho s(cid:243) foi poss(cid:237)vel gra(cid:231)as (cid:224) colabora(cid:231)ªo direta ou
indireta de muitas pessoas. Manifesto minha gratidªo a todas elas e de forma particular:
a todos os professores do Programa de P(cid:243)s-Gradua(cid:231)ªo em Ling(cid:252)(cid:237)stica e L(cid:237)ngua
Portuguesa, pelos valiosos ensinamentos;
aos funcionÆrios da se(cid:231)ªo de P(cid:243)s-Gradua(cid:231)ªo em Ling(cid:252)(cid:237)stica e L(cid:237)ngua
Portuguesa, em especial (cid:224) Rita e Gertz, pelo carinho e aux(cid:237)lio;
(cid:224) CAPES, pelo apoio financeiro em forma de bolsa de estudos e ao MCT/
FINEP, por apoiar projetos interdisciplinares, sem os quais esta disserta(cid:231)ªo nªo poderia
ter sido desenvolvida;
aos funcionÆrios da Biblioteca e do P(cid:243)lo Computacional da Faculdade de
CiŒncias e Letras, por sua colabora(cid:231)ªo;
aos colegas e professores do Nœcleo Interinstitucional de Ling(cid:252)(cid:237)stica
Computacional (NILC-Sªo Carlos) pelo incentivo (cid:224) pesquisa em Processamento
AutomÆtico das L(cid:237)nguas Naturais em nosso pa(cid:237)s;
aos colegas que trabalharam no desenvolvimento do projeto do thesaurus,
Helio, Daniela Amorim, Christie, pela amizade, companheirismo e troca de
conhecimentos;
(cid:224) Profa. Dra. Maria Helena Galvªo Frem Dias da Silva, por seu carinho e
incentivo;
ao Prof. Dr. Bento Carlos Dias da Silva, pela amizade, orienta(cid:231)ªo, paciŒncia e
esclarecimento na partilha de conhecimentos e pelo privilØgio em fazer parte de sua
equipe;
a toda a minha fam(cid:237)lia, pelo apoio, e em especial aos meus sobrinhos, fontes de
alegrias eternas, sementes de futuros brilhantes;
a todos os meus amigos, sem exce(cid:231)ªo, e em especial (cid:224) Soraya, Ludimila, Naila,
Patricia, Daniela Munaretti, Iramaia e Helio, pelo carinho, alegria e amizade de todas as
horas;
a Deus, por me permitir a dar mais um passo em minha vida.
A todos, meus profundos agradecimentos.
VI
O modo cient(cid:237)fico de pensar Ø ao mesmo tempo
imaginativo e disciplinado. Isso Ø fundamental para o
seu sucesso. A ciŒncia nos convida a acolher os fatos,
mesmo quando eles nªo se ajustam (cid:224)s nossas
preconcep(cid:231)ıes. Aconselha-nos a guardar hip(cid:243)teses
alternativas em nossas mentes, para ver qual se
adapta melhor (cid:224) realidade. Impıe-nos um equil(cid:237)brio
delicado entre uma abertura sem barreiras para
idØias novas, por mais herØticas que sejam, e o
exame cØtico mais rigoroso de tudo (cid:150) das novas idØias
e do conhecimento estabelecido. Esse tipo de
pensamento Ø tambØm uma ferramenta essencial
para a democracia numa era de mudan(cid:231)as.
Carl Sagan
VII
RESUMO
Esta disserta(cid:231)ªo investiga os pressupostos te(cid:243)rico-metodol(cid:243)gicos para a elabora(cid:231)ªo de
uma base lexical para a compila(cid:231)ªo de um thesaurus eletr(cid:244)nico (cid:150) um dicionÆrio de
sin(cid:244)nimos e ant(cid:244)nimos armazenado na mem(cid:243)ria de um computador e acoplado a um
processador de textos. Dada a inser(cid:231)ªo do trabalho no (cid:226)mbito do Processamento
AutomÆtico das L(cid:237)nguas Naturais (PLN), desse campo extra(cid:237)mos a metodologia bÆsica
de investiga(cid:231)ªo, fundamentada em trŒs fases distintas: a) fase ling(cid:252)(cid:237)stica, em que foram
abordados o estudo do lØxico, enquanto componente da gramÆtica, enquanto constituinte
do sistema cognitivo e enquanto m(cid:243)dulo de um sistema de PLN, e o estudo das rela(cid:231)ıes
de sentido; b) fase das representa(cid:231)ıes formais, em que foram formalizadas as rela(cid:231)ıes
de sinon(cid:237)mia e anton(cid:237)mia; c) fase de implementa(cid:231)ªo, em que aplicou-se a metodologia
desenvolvida ao longo do trabalho (cid:224) compila(cid:231)ªo da base lexical do thesaurus eletr(cid:244)nico.
Essa metodologia revelou-se consistente e eficiente, ao ser testada na montagem da base
lexical de um thesaurus eletr(cid:244)nico para o PortuguŒs do Brasil, contendo
aproximadamente quarenta e quatro mil entradas organizadas em fun(cid:231)ªo das rela(cid:231)ıes de
sinon(cid:237)mia e anton(cid:237)mia.
Palavras-chave: sem(cid:226)ntica lexical; rela(cid:231)ıes de sentido; lØxico; thesaurus eletr(cid:244)nico;
processamento automÆtico das l(cid:237)nguas naturais.
VIII
ABSTRACT
This thesis discusses the theoretic and methodological issues for the construction of a
lexical database for the compilation of a thesaurus (cid:150) a dictionary of synonyms and
antonyms stored in a computer memory for use in word processing. Since this work
belongs to the field of Natural Language Processing (NLP), from that field we extracted
the basic methodology of investigation, divided into three different phases: a) linguistic
phase, in which we studied both the lexicon - as part of the grammar of a language, as
part of our cognitive system and as part of an NLP system -, and the sense relations
within the lexicon; b) representational phase, in which we devised a formal
representation for synonymy and antonymy relations; c) implementational phase, in
which we applied the methodological framework we developed in the two preceeding
phases to de compilation of the thesaurus lexical database. The methodological
principles proved to be efficient, for they were applied to the construction of an actual
lexical database of a Brazilian Portuguese thesaurus, a lexical database currently
containing nearly 44 thousand entries organized in terms of the synonymy and
antonymy relations.
Keywords: lexical semantics; sense relations; lexicon; thesaurus; natural language
processing.
IX
SUM`RIO
CAP˝TULO 1 - CONSTRU˙ˆO DE UM THESAURUS ELETR(cid:212)NICO: EMPREENDIMENTO
LING(cid:220)˝STICO E COMPUTACIONAL..............................................................................................1
1.1 INTRODU˙ˆO.................................................................................................................................1
1.1.1 Delimita(cid:231)ªo do objeto thesaurus eletr(cid:244)nico............................................................................2
1.2 O PROCESSAMENTO AUTOM`TICO DAS L˝NGUAS NATURAIS: ASPECTOS GERAIS..............................5
1.2.1 Um breve panorama...............................................................................................................5
1.2.2 A abordagem do PLN em trŒs dom(cid:237)nios..................................................................................8
1.2.3 A base lexical e o sistema de PLN e o thesaurus eletr(cid:244)nico...................................................11
1.3 ESTRUTURA DA DISSERTA˙ˆO......................................................................................................12
CAP˝TULO 2 - AS UNIDADES LEXICAIS E O L(cid:201)XICO..............................................................15
2.1 DUAS SEM´NTICAS LEXICAIS.......................................................................................................15
2.2 TR˚S ASPECTOS DO L(cid:201)XICO..........................................................................................................16
2.2.1 O lØxico ling(cid:252)(cid:237)stico...............................................................................................................17
2.2.1.1 A unidade lexical..........................................................................................................................17
2.2.1.2 O significado, sua composicionalidade e seus tipos........................................................................19
2.2.2 O lØxico mental....................................................................................................................25
2.2.3 O lØxico computacional........................................................................................................34
2.3 PROPRIEDADES PARTILHADAS ENTRE UNIDADES LING(cid:220)˝STICAS E COMPUTACIONAIS.......................36
2.3.1 Propriedades bÆsicas...........................................................................................................36
2.3.1.1 Denota(cid:231)ªo ou categoriza(cid:231)ªo..........................................................................................................36
2.3.1.2 Superordena(cid:231)ªo/subordina(cid:231)ªo.......................................................................................................36
2.3.1.3 Atribui(cid:231)ªo....................................................................................................................................36
2.3.1.4 Demandas sobre os preenchedores de papØis de caso......................................................................37
2.3.1.5 Estruturas sem(cid:226)nticas ou conceituais.............................................................................................37
2.3.2 Propriedades derivadas ou de segunda ordem......................................................................38
2.3.2.1 Implica(cid:231)ªo....................................................................................................................................38
2.3.2.2 Heran(cid:231)a........................................................................................................................................38
2.3.3 Propriedades psicol(cid:243)gicas primÆrias....................................................................................38
2.3.3.1 Similaridade.................................................................................................................................38
2.3.3.2 Tipicalidade ou representatividade.................................................................................................38
2.3.3.3 Hierarquias de n(cid:237)vel bÆsico...........................................................................................................38
2.4 TEORIAS PARA A FORMALIZA˙ˆO DE SIGNIFICADOS......................................................................39
2.4.1 Tra(cid:231)os sem(cid:226)nticos................................................................................................................39
2.4.2 Redes Sem(cid:226)nticas.................................................................................................................40
2.4.3 Teoria dos prot(cid:243)tipos...........................................................................................................42
CAP˝TULO 3 - ARQUITETURA DE L(cid:201)XICOS..............................................................................45
3.1 O modelo de Pustejovsky.........................................................................................................45
3.2 O modelo de Jackendoff..........................................................................................................54
3.3 Relacionando os dois pontos de vista: lexical e conceitual.......................................................57
CAP˝TULO 4 - BASES DE DADOS LEXICAIS...............................................................................60
4.1 M(cid:201)TODOS DE COMPILA˙ˆO DE INFORMA˙ˆO L(cid:201)XICO-SEM´NTICA.................................................60
4.2 IMPORT´NCIA DOS DICION`RIO ENQUANTO FONTES DE INFORMA˙ˆO L(cid:201)XICO-SEM´NTICA.............62
4.2.1 O significado no dicionÆrio: problemas................................................................................68
4.3 MOTIVA˙ˆO PARA A CONSTRU˙ˆO DA BASE LEXICAL DO THESAURUS: A REDE WORDNET..............75
4.3.1 Fundamentos da rede Wordnet.............................................................................................76
CAP˝TULO 5 - AS RELA˙(cid:213)ES DE SENTIDO E A ESTRUTURA˙ˆO DO L(cid:201)XICO.................80
5.1 UM INVENT`RIOS DAS RELA˙(cid:213)ES DE SENTIDO...............................................................................80
5.1.1 Hierarquias..........................................................................................................................81
5.1.1.1 Assimetria....................................................................................................................................81
5.1.1.2 Simetria........................................................................................................................................82
5.1.1.3 Transitividade...............................................................................................................................82
5.1.1.4 Nªo transitividade.........................................................................................................................82
X
5.1.2 As rela(cid:231)ıes de sentido fundamentais.....................................................................................82
5.1.2.1 Identidade.....................................................................................................................................82
5.1.2.2 Inclusªo........................................................................................................................................83
5.1.2.3 Intersec(cid:231)ªo...................................................................................................................................83
5.1.2.4 Disjun(cid:231)ªo.....................................................................................................................................83
5.1.3 Uma tipologia de rela(cid:231)ıes de sentido....................................................................................84
5.1.3.1 Sinon(cid:237)mia cognitiva......................................................................................................................84
5.1.3.2 Hipon(cid:237)mia/hiperon(cid:237)mia.................................................................................................................84
5.1.3.3 Compatibilidade...........................................................................................................................85
5.1.3.4 Incompatibilidade.........................................................................................................................85
5.1.3.5 Meron(cid:237)mia/holon(cid:237)mia...................................................................................................................85
5.1.3.6 Tropon(cid:237)mia...................................................................................................................................85
5.1.3.7 Rela(cid:231)ıes parciais..........................................................................................................................86
5.1.3.8 Quase-rela(cid:231)ıes..............................................................................................................................86
5.1.3.9 Pseudo-rela(cid:231)ıes............................................................................................................................86
5.1.3.10 Para-rela(cid:231)ıes..............................................................................................................................87
5.1.3.11 Anton(cid:237)mia..................................................................................................................................88
5.2 AS RELA˙(cid:213)ES DE SENTIDO DEFINIDORAS DO THESAURUS ELETR(cid:212)NICO...........................................89
5.2.1 SINON˝MIA...............................................................................................................................89
5.2.1.1 Sinon(cid:237)mia, contexto e o critØrio da possibilidade de substitui(cid:231)ªo........................................90
5.2.1.2 Sinon(cid:237)mia, valor de verdade e implica(cid:231)ªo..........................................................................92
5.2.1.3 Sinon(cid:237)mia e contexto..........................................................................................................93
5.2.1.4 Sinon(cid:237)mia e tra(cid:231)os componenciais.....................................................................................93
5.2.1.5 Sinon(cid:237)mia e conceitos........................................................................................................95
5.2.1.6 Sinon(cid:237)mia: uma tipologia...................................................................................................98
5.2.1.6.1 Sinon(cid:237)mia absoluta.....................................................................................................................98
5.2.1.6.2 Sinon(cid:237)mia cognitiva...................................................................................................................99
5.2.1.6.3 Sinon(cid:237)mia parcial.....................................................................................................................101
5.2.1.6.4 Sinon(cid:237)mia absoluta mas nªo-total..............................................................................................102
5.2.1.6.5 Sinon(cid:237)mia completa mas nªo-total............................................................................................102
5.2.1.6.6 Sinon(cid:237)mia incompleta e nªo-total..............................................................................................102
5.2.1.6.7 Sinon(cid:237)mia conotativa...............................................................................................................102
5.2.1.6.8 Sinon(cid:237)mia denotativa................................................................................................................102
5.2.1.6.9 Outros casos............................................................................................................................102
5.2.2 ANTON˝MIA............................................................................................................................103
5.2.2.1 Contrastes binÆrios ou dicot(cid:244)micos.................................................................................105
5.2.2.1.1 Anton(cid:237)mia................................................................................................................................105
5.2.2.1.2 Complementaridade.................................................................................................................108
5.2.2.1.3 Reciprocidade..........................................................................................................................110
5.2.2.1.4 Oposi(cid:231)ªo direcional..................................................................................................................110
5.2.2.2 Contrastes nªo-binÆrios...................................................................................................113
5.2.2.2.1 Conjuntos seriais......................................................................................................................113
5.2.2.2.2 Conjuntos c(cid:237)clicos....................................................................................................................113
5.2.2.3 Ant(cid:244)nimos mœltiplos ou lexemas com mais de um ant(cid:244)nimo..............................................114
5.2.2.4 Anton(cid:237)mia e conceitos......................................................................................................114
5.3 AS RELA˙(cid:213)ES DE SENTIDO E AS CLASSES DE PALAVRAS...............................................................115
5.3.1 A organiza(cid:231)ªo sem(cid:226)ntica das classes de palavras consideradas..........................................116
5.3.1.1 Substantivos...............................................................................................................................116
5.3.1.2 Adjetivos e advØrbios..................................................................................................................119
5.3.1.3 Verbos........................................................................................................................................122
CAP˝TULO 6 - A BASE LEXICAL DO THESAURUS ELETR(cid:212)NICO........................................124
6.1 Sinon(cid:237)mia e anton(cid:237)mia: estrutura de sua representa(cid:231)ªo.........................................................124
6.2 Proposta de modelo para a interface de inser(cid:231)ªo de dados....................................................125
6.3 Delimita(cid:231)ªo do corpus de referŒncia.....................................................................................129
6.4 Par(cid:226)metros para filtragem de informa(cid:231)ıes do corpus de referŒncia.......................................133
6.5 O algoritmo...........................................................................................................................137
6.6 O Editor do Thesaurus..........................................................................................................140
6.7 O Editor e o Assistente de Edi(cid:231)ªo: aspectos visuais e linhas gerais de funcionamento............142
6.8 A inser(cid:231)ªo de dados na interface: o procedimento do ling(cid:252)ista..............................................146
CAP˝TULO 7 - CONCLUS(cid:213)ES, RESULTADOS E PERSPECTIVAS.........................................150
REFER˚NCIAS BIBLIOGR`FICAS.............................................................................................156
Description:Helio, Daniela Amorim, Christie, pela amizade, companheirismo e troca de uma base lexical para a compilação de um thesaurus eletrônico œ um A dictionary of synonyms and antonyms stored in memory for use in word processing in prolog: an introduction to computational linguistics.