Table Of ContentFACULTADE DE FILOLOXÍA DA UNIVERSIDADE DA CORUÑA
Departamento de Galego-Portugués, Francés e Lingüística
ALGORITMOS DE PROCESSAMENTO DA LINGUAGEM NATURAL
PARA SISTEMAS DE CONVERSÃO TEXTO-FALA EM PORTUGUÊS
Daniela Filipa Macedo Braga Moreira da Silva
Dissertação submetida para obtenção da “mención de DOUTOR
EUROPEO”
Dissertação realizada sob a direcção de:
Professor Doutor Xosé Ramón Freixeiro Mato
(Universidade da Coruña)
Professora Doutora Maria Aldina Marques
(Universidade do Minho)
Professor Doutor Fernando Gil Vianna Resende Jr.
(Universidade Federal do Rio de Janeiro)
A Coruña, 23 de Maio de 2008
i
ii
FACULTADE DE FILOLOXÍA DA UNIVERSIDADE DA CORUÑA
Departamento de Galego-Portugués, Francés e Lingüística
ALGORITMOS DE PROCESSAMENTO DA LINGUAGEM NATURAL
PARA SISTEMAS DE CONVERSÃO TEXTO-FALA EM PORTUGUÊS
Dissertação submetida para obtenção da “mención de DOUTOR
EUROPEO”
A autora da tese Vº e praz
iii
JÚRI
PRESIDENTE:
PROF.ª DRA. NIEVES RODRÍGUEZ BRISABOA (DEPARTAMENTO DE
COMPUTACIÓN, UNIVERSIDADE DA CORUÑA, ESPAÑA)
VOGAIS:
PROF.ª DRA. M. ANTONIA MARTI ANTONÍN (DEPARTAMENTO DE LINGÜÍSTICA
GENERAL, UNIVERSIDAD DE BARCELONA, ESPAÑA)
PROF. DR. JOSÉ JOÃO ALMEIDA (DEPARTAMENTO DE INFORMÁTICA,
UNIVERSIDADE DO MINHO, PORTUGAL)
PROF. DR. ANTÓNIO TEIXEIRA (DEPARTAMENTO DE ELECTRÓNICA,
TELECOMUNICAÇÕES E INFORMÁTICA, UNIVERSIDADE DE AVEIRO, PORTUGAL)
SECRETÁRIO:
PROF. DR. ÁLVARO IRIARTE SANROMÁN (DEPARTAMENTO DE ESTUDOS
PORTUGUESES, UNIVERSIDADE DO MINHO, PORTUGAL)
JÚRI SUPLENTE
PROF. DR. MANUEL FERREIRO FERNÁNDEZ (DEPARTAMENTO DE GALEGO-
PORTUGUÉS, FRANCÉS E LINGÜÍSTICA, UNIVERSIDADE DA CORUÑA, ESPAÑA)
PROF.ª DRA. M. FÁTIMA SILVA (DEPARTAMENTO DE ESTUDOS PORTUGUESES
E ESTUDOS ROMÂNICOS, UNIVERSIDADE DO PORTO)
CLASSIFICAÇÃO OBTIDA: “SOBRESALIENTE CUM LAUDE”
iv
Ao Luís.
À minha mãe.
v
vi
" O Universo está escrito em linguagem matemática."
"É preciso eliminar os mal-entendidos entre a fé e a ciência."
"Quando alguém menos entende mais quer discordar."
"Eu creio na razão."
"Eppur si Muove!"
Galileu Galilei (1564-1642)
vii
viii
Índice
Agradecimentos ...................................................................................................... xi
Resumo ................................................................................................................. xiii
Abstract .................................................................................................................. xv
Resumen ............................................................................................................... xvii
Lista de Tabelas .................................................................................................... xix
Lista de Figuras ................................................................................................... xxiii
Lista de Siglas e Abreviaturas .............................................................................. xxv
Introdução ................................................................................................................ 1
Antecedentes e motivações .............................................................................. 1
Objectivos e metodologia ................................................................................. 6
Síntese dos conteúdos....................................................................................... 9
Capítulo 1 ............................................................................................................... 11
Fundamentos teóricos, estado da arte e arquitectura do sistema ........................ 11
1.1. Fundamentos teóricos ....................................................................... 11
1.2. Estado da arte ................................................................................... 13
1.3. Arquitectura do sistema .................................................................... 25
1.4. Síntese do capítulo 1 ......................................................................... 27
Capítulo 2 ............................................................................................................... 29
Pré-processamento de texto ................................................................................ 29
2.1. Separador de frases ........................................................................... 29
2.2. Separador de palavras ....................................................................... 30
2.3. Conversor de símbolos e caracteres especiais .................................. 30
2.4. Expansor de abreviaturas .................................................................. 32
2.5. Leitor de siglas e acrónimos ............................................................. 35
2.6. Conversor de numerais ..................................................................... 39
2.7. Testes e discussão dos resultados ..................................................... 50
2.8. Aplicações do sistema ao português do Brasil ................................. 51
2.9. Aplicações do sistema ao galego ...................................................... 52
2.10. Síntese do capítulo 2 ......................................................................... 56
ix
Capítulo 3 ............................................................................................................... 57
Desambiguador de homógrafos .......................................................................... 57
3.1. Caracterização do problema e estado da arte .................................... 58
3.2. Arquitectura do desambiguador de homógrafos heterófonos ........... 60
3.3. Algoritmos de desambiguação de homógrafos heterófonos ............. 65
3.4. Testes e discussão de resultados ....................................................... 84
3.5. Aplicações do sistema ao português do Brasil ................................. 91
3.6. Aplicações do sistema ao galego ...................................................... 97
3.7. Síntese do capítulo 3 ....................................................................... 101
Capítulo 4 ............................................................................................................. 103
Leitor de estrangeirismos ................................................................................. 103
4.1. Definição do problema e estado da arte .......................................... 104
4.2. Leitor de estrangeirismos ............................................................... 106
4.3. Testes e discussão de resultados ..................................................... 119
4.4. Aplicações do sistema ao português do Brasil e ao galego ............ 120
4.5. Síntese do capítulo 4 ....................................................................... 125
Capítulo 5 ............................................................................................................. 127
Conversor grafema-fone ................................................................................... 127
5.1. Divisor silábico ............................................................................... 127
5.2. Marcador de sílaba tónica ............................................................... 131
5.3. Transcritor grafema-fone ................................................................ 134
5.4. Testes e discussão de resultados ..................................................... 145
5.5. Aplicações do sistema ao português do Brasil ............................... 148
5.6. Aplicações do sistema ao galego .................................................... 158
5.7. Síntese do capítulo 5 ....................................................................... 169
Capítulo 6 ............................................................................................................. 171
Integração do sistema no motor de síntese ....................................................... 171
6.1. Construção e gravação da voice font .............................................. 171
6.2. Integração do sistema com o motor de síntese por HMMs ............. 173
6.3. Síntese do capítulo 6 ....................................................................... 177
Capítulo 7 ............................................................................................................. 179
Conclusões e trabalho futuro ............................................................................ 179
Referências bibliográficas .................................................................................... 187
x
Description:ciências, das quais se salientam a Engenharia, a Informática, a Linguística e a. Matemática. Este estatuto interdisciplinar está na base de alguma verificação manual. Este assunto será desenvolvido no Capítulo 6. Na presente dissertação, propõem-se novos módulos de análise de texto e