Table Of ContentM´etodos de classifica¸c˜ao supervisionada para
detec¸c˜ao de erros em transac¸c˜oes de mercado
externo
C´atia Sofia Correia da Cunha
Disserta¸ca˜o para a obten¸ca˜o do Grau de Mestre em
Matem´atica e Aplica¸c˜oes
Ju´ri
Presidente: Doutor Anto´nio Manuel Pacheco Pires
Orientador: Doutora Ana Maria Pires Parente
Co-orientador: Doutor Carlos Soares (LIAAD-INESC Porto - FEP)
Vogal: Doutor Francisco Miguel Dion´ısio
Maio 2009
Resumo
As transac¸co˜es comerciais externas – importac¸˜oes e exporta¸co˜es – sa˜o reportadas ao
InstitutoNacionaldeEstat´ıstica–INE,queastrabalhaporformaagerarestat´ısticas.
Visto que, a existˆencia de erros nos dados relativos as transac¸co˜es tem um grande
impacto nas estat´ısticas publicadas, a detec¸ca˜o desses casos ´e da maior importˆancia.
Uma pr´evia selec¸ca˜o autom´atica de dados suscept´ıveis de conterem erros, reduziria
o conjunto de observa¸co˜es para ana´lise, o que auxiliaria consideravelmente a morosa
tarefa de detecc¸˜ao de erros.
Esta disserta¸c˜ao pretende aplicar m´etodos supervisionados na detec¸ca˜o de erros nos
dados relativos a`s ditas transacc¸˜oes de com´ercio externo, com o objectivo de ultra-
passar a problema´tica inerente `a raridade dos eventos.
Palavras-chave
Detec¸ca˜o de casos raros, detec¸ca˜o de erros, outliers, conjuntos desequilibrados, data
mining.
ii
Abstract
The foreign trade transactions – importations and exportations – are reported to
the Portuguese Institute of Statistics – INE, that treats them in order to generate
statistics. Since, the existence of errors in transactions data has a great impact in the
statistics published, the detection of these cases is of major importance.
A previous automatic selection of data likely to have errors, would reduce the analy-
sis observation set, which would considerably help the lasting task of detecting errors.
This dissertation intends to apply supervised methods in the detection of errors in
data of foreign trade transactions, with the objective of overcome the problematic
inherent to the events’ rarity.
Key-words
Rare cases detection, error detection, outliers, imbalanced datasets, data mining.
iii
Agradecimentos
Este trabalho foi apoiado pelos projectos Rank! (PTDC/EIA/81178/2006) e Oranki
(PTDC/EIA/68322/2006), financiados pela FCT.
Ao meus av´os, Eitel e Imelda da Cunha.
C´atia Cunha
iv
Conteu´do
Resumo ii
Abstract iii
Agradecimentos iv
Lista de Tabelas vii
Lista de Figuras viii
1 Introdu¸c˜ao 1
1.1 Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motiva¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Objectivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Estrutura do Relat´orio . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Extrac¸c˜ao de Conhecimento para Detec¸c˜ao de Erros 6
2.1 Extrac¸ca˜o de Conhecimento de Dados . . . . . . . . . . . . . . . . . . 6
2.1.1 Metodologias . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Manipula¸c˜ao de Dados . . . . . . . . . . . . . . . . . . . . . . 12
´
2.1.3 Arvores de Decis˜ao . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.4 Redes Neuronais . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.5 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Data Mining para Detec¸ca˜o de Erros . . . . . . . . . . . . . . . . . . 18
3 Detec¸c˜ao de Erros em Transac¸co˜es do Com´ercio Externo 22
3.1 Enquadramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Abordagens Anteriores . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4 An´alise Explorato´ria 25
4.1 Vari´aveis Nominais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.1 Lote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.2 Declara¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
v
4.1.3 Declarante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.4 Nu´mero de adi¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.5 Pa´ıs de proveniˆencia/destino . . . . . . . . . . . . . . . . . . . 29
4.1.6 C´odigo de mercadoria . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.7 Nu´mero de adi¸c˜oes por mercadoria . . . . . . . . . . . . . . . 29
4.1.8 Classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Vari´aveis Cont´ınuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.1 Massa l´ıquida . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.2 Valor facturado . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2.3 R´acio entre o valor facturado e a massa . . . . . . . . . . . . . 36
4.2.4 M´edia do ra´cio . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.5 Desvio padra˜o do ra´cio . . . . . . . . . . . . . . . . . . . . . . 41
4.2.6 Distˆancia normalizada . . . . . . . . . . . . . . . . . . . . . . 44
5 Estudo Experimental 47
5.1 Descri¸ca˜o da Abordagem . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Manipula¸c˜ao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.3 Diagramas SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3.1 Problema Inicial . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3.2 Manipula¸c˜ao de Custos . . . . . . . . . . . . . . . . . . . . . . 52
5.3.3 Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.4 Undersampling . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.5 Combina¸ca˜o de T´ecnicas . . . . . . . . . . . . . . . . . . . . . 64
6 Conclus˜oes e Desenvolvimentos Futuros 68
A Detalhes de Implementa¸c˜ao SAS 70
A.1 Explora¸c˜ao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.2 SQL de Explora¸ca˜o dos Dados . . . . . . . . . . . . . . . . . . . . . . 70
A.3 Outros Diagramas SAS . . . . . . . . . . . . . . . . . . . . . . . . . . 74
A.4 Outros Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
A.5 Configura¸co˜es Standard dos n´os SAS . . . . . . . . . . . . . . . . . . 92
Referˆencias Bibliogr´aficas 97
vi
Lista de Tabelas
2.1 Classifica¸ca˜o de t´ecnicas de data mining . . . . . . . . . . . . . . . . 8
4.1 Resumo das varia´veis cont´ınuas . . . . . . . . . . . . . . . . . . . . . 27
4.2 Vari´avel lote por mˆes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3 Vari´avel declarac¸˜ao por mˆes . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Vari´avel declarante por mˆes . . . . . . . . . . . . . . . . . . . . . . . 28
4.5 Vari´avel nu´mero de adic¸˜oes por mˆes . . . . . . . . . . . . . . . . . . . 29
4.6 Vari´avel mercadoria por mˆes . . . . . . . . . . . . . . . . . . . . . . . 29
4.7 Vari´avel classe por mˆes . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.8 Vari´avel massa l´ıquida por mˆes . . . . . . . . . . . . . . . . . . . . . 32
4.9 Vari´avel massa l´ıquida com classe 0 . . . . . . . . . . . . . . . . . . . 32
4.10 Varia´vel massa l´ıquida com classe 1 . . . . . . . . . . . . . . . . . . . 33
4.11 Varia´vel valor facturado por mˆes . . . . . . . . . . . . . . . . . . . . . 35
4.12 Varia´vel valor facturado com classe 0 . . . . . . . . . . . . . . . . . . 35
4.13 Varia´vel valor facturado com classe 1 . . . . . . . . . . . . . . . . . . 35
4.14 Varia´vel r´acio por mˆes . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.15 Varia´vel r´acio com classe 0 . . . . . . . . . . . . . . . . . . . . . . . . 37
4.16 Varia´vel r´acio com classe 1 . . . . . . . . . . . . . . . . . . . . . . . . 38
4.17 Varia´vel m´edia do r´acio por mˆes . . . . . . . . . . . . . . . . . . . . . 40
4.18 Varia´vel m´edia do r´acio com classe 0 . . . . . . . . . . . . . . . . . . 40
4.19 Varia´vel m´edia do r´acio com classe 1 . . . . . . . . . . . . . . . . . . 41
4.20 Varia´vel desvio padr˜ao do r´acio por mˆes . . . . . . . . . . . . . . . . 43
4.21 Varia´vel desvio padr˜ao do r´acio com classe 0 . . . . . . . . . . . . . . 43
4.22 Varia´vel desvio padr˜ao do r´acio com classe 1 . . . . . . . . . . . . . . 43
4.23 Varia´vel distaˆncia normalizada por mˆes . . . . . . . . . . . . . . . . . 45
4.24 Varia´vel distaˆncia normalizada com classe 0 . . . . . . . . . . . . . . 45
4.25 Varia´vel distaˆncia normalizada com classe 1 . . . . . . . . . . . . . . 46
5.1 Matriz de custos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
vii
Lista de Figuras
1.1 Produtos disponibilizados pelo INE relativamente a`s transac¸co˜es de
com´ercio externo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1 Processo de funcionamento dos m´etodos supervisionados . . . . . . . 8
2.2 Metodologia de Fayyad . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Metodologia CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Metodologia SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
´
2.5 Arvore de decis˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6 Funcionamento neuronal . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Estrutura de rede neuronal . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Funcionamento de redes neuronais . . . . . . . . . . . . . . . . . . . . 16
2.9 Distaˆncias em clusters . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.10 Clustering versus classifica¸ca˜o . . . . . . . . . . . . . . . . . . . . . . 18
2.11 Problem´atica da raridade . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1 Diagrama da an´alise explorato´ria . . . . . . . . . . . . . . . . . . . . 27
4.2 Distribui¸ca˜o da massa l´ıquida . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Detalhe da distribui¸c˜ao da massa l´ıquida . . . . . . . . . . . . . . . . 31
4.4 Distribui¸ca˜o do valor facturado . . . . . . . . . . . . . . . . . . . . . 34
4.5 Detalhe da distribui¸c˜ao do valor facturado . . . . . . . . . . . . . . . 34
4.6 Distribui¸ca˜o do ra´cio . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.7 Detalhe da distribui¸c˜ao do r´acio . . . . . . . . . . . . . . . . . . . . . 37
4.8 Distribui¸ca˜o da m´edia do ra´cio . . . . . . . . . . . . . . . . . . . . . . 39
4.9 Detalhe da distribui¸c˜ao da m´edia do r´acio . . . . . . . . . . . . . . . 39
4.10 Distribui¸ca˜o do desvio padr˜ao do r´acio . . . . . . . . . . . . . . . . . 42
4.11 Detalhe da distribui¸ca˜o do desvio padra˜o do ra´cio . . . . . . . . . . . 42
4.12 Distribui¸ca˜o do distaˆncia normalizada . . . . . . . . . . . . . . . . . . 44
5.1 Abordagem ao estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Diagrama do problema inicial . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Curva ROC da rede neuronal no problema inicial . . . . . . . . . . . 51
5.4 Curva ROC da ´arvore de decisa˜o no problema inicial . . . . . . . . . 52
5.5 Gra´fico de clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.6 Diagrama de manipula¸ca˜o de custos em rede neuronais . . . . . . . . 54
viii
5.7 Diagrama de manipula¸ca˜o de custos em a´rvores de decisa˜o . . . . . . 55
5.8 Detalhes da configura¸ca˜o da matriz de custos e probabilidades . . . . 55
5.9 Curva ROC de rede neuronal com custos e sem probabilidades . . . . 56
5.10 Curva ROC de a´rvore de decis˜ao com custos e sem probabilidades . . 56
5.11 Curva ROC de rede neuronal com custos e probabilidades iguais . . . 57
5.12 Curva ROC de a´rvore de decis˜ao com custos e probabilidades iguais . 57
5.13 Curva ROC de rede neuronal com custos e probabilidades proporcionais 57
5.14 Curva ROC de a´rvore de decisa˜o com custos e probabilidades propor-
cionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.15 Curva ROC de rede neuronal com custos e probabilidades adaptadas 58
5.16 Curva ROC de ´arvore de decisa˜o com custos e probabilidades adaptadas 58
5.17 Diagrama de oversampling em rede neuronais . . . . . . . . . . . . . 59
5.18 Diagrama de oversampling em ´arvores de decisa˜o . . . . . . . . . . . 59
5.19 Dados e ra´cios de Janeiro e Fevereiro 98 . . . . . . . . . . . . . . . . 60
5.20 Curva ROC de rede neuronal com oversampling 2X . . . . . . . . . . 60
5.21 Curva ROC de a´rvores de decis˜ao com oversampling 2X . . . . . . . . 61
5.22 Curva ROC de rede neuronal com oversampling 10X . . . . . . . . . 61
5.23 Curva ROC de a´rvores de decis˜ao com oversampling 10X . . . . . . . 61
5.24 Curva ROC de rede neuronal com oversampling 100X . . . . . . . . . 61
5.25 Curva ROC de a´rvores de decis˜ao com oversampling 100X . . . . . . 62
5.26 Curva ROC de rede neuronal com oversampling r´acioX . . . . . . . . 62
5.27 Curva ROC de a´rvores de decis˜ao com oversampling r´acioX . . . . . 62
5.28 Diagrama de undersampling em rede neuronais . . . . . . . . . . . . . 63
5.29 Diagrama de undersampling em ´arvores de decisa˜o . . . . . . . . . . . 63
5.30 Curva ROC de redes neuronais com undersampling . . . . . . . . . . 64
5.31 Curva ROC de a´rvores de decis˜ao com undersampling . . . . . . . . . 64
5.32 Diagrama de combina¸c˜ao de t´ecnicas em rede neuronais . . . . . . . . 65
5.33 Diagrama de combina¸c˜ao de t´ecnicas em ´arvores de decisa˜o . . . . . . 65
5.34 Curva ROC de redes neuronais com undersampling e custos . . . . . 66
5.35 Curva ROC de redes neuronais com oversampling e custos . . . . . . 66
5.36 Curva ROC de a´rvores de decis˜ao com undersampling e custos . . . . 66
5.37 Curva ROC de a´rvores de decis˜ao com oversampling e custos . . . . . 67
A.1 Ecr˜a de Input Data Source . . . . . . . . . . . . . . . . . . . . . . . . 71
A.2 Diagrama do problema inicial - Fevereiro . . . . . . . . . . . . . . . . 75
A.3 Diagrama do problema inicial - global . . . . . . . . . . . . . . . . . . 75
A.4 Diagrama de manipula¸ca˜o de custos em rede neuronais - Fevereiro . . 76
A.5 Diagrama de manipula¸ca˜o de custos em ´arvores de decis˜ao - Fevereiro 76
A.6 Diagrama de manipula¸ca˜o de custos em rede neuronais - global . . . . 77
A.7 Diagrama de manipula¸ca˜o de custos em ´arvores de decis˜ao - global . . 77
A.8 Diagrama de oversampling em rede neuronais - Fevereiro . . . . . . . 78
A.9 Diagrama de oversampling em ´arvores de decisa˜o - Fevereiro . . . . . 78
ix
A.10 Diagrama de oversampling em rede neuronais - global . . . . . . . . . 79
A.11 Diagrama de oversampling em ´arvores de decisa˜o - global . . . . . . . 79
A.12 Diagrama de combina¸ca˜o de t´ecnicas em rede neuronais - Fevereiro . 80
A.13 Diagrama de combina¸ca˜o de t´ecnicas em a´rvores de decisa˜o - Fevereiro 80
A.14 Diagrama de combina¸ca˜o de t´ecnicas em rede neuronais - global . . . 81
A.15 Diagrama de combina¸ca˜o de t´ecnicas em a´rvores de decisa˜o - global . 81
A.16 Curva ROC de manipula¸ca˜o de custos e sem probabilidades - Fevereiro 82
A.17 Curva ROC de manipula¸ca˜o de custos e sem probabilidades - global . 83
A.18 Curva ROC de manipula¸ca˜o de custos e probabilidades iguais - Fevereiro 83
A.19 Curva ROC de manipula¸ca˜o de custos e probabilidades iguais - global 84
A.20 Curva ROC de manipula¸ca˜o de custos e probabilidades proporcionais
- Fevereiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
A.21 Curva ROC de manipula¸ca˜o de custos e probabilidades proporcionais
- global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A.22 Curva ROC de manipula¸ca˜o de custos e probabilidades adaptadas -
Fevereiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A.23 Curva ROC de manipula¸c˜ao de custos e probabilidade adaptada - global 86
A.24 Curva ROC de oversampling 2X - Fevereiro . . . . . . . . . . . . . . 87
A.25 Curva ROC de oversampling 2X - global . . . . . . . . . . . . . . . . 87
A.26 Curva ROC de oversampling 10X - Fevereiro . . . . . . . . . . . . . . 87
A.27 Curva ROC de oversampling 10X - global . . . . . . . . . . . . . . . 88
A.28 Curva ROC de oversampling 100X - Fevereiro . . . . . . . . . . . . . 88
A.29 Curva ROC de oversampling 100X - global . . . . . . . . . . . . . . . 89
A.30 Curva ROC de oversampling r´acioX - Fevereiro . . . . . . . . . . . . 89
A.31 Curva ROC de oversampling r´acioX - global . . . . . . . . . . . . . . 90
A.32 Curva ROC de undersampling - Fevereiro . . . . . . . . . . . . . . . . 90
A.33 Curva ROC de undersampling - global . . . . . . . . . . . . . . . . . 91
A.34 Curva ROC de undersampling e custos - Fevereiro . . . . . . . . . . . 91
A.35 Curva ROC de undersampling e custos - global . . . . . . . . . . . . 92
A.36 Curva ROC de oversampling e custos - Fevereiro . . . . . . . . . . . . 93
A.37 Curva ROC de oversampling e custos - global . . . . . . . . . . . . . 93
A.38 Ecra˜ de configura¸co˜es em a´rvores de decis˜ao . . . . . . . . . . . . . . 94
A.39 Ecra˜ de configura¸co˜es em redes neuronais . . . . . . . . . . . . . . . . 94
A.40 Ecra˜ de configura¸co˜es em partic¸˜ao de dados . . . . . . . . . . . . . . 95
x
Description:As transacç˜oes comerciais externas – importaç˜oes e exportaç˜oes – s˜ao reportadas ao. Instituto Nacional de Estatıstica – INE, que as trabalha por forma a gerar estatısticas. Visto que, a existência de erros nos dados relativos as transacç˜oes tem um grande impacto nas estatıst