Table Of ContentAprendizaje supervisado en conjuntos de datos no balanceados
con Redes Neuronales Artificiales
Métodos de mejora de rendimiento para modelos de
clasificación binaria en diagnóstico médico
Juan Águila Martínez
TRABAJO FINAL DE MÁSTER
Dirigido por el Dr. Agustí Solanas Gómez
MÁSTER EN INGENIERÍA COMPUTACIONAL Y MATEMÁTICAS
Barcelona, Junio de 2017
Esta obra está sujeta a una licencia de
Reconocimiento-NoComercial-
SinObraDerivada 3.0 España de Creative
Commons
C) Copyright
© (el autor/a)
Reservados todos los derechos. Está prohibido
la reproducción total o parcial de esta obra por
cualquier medio o procedimiento,
comprendidos la impresión, la reprografía, el
microfilme, el tratamiento informático o
cualquier otro sistema, así como la distribución
de ejemplares mediante alquiler y préstamo,
sin la autorización escrita del autor o de los
límites que autorice la Ley de Propiedad
Intelectual.
FICHA DEL TRABAJO FINAL de MÁSTER
Aprendizaje supervisado en conjuntos de
datos no balanceados con Redes
Neuronales Artificiales
Título del trabajo:
Métodos de mejora de rendimiento para
modelos de clasificación binaria en
diagnóstico médico
Nombre del autor: Juan Águila Martínez
Nombre del director: Dr. Agustí Solanas Gómez
Fecha de entrega (mm/aaaa): 06/2017
Área del Trabajo Final de
Análisis de datos
Máster:
Máster en Ingeniería Computacional y
Titulación:
Matemáticas
Resumen del Trabajo (máximo 250 palabras):
El presente trabajo aborda el problema del reconocimiento de patrones en un
conjunto de datos obtenido a partir de imágenes digitalizadas de muestras de
líquido de tumor mamario mediante test de aguja fina o FNA. Dicho conjunto de
datos presenta un marcado desequilibrio de clases, además de otras
características que degradan el rendimiento de las técnicas de clasificación
supervisada habituales, como la escasez de datos o el efecto Hughes. El
enfoque del trabajo es el siguiente:
- En el primer bloque del trabajo se presenta un estado del arte de las técnicas
para trabajar con datos no balanceados, y se realiza una reseña histórica sobre
el uso de los clasificadores neuronales (Redes Neuronales Artificiales o ANN).
- En el segundo bloque del trabajo se utilizan las técnicas descritas en el
bloque anterior junto a un clasificador neuronal para construir un modelo de
reconocimiento de patrones sobre una versión modificada del conjunto de
datos Wisconsin Diagnostic Breast Cancer (WDBC).
Los resultados obtenidos en el experimento demuestran que la aplicación de
técnicas de preprocesamiento de datos basados en técnicas de sobremuestreo
sintético adaptativo y submuestreo informado mejoran hasta en un 7,5% el
rendimiento del clasificador de base cuando se trabaja en el escenario
indicado. Por otro lado, la utilización de técnicas de ensamble de clasificadores
y decisión por votación son capaces de proporcionar modelos más estables
(reduciendo la varianza del resultado hasta en un 30%). El trabajo realiza un
análisis comprensivo tanto de las técnicas como de los resultados, y
proporciona una recomendación general justificada sobre el mejor marco de
trabajo a utilizar cuándo deba trabajarse sobre conjuntos de datos con
características similares a las del WDBC.
Abstract (in English, 250 words or less):
The following work addresses the problem of recognizing a set of patterns
within a database obtained from scanned images through the liquid of
mammary samples taken via FNA (Fine Needle Aspiration). Such data present
a marked class imbalance, not to mention other features which degrade the
usual supervised classification techniques in terms of performance (e.g. the
lack of data or the Hughes phenomenon).
The working approach is as follows:
- The first work package presents the current state of techniques dealing with
unbalanced data. Furthermore, an historical account is taken into consideration
when it comes to neural classifiers (the ANN-based model).
- In the second block of work, these techniques are applied along with a neural
classifier to build a model of pattern recognition in relation to a modified version
of Wisconsin Diagnostic Breast Cancer (WDBC) set of data.
The results obtained in this test prove that the application of pre-processing
based techniques, when carried out with synthetic and adaptive oversampling
techniques, along with already informed undersampling, can improve the
performance of base classifier up to 7,5%. Furthermore, the application of
techniques based on classifier assembling and decision by vote can provide
more stable models (reducing the result variance up to 30%).
This work tries to carry out a comprehensive analysis both in terms of
techniques and results. This is undertaken to put forward a general justified
recommendation focused on how to improve the method applied when it comes
to data presenting the above-referred characteristics.
Palabras clave (entre 4 y 8):
Estadística Multivariante, Redes Neuronales, Análisis de Datos, Datos No
Balanceados, Modelización Estadística, Machine Learning, Data Mining
Resumen
El presente trabajo aborda el problema del reconocimiento de patrones en un conjunto de datos
obtenidoapartirdeima´genesdigitalizadasdemuestrasdel´ıquidodetumormamariomediantetest
deagujafinaoFNA1.Dichoconjuntodedatospresentaunmarcadodesequilibriodeclases,adema´s
de otras caracter´ısticas que degradan el rendimiento de las t´ecnicas de clasificaci´on supervisada
habituales, como la escasez de datos o el efecto Hughes.
El enfoque del trabajo es el siguiente:
En el primer bloque del trabajo se presenta un estado del arte de las t´ecnicas para trabajar
con datos no balanceados, y se realiza una resen˜a histo´rica sobre el uso de los clasificadores
neuronales (Redes Neuronales Artificiales o ANN2).
En el segundo bloque del trabajo se utilizan las t´ecnicas descritas en el bloque anterior junto
a un clasificador neuronal para construir un modelo de reconocimiento de patrones sobre una
versio´n modificada del conjunto de datos Wisconsin Diagnostic Breast Cancer (WDBC).
Los resultados obtenidos en el experimento demuestran que la aplicacio´n de t´ecnicas de prepro-
cesamiento de datos basados en t´ecnicas de sobremuestreo sint´etico adaptativo y submuestreo
informado mejoran hasta en un 7,5% el rendimiento del clasificador de base cuando se trabaja
en el escenario indicado. Por otro lado, la utilizacio´n de t´ecnicas de ensamble de clasificadores y
decisi´on por votaci´on son capaces de proporcionar modelos m´as estables (reduciendo la varianza
del resultado hasta en un 30%). El trabajo realiza un an´alisis comprensivo tanto de las t´ecnicas
como de los resultados, y proporciona una recomendaci´on general justificada sobre el mejor marco
de trabajo a utilizar cu´ando deba trabajarse sobre conjuntos de datos con caracter´ısticas similares
a las del WDBC.
1Del ingl´es Fine Needle Aspiration.
2Del ingl´es Artificial Neural Netowrk.
iii
iv
Abstract
The following work addresses the problem of recognizing a set of patterns within a database
obtained from scanned images through the liquid of mammary samples taken via FNA (Fine
Needle Aspiration). Such data present a marked class imbalance, not to mention other features
which degrade the usual supervised classification techniques in terms of performance (e.g. the lack
of data or the Hughes phenomenon).
The working approach is as follows:
The first work package presents the current state of techniques dealing with unbalanced
data. Furthermore, an historical account is taken into consideration when it comes to neural
classifiers (the ANN-based model).
In the second block of work, these techniques are applied along with a neural classifier to
buildamodelofpatternrecognitioninrelationtoamodifiedversionofWisconsinDiagnostic
Breast Cancer (WDBC) set of data.
The results obtained in this test prove that the application of pre-processing based techniques,
when carried out with synthetic and adaptive oversampling techniques, along with already infor-
med undersampling, can improve the performance of base classifier up to 7,5%. Furthermore, the
application of techniques based on classifier assembling and decision by vote can provide more
stable models (reducing the result variance up to 30%).
This work tries to carry out a comprehensive analysis both in terms of techniques and results.
This is undertaken to put forward a general justified recommendation focused on how to improve
the method applied when it comes to data presenting the above-referred characteristics.
v
vi
Agradecimientos
Quiero agradecer su dedicacio´n al profesor Dr. Agust´ı Solanas. Su gu´ıa experta ha sido de
enorme ayuda en la definicio´n de las directrices generales y el alcance de este trabajo.
Tambi´enquieroagradeceratodoelpersonaldocenteyadministrativodelaUniversitatRovirai
Virgili y la Universitat Oberta de Catalunya su excelente labor, que hace fa´cil algo tan complicado
como la educacio´n a distancia, incluso para qui´enes tienen que compaginar los estudios con una
jornada laboral completa.
Por u´ltimo, quiero agradecer su apoyo incondicional a mi pareja y a mi familia.
vii
viii
Description:El presente trabajo aborda el problema del reconocimiento de patrones en un características que degradan el rendimiento de las técnicas de clasificación .. Representación esquemática del modelo de neurona artificial de .. o las técnicas más modernas de Inteligencia Artificial (en adelante,