Table Of ContentUNIVERSIDAD COMPLUTENSE DE MADRID
FACULTAD DE CIENCIAS MATEMÁTICAS
Departamento de Estadística e Investigación Operativa
ANÁLISIS DE SEGMENTACIÓN EN EL ANÁLISIS DE
DATOS SIMBÓLICOS
MEMORIA PARA OPTAR AL GRADO DE DOCTOR
PRESENTADA POR
María del Carmen Bravo Llatas
Bajo la dirección del doctor
José Miguel García – Santesmases Martín - Tesorero
Madrid, 2001
ISBN:84-669-1791-8
UNIVERSIDAD COMPLUTENSE DE MADRID
FACULTAD DE CIENCIAS MATEMÁTICAS
Departamento de Estadística
e Investigación Operativa I
ANÁLISIS DE SEGMENTACIÓN EN EL
ANÁLISIS DE DATOS SIMBÓLICOS
TESIS DOCTORAL
María del Carmen Bravo Llatas
Madrid, 2001
UNIVERSIDAD COMPLUTENSE DE MADRID
FACULTAD DE CIENCIAS MATEMÁTICAS
Departamento de Estadística
e Investigación Operativa I
ANÁLISIS DE SEGMENTACIÓN EN EL
ANÁLISIS DE DATOS SIMBÓLICOS
María del Carmen Bravo Llatas
Memoria para optar al grado de Doctora
en Ciencias Matemáticas, realizada bajo
la dirección del Profesor Dr. D. José Miguel
García-Santesmases Martín-Tesorero
JOSÉ MIGUEL GARCÍA-SANTESMASES MARTÍN-TESORERO,
PROFESOR TITULAR DEL DEPARTAMENTO DE ESTADÍSTICA E
INVESTIGACIÓN OPERATIVA I DE LA UNIVERSIDAD COMPLUTENSE
DE MADRID
CERTIFICA:
Que la presente Memoria titulada:
ANÁLISIS DE SEGMENTACIÓN EN EL ANÁLISIS DE DATOS
SIMBÓLICOS
ha sido realizada bajo mi dirección por Doña María del Carmen Bravo
Llatas, Licenciada en Ciencias Matemáticas, y constituye su Tesis para
optar al grado de Doctora en Ciencias Matemáticas.
Y para que conste, en cumplimiento de la legislación vigente y a los efectos
oportunos, firmo la presente en Madrid a 7 de Septiembre de dos mil uno.
A mis seres queridos
Índice General
Prólogo 1
I Fundamentos 11
1 Conceptos del Análisis de Datos Simbólicos 13
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Análisis de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.1 Variables monoevaluadas . . . . . . . . . . . . . . . . . . . 16
1.2.2 Matriz de datos . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Análisis de Datos Simbólicos . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Matriz de datos simbólicos . . . . . . . . . . . . . . . . . . 19
1.3.2 Variables multievaluadas . . . . . . . . . . . . . . . . . . . 20
1.3.3 Variables modales probabilistas . . . . . . . . . . . . . . . 24
1.3.4 Variables modales posibilistas . . . . . . . . . . . . . . . . 30
1.3.5 Conjunto de descripciones simbólicas . . . . . . . . . . . . 38
1.4 Objetos simbólicos .. . . . . . . . . . . . . . . . . . . . . . . . . 40
1.4.1 Relaciones de dominio . . . . . . . . . . . . . . . . . . . . 41
1.4.2 Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.4.3 Aserciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.4.4 Otros tipos de datos y objetos simbólicos . . . . . . . . . . 62
1.4.5 Generalización. . . . . . . . . . . . . . . . . . . . . . . . . 65
1.5 Operaciones sobre conjuntos de aserciones . . . . . . . . . . . . . 67
iv ÍNDICE GENERAL
1.5.1 Unión, intersección y complementariedad . . . . . . . . . . 68
1.5.2 Conjunción . . . . . . . . . . . . . . . . . . . . . . . . . . 72
1.6 Conclusión .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2Segmentación 79
2.1 Árboles de Segmentación .. . . . . . . . . . . . . . . . . . . . . . 79
2.1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.1.2 Datos de partida . . . . . . . . . . . . . . . . . . . . . . . 81
2.1.3 Objetivo y Método . . . . . . . . . . . . . . . . . . . . . . 82
2.1.4 Esquema del algoritmo . . . . . . . . . . . . . . . . . . . . 85
2.1.5 Nodos del árbol . . . . . . . . . . . . . . . . . . . . . . . . 86
2.1.6 Criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.1.7 Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.2 Árboles de Segmentación con incertidumbre . . . . . . . . . . . . 101
2.2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.2.2 Método con incertidumbre . . . . . . . . . . . . . . . . . . 102
2.2.3 Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . 108
2.3 Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
II Segmentación y Análisis de Datos Simbólicos 123
3 Segmentación para Datos Estratificados 125
3.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.1.1 Datos de partida . . . . . . . . . . . . . . . . . . . . . . . 128
3.1.2 Estratos y Objetivos . . . . . . . . . . . . . . . . . . . . . 130
3.2 Método y representación . . . . . . . . . . . . . . . . . . . . . . . 133
3.2.1 Árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.2.2 Nodos del árbol . . . . . . . . . . . . . . . . . . . . . . . . 139
3.2.3 Estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
ÍNDICE GENERAL v
3.2.4 Criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3.3 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.3.1 Inicialización . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.3.2 Admisibilidad . . . . . . . . . . . . . . . . . . . . . . . . 151
3.3.3 Maximización . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.3.4 Nodos decisionales . . . . . . . . . . . . . . . . . . . . . . 153
3.3.5 Parada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.4 Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4 Método Datos Monoevaluados, Modales Probabilistas y Exten-
siones 159
4.1 Criterios para datos monoevaluados . . . . . . . . . . . . . . . . . 160
4.1.1 Elementos posibles de partición . . . . . . . . . . . . . . . 160
4.1.2 Función de admisibilidad . . . . . . . . . . . . . . . . . . . 162
4.1.3 Medidas de contenido de información . . . . . . . . . . . . 163
4.1.4 Descripción de la estimación de la variable clase . . . . . . 167
4.1.5 Condición de nodo decisional . . . . . . . . . . . . . . . . 169
4.1.6 Condición de parada . . . . . . . . . . . . . . . . . . . . . 171
4.2 Criterios para datos modales probabilistas . . . . . . . . . . . . . 171
4.2.1 Elementos posibles de partición . . . . . . . . . . . . . . . 171
4.2.2 Función de admisibilidad . . . . . . . . . . . . . . . . . . . 173
4.2.3 Medidas de contenido de información . . . . . . . . . . . . 173
4.2.4 Descripción de la estimación de la variable clase . . . . . . 178
4.2.5 Condición de nodo decisional . . . . . . . . . . . . . . . . 179
4.2.6 Condición de parada . . . . . . . . . . . . . . . . . . . . . 180
4.3 Caracterización del árbol . . . . . . . . . . . . . . . . . . . . . . . 180
4.3.1 Datos monoevaluados y probabilistas . . . . . . . . . . . . 180
4.3.2 Datos monoevaluados . . . . . . . . . . . . . . . . . . . . . 184
4.3.3 Datos modales probabilistas . . . . . . . . . . . . . . . . . 190
vi ÍNDICE GENERAL
4.4 Descripción simbólica de los estratos . . . . . . . . . . . . . . . . 193
4.4.1 Datos monoevaluados . . . . . . . . . . . . . . . . . . . . . 194
4.4.2 Datos modales probabilistas . . . . . . . . . . . . . . . . . 195
4.4.3 Interpretación de los estratos . . . . . . . . . . . . . . . . 195
4.4.4 Ventajas del método . . . . . . . . . . . . . . . . . . . . . 197
4.5 Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
4.5.1 Nivel de relación con el árbol . . . . . . . . . . . . . . . . 203
4.5.2 Reglas de predicción para datos monoevaluados . . . . . . 206
4.5.3 Reglas de predicción para datos modales probabilistas . . . 207
4.6 Calidad del árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
4.6.1 Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . 210
4.6.2 Aproximación para el árbol de datos estratificados . . . . . 213
4.7 Extensiones del método . . . . . . . . . . . . . . . . . . . . . . . . 222
4.7.1 Peso en los individuos . . . . . . . . . . . . . . . . . . . . 222
4.7.2 Probabilidades ’a priori’ de las clases . . . . . . . . . . . . 226
4.7.3 Peso en los individuos y probabilidades ’a priori’ de las clases228
4.8 Extension del método a otros datos simbólicos . . . . . . . . . . . 229
4.9 Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
4.9.1 Datos SES, 1995 . . . . . . . . . . . . . . . . . . . . . . . 241
4.9.2 Normas de interpretación . . . . . . . . . . . . . . . . . . . 254
4.9.3 Apreciación de los municipios . . . . . . . . . . . . . . . . 255
4.9.4 Datos relacionados con la actividad laboral . . . . . . . . . 262
4.9.5 Datos probabilistas SES, 1995 . . . . . . . . . . . . . . . . 267
4.9.6 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 271
4.10 Conclusión .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
5 Implementación del Método 277
5.1 Especificaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
5.2 Entrada .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
ÍNDICE GENERAL vii
5.2.1 SDT v2.22b . . . . . . . . . . . . . . . . . . . . . . . . . . 280
5.2.2 Ficheros de datos SODAS . . . . . . . . . . . . . . . . . . 281
5.2.3 SDTEDITOR v2.22 . . . . . . . . . . . . . . . . . . . . . . 282
5.3 Requisitos y criterios adoptados en la implementación . . . . . . . 283
5.4 Salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
5.4.1 Fichero de resultados . . . . . . . . . . . . . . . . . . . . . 286
5.4.2 Fichero de diagnósticos . . . . . . . . . . . . . . . . . . . . 288
5.4.3 Fichero gráfico y visualización gráfica del árbol . . . . . . 289
5.5 Adaptaciones posibles . . . . . . . . . . . . . . . . . . . . . . . . 292
5.5.1 Implementaciones futuras . . . . . . . . . . . . . . . . . . 292
Conclusiones 295
Apéndices 301
Apéndice A. Diseño del programa SDT 305
Apéndice B. Diseño del programa SDTEDITOR 335
Bibliografía 348
Description:1.4.4 Otros tipos de datos y objetos simbólicos 62 .. Diday el Análisis de Datos Simbólicos crea un puente entre la Estadística y el [13] Bock, H.H. (2000b), Dissimilarity Measures for Probability Distributions. En: Bock