Table Of ContentModelos probabil(cid:237)sticos de t(cid:243)picos
para aplicaciones en Miner(cid:237)a de
Datos
Wilberth Ricardo Garc(cid:237)a Alfaro
Departamento de Ciencias de la Computaci(cid:243)n
Centro de Investigaci(cid:243)n en MatemÆticas, A.C.
Asesor: Dr. Salvador Ruiz Correa
Para la obtenci(cid:243)n del Grado de
Maestro en Ciencias de la Computaci(cid:243)n
18 de Noviembre de 2010
Dedicatoria
Quiero dedicar esta tesis a mis padres, los cuales siempre me han apo-
yadoincondicionalmente,entodomomentoybajotodacircunstancia.
A ustedes que han sabido ser los mejores padres, les debo todo lo que
sØ y lo que soy.
A ti madre, que siempre me impulsas a seguir adelante, me compren-
des y apoyas en mis decisiones, que no me juzgas a pesar de lo imper-
fecto que soy, pero siempre me has corregido y enseæando a aprender
de mis errores.
A ti padre que me has enseæado, inculcÆndome valores, a terminar
bien todo lo que se empieza, con tu ejemplo me has mostrado el valor
del trabajo honrado y me has educado toda la vida.
TambiØn quiero dedicar este documento a Anshela, por tu paciencia,
comprensi(cid:243)n, pero sobre todo por tu gran amor. Esta espera ha sido
larga y dif(cid:237)cil, pero a tu lado mi vida siempre es mejor, me haces sentir
feliz y ser una mejor persona. Porque la distancia solo pudo separar-
nos f(cid:237)sicamente, pero junto mÆs nuestros corazones; porque siempre
supiste convertir lo adverso en algo positivo; porque compartes con-
migo planes y sueæos, porque comparto la visi(cid:243)n de un futuro juntos;
y porque a pesar de todo a lo largo de estos aæos los recuerdos de
nosotros siempre han sido los mejores.
Austedestresquesiemprehansabidoserparteimportantedemivida,
quehemospasadopenasjuntos,quehemosfestejadoØxitosparcialesy
sufridoangustiasalolargodeesteproceso,nosololesdedicoestatesis,
sino tambiØn les dedico la maestr(cid:237)a, porque parte de haber alcanzado
esta meta, ha sido gracias a todo lo que me han dado, enseæado y
compartido, por su sabidur(cid:237)a en forma de consejos, sus interminables
buenos deseos, oraciones y el amor que han sabido transmitir, a pesar
de la distancia. Nunca olvidare todo lo que hemos pasado juntos.
‰Gracias!
Agradecimientos
En primer lugar agradecer al Consejo Nacional de Ciencia y Tecno-
log(cid:237)a (CONACYT) por el (cid:28)nanciamiento otorgado a lo largo de mis
estudios de posgrado.
Quisiera agradecer a mi amigo y asesor Salvador, por permitirme tra-
bajar bajo su supervisi(cid:243)n, y darme la oportunidad de aprender de Øl
no solo en lo acadØmico, sino tambiØn en lo personal. Ha sido una
experiencia muy enriquecedora en muchos sentidos.
TambiØnquisieraagradeceratodosmiscompaæerosdelamaestr(cid:237)a,ya
que siempre nos hemos apoyado y ayudado cuando las circunstancias
lo ameritaban y juntos compartimos todo el proceso de aprendizaje
que involucr(cid:243) la maestr(cid:237)a.
Resumen
Losmodelosestad(cid:237)sticosestablecenlarelaci(cid:243)nentrelasvariablesalea-
torias involucradas en un proceso. Mediante el uso de parÆmetros ha-
cen posible estudiar la estructura de una colecci(cid:243)n de datos desde un
punto de vista matemÆtico. Se auxilia con herramientas tales como
el muestreo o la inferencia, y mediante un conjunto de suposiciones
acerca de las distribuciones de la poblaci(cid:243)n, intenta explicar el com-
portamiento de dicho conjunto.
El primer paso para sugerir un modelo estad(cid:237)stico, es considerar la na-
turaleza de los datos. Esto ocasiona que se hagan suposiciones acerca
de la forma en la cual se generan las muestras a partir de la pobla-
ci(cid:243)n. Posteriormente, se proponen mØtodos e(cid:28)cientes para encontrar
los parÆmetros de los modelos.
Como su nombre lo indica esta tØsis describe el uso de dos de los mo-
delos estad(cid:237)sticos llamados (cid:16)modelos de t(cid:243)picos(cid:17) usados como tØcnicas
de miner(cid:237)a de datos.
Los modelos de t(cid:243)picos intentan representar la estructura de los datos
medianteelusodedistribucionesmultinomiales,apartirdelascuales,
se asigna una mayor probabilidad de aparici(cid:243)n de los valores en la
colecci(cid:243)n. Estas distribuciones de probabilidad son llamadas t(cid:243)picos.
Esta familia de modelos, nace inicialmente en el Ærea de miner(cid:237)a de
textos,peroactualmenteesutilizadaenotroscontextos.Enestedocu-
mento se presentan y desarrollan los modelos conocidos como (cid:16)LDA(cid:17)
(Latent Dirichlet Allocation) y el de (cid:16)Autores y T(cid:243)picos(cid:17).
La tØsis estÆ organizada de la siguiente manera:
Introducci(cid:243)n. En este cap(cid:237)tulo se explicarÆ de forma breve, la
motivaci(cid:243)n detrÆs del uso de los modelos de t(cid:243)picos para hacer
miner(cid:237)a de datos. AdemÆs, se discutirÆ el funcionamiento bÆsico
de estos modelos.
Modelos de grÆ(cid:28)cas probabil(cid:237)sticas. Este cap(cid:237)tulo forma parte
de los conceptos bÆsicos para desarrollar la teor(cid:237)a detrÆs de los
modelos LDA y de Autores y T(cid:243)picos. Ambos casos, son intro-
ducidos en forma de modelos de grÆ(cid:28)cas probabil(cid:237)sticas.
Markov chain Monte Carlo (MCMC). Como se menciono con an-
terioridad, los modelos de t(cid:243)picos aqu(cid:237) discutidos, son resueltos a
travØs de simulaciones Monte Carlo. Por esta raz(cid:243)n, en este cap(cid:237)-
tulo se expone una breve explicaci(cid:243)n de esta familia de mØtodos,
as(cid:237) como la forma en que funciona.
Latent Dirichlet Allocation (LDA). En este cap(cid:237)tulo se presen-
ta la forma en la que se obtuvieron las ecuaciones que permiten
resolver el modelo. TambiØn se ejempli(cid:28)can sus aplicaciones me-
diante el uso de diversas bases de datos.
Modelo de Autores y T(cid:243)picos. De nueva cuenta se introduce y
desarrolla estemodelo, elcual resultaser unaextensi(cid:243)n delLDA.
Se muestran aplicaciones y ejemplos relevantes y los resultados
obtenidos de los experimentos realizados.
Discuci(cid:243)n. Se desarrollan algunos comentarios acerca de las ven-
tajas y desventajas del uso de los modelos LDA y de Autores
y T(cid:243)picos. TambiØn se discute acerca de las mejoras y costes
computacionales que representan las diversas implementaciones
de los algormitmos, as(cid:237) como, las circunstancias en las que son
recomendables.
Conclusiones. Se exponen las deducciones obtenidas de los expe-
rimentos para ambos modelos.
Unadescripci(cid:243)nrÆpidadelosprincipiosenlosquesebasaelfunciona-
mientodelosMØtodosVariacionales,comoloeselMØtodoVariacional
Bayesiano, se presenta en el anexo A. En el anexo B se incorporan
algunos documentos usados en los experimentos del cap(cid:237)tulo (cid:16)Latent
Dirichlet Allocation(cid:17) que apoyan y con(cid:28)rman los resultados. Para un
mejor datalle de los resultados relacionados con autores y documentos
obtenidos con el Modelo de Autores y T(cid:243)picos consulte el anexo C. El
œltimo anexo D es una descripci(cid:243)n general del software desarrollado.
˝ndice general
x
Nomenclature
1. Introducci(cid:243)n 1
2. Modelos de GrÆ(cid:28)cas Probabil(cid:237)sticas 4
2.1. Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Independencia Condicional . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Separaci(cid:243)n D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Cobija de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3. Markov chain Monte Carlo (MCMC) 18
3.1. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Integraci(cid:243)n Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 22
3.3. Muestreo de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4. Di(cid:28)cultades para hacer inferencia usando el MCMC . . . . . . . . 24
3.4.1. Monitoreo de convergencia y problemas ocasionados por la
convergencia lenta . . . . . . . . . . . . . . . . . . . . . . 25
3.4.2. Estudio de la autocorrelaci(cid:243)n . . . . . . . . . . . . . . . . 27
3.4.3. GrÆ(cid:28)cas de Kernel . . . . . . . . . . . . . . . . . . . . . . 28
3.4.4. Prueba Z de Geweke . . . . . . . . . . . . . . . . . . . . . 30
3.4.5. MØtodo de Gelman-Rubin . . . . . . . . . . . . . . . . . . 31
4. Latent Dirichlet Allocation (LDA) 33
4.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas y proceso generativo del LDA . 34
4.2. LDA suavizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3. Muestreo de Gibbs colapsado para LDA suavizado . . . . . . . . . 42
4.3.1. Valores esperados de los parÆmetros . . . . . . . . . . . . . 45
4.4. SemÆntica y LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5. Aplicaciones del LDA . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.1. Similitud entre documentos y entre palabras . . . . . . . . 47
4.5.1.1. AnÆlisis de similitud entre documentos . . . . . . 47
v
˝NDICEGENERAL ˝NDICEGENERAL
4.5.1.2. Similitud entre palabras . . . . . . . . . . . . . . 48
4.5.2. Aplicaciones en recuperaci(cid:243)n de informaci(cid:243)n . . . . . . . . 49
4.5.3. Agrupamiento de Documentos . . . . . . . . . . . . . . . . 49
4.5.4. AnÆlisis de la tendencia entre los t(cid:243)picos . . . . . . . . . . 50
4.5.4.1. T(cid:243)picos de moda . . . . . . . . . . . . . . . . . . 50
4.5.4.2. Progresi(cid:243)n de t(cid:243)picos de interØs por per(cid:237)odos de
tiempo . . . . . . . . . . . . . . . . . . . . . . . . 50
4.6. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.6.1. Experimento sintØtico 1 . . . . . . . . . . . . . . . . . . . 51
4.6.2. Experimento sintØtico 2 . . . . . . . . . . . . . . . . . . . 55
4.6.2.1. Selecci(cid:243)n de modelo . . . . . . . . . . . . . . . . 58
4.6.3. Experimento de texto con datos reales . . . . . . . . . . . 61
4.6.3.1. Base de datos de NIPS . . . . . . . . . . . . . . . 61
4.6.4. Base de datos de WormsBase . . . . . . . . . . . . . . . . 64
5. Modelo de Autores y T(cid:243)picos 86
5.1. Modelo de GrÆ(cid:28)cas y Proceso Generativo . . . . . . . . . . . . . . 87
5.2. Muestreo de Gibbs para el Modelo de Autores y T(cid:243)picos . . . . . 88
5.3. Aplicaciones del Modelo de Autores y T(cid:243)picos . . . . . . . . . . . 97
5.3.1. AnÆlisis de Tendencia de los Autores por Aæo . . . . . . . 98
5.3.2. Detecci(cid:243)n de Documentos poco Comunes . . . . . . . . . . 98
5.3.3. Comparaci(cid:243)n de T(cid:243)picos entre Autores . . . . . . . . . . . 99
5.3.4. Etiquetado AutomÆtico de Nuevos Documentos para Au-
tores en la Colecci(cid:243)n . . . . . . . . . . . . . . . . . . . . . 99
5.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4.1. Experimento con sintØtico . . . . . . . . . . . . . . . . . . 100
5.4.2. Base de datos de NIPS . . . . . . . . . . . . . . . . . . . . 106
5.4.3. Base de datos de WormBase . . . . . . . . . . . . . . . . . 112
6. Discuci(cid:243)n 123
6.1. Bene(cid:28)cios del Uso del Muestreo de Gibbs . . . . . . . . . . . . . . 124
6.2. Bene(cid:28)cios de Usar un Modelo . . . . . . . . . . . . . . . . . . . . 125
7. Conclusiones 129
7.1. Trabajo a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
A. MØtodos Variacionales 131
B. Recopilaci(cid:243)n de resœmenes para clasi(cid:28)caci(cid:243)n y agrupamiento 135
B.1. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
B.1.1. Grupo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
B.1.2. Grupo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
vi
˝NDICEGENERAL ˝NDICEGENERAL
B.1.3. Grupo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
B.1.4. Grupo 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
B.2. Recuperaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
C. Recopilaci(cid:243)n de datos para el Modelo de Autores y T(cid:243)picos 158
C.1. T(cid:237)tulos por autor para NIPS . . . . . . . . . . . . . . . . . . . . . 158
C.1.1. T(cid:243)pico 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
C.1.2. T(cid:243)pico 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
C.1.3. T(cid:243)pico 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
C.1.4. T(cid:243)pico 44 . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
C.1.5. T(cid:243)pico 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
C.2. T(cid:237)tulos por autor para wormbase . . . . . . . . . . . . . . . . . . 175
C.2.1. T(cid:243)pico 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
C.2.2. T(cid:243)pico 18 . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
C.2.3. T(cid:243)pico 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
C.2.4. T(cid:243)pico 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
C.2.5. T(cid:243)pico 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
C.2.6. T(cid:243)pico 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
D. Descripci(cid:243)n del Software 193
Referencias 196
vii
˝ndice de (cid:28)guras
2.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la ecuaci(cid:243)n 2.3. . . . . . . . 7
2.2. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas con mœltiples variables. . . . . . 8
2.3. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas en Plate Notation equivalente
al de la (cid:28)gura 2.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la regresi(cid:243)n polinomial con-
siderando parÆmetros. . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas de la regresi(cid:243)n polinomial con-
siderando parÆmetros y con variables observadas. . . . . . . . . . 10
2.6. Modelo de grÆ(cid:28)cas conocido como (cid:16)divergente(cid:17). . . . . . . . . . . 12
2.7. Modelo de grÆ(cid:28)cas conocido como (cid:16)serial(cid:17). . . . . . . . . . . . . . 13
2.8. Modelo de grÆ(cid:28)cas conocido como (cid:16)convergente(cid:17). . . . . . . . . . . 14
2.9. Modelo de grÆ(cid:28)cas de una muestra i.i.d. para el caso de una gaus-
siana univariada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.10.Un ejemplo de la Cobija de Markov para la variable x . . . . . . . 17
i
3.1. Evoluci(cid:243)n de dos medias en el proceso de muestreo de la cadena
de Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2. Evoluci(cid:243)n de los parÆmetros θ y θ inicializados con diferentes
1 2
valores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3. Una aparente convergencia del parÆmetro. . . . . . . . . . . . . . 27
3.4. GrÆ(cid:28)ca de la autocorrelaci(cid:243)n para los parÆmetros θ y θ con una
1 2
correlaci(cid:243)n aœn elevada. . . . . . . . . . . . . . . . . . . . . . . . 28
3.5. GrÆ(cid:28)ca de la autocorrelaci(cid:243)n para los parÆmetros θ y θ con una
1 2
correlaci(cid:243)n moderada. . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6. Estimaci(cid:243)n de kernels que aœn no demuestran convergencia. . . . 29
3.7. Estimaci(cid:243)n de kernels que demuestran convergencia. . . . . . . . . 30
4.1. Modelo generativo probabil(cid:237)stico LDA. . . . . . . . . . . . . . . . 34
4.2. Modelo generativo probabil(cid:237)stico LDA suavizado. . . . . . . . . . 36
4.3. Ejemplo de la palabra (cid:16)banco(cid:17) manejada en diferentes contextos. . 46
4.4. T(cid:243)picos desde los cuales fueron generadas los patrones de franjas. 55
viii
˝NDICEDEFIGURAS ˝NDICEDEFIGURAS
4.5. Un subconjunto de datos de entrenamiento usados para aprender
los parÆmetros del modelo. . . . . . . . . . . . . . . . . . . . . . . 56
4.6. Evoluci(cid:243)n de los t(cid:243)picos en diferentes iteraciones. . . . . . . . . . 57
4.7. Evoluci(cid:243)n de la estimaci(cid:243)n con respecto al nœmero de iteraciones. 57
4.8. Diversos valores de β y α = 1 para la grÆ(cid:28)ca de la selecci(cid:243)n de
modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.9. Abstract del art(cid:237)culo titulado (cid:16)Two Iterative Algorithms for Com-
putingtheSingularValueDecompositionfromInput/OutputSam-
ples(cid:17) escrito por Terence D. Sanger y obtenido de la base de datos
de NIPS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.10.Proporci(cid:243)n de aparici(cid:243)n de los t(cid:243)picos en una muestra aleatoria de
100 documentos de la colecci(cid:243)n. . . . . . . . . . . . . . . . . . . . 66
4.11.Mezcla de t(cid:243)picos para el documento titulado (cid:16)Regulation of cell
polarity and asymmetric cell division by lin-44wnt and wrm-1-
catenin(cid:17). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.12.Extracto del resumen del art(cid:237)culo titulado (cid:16)Regulation of cell pola-
rity and asymmetric cell division by lin-44wnt and wrm-1-catenin(cid:17)
etiquetados de forma automÆtica. . . . . . . . . . . . . . . . . . . 67
4.13.Proporci(cid:243)n de aparici(cid:243)n de la primera palabra de cada t(cid:243)pico. . . 68
4.14.Distribuci(cid:243)n de los t(cid:243)picos para los documentos consulta, el mÆs
parecido y el menos parecido. . . . . . . . . . . . . . . . . . . . . 70
4.15.Parte del resumen perteneciente al documento 55. . . . . . . . . . 71
4.16.Parte del abstrac perteneciente al documento 31. . . . . . . . . . 71
4.17.Dendograma de la muestra de 100 documentos presentados en la
(cid:28)gura 4.10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.18.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 1. . . . 75
4.19.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 6. . . . 78
4.20.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 11. . . 80
4.21.Distribuci(cid:243)n de los t(cid:243)picos para los documentos del grupo 29. . . 83
4.22.GrÆ(cid:28)ca de p(q|d ) para la recuperaci(cid:243)n de documentos. . . . . . . 84
i
5.1. Modelo de grÆ(cid:28)cas probabil(cid:237)sticas del Modelo de Autores y T(cid:243)pi-
cos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Modelo de Autores y T(cid:243)picos extendido. . . . . . . . . . . . . . . 96
5.3. T(cid:243)picos desde los cuales fueron generadas las imÆgenes. . . . . . . 100
5.4. T(cid:243)picosobtenidosalcorrerelalgoritmoparaelmodelosdeAutores
y T(cid:243)picos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5. GrÆ(cid:28)ca de la perplejidad aplicada a los resultados obtenidos me-
diante el muestro de Gibbs para LDA, Variational Bayes y mues-
treo de Gibbs para el Modelo de Autores y T(cid:243)picos. . . . . . . . . 102
5.6. Distribuci(cid:243)n de los autores y los t(cid:243)picos. . . . . . . . . . . . . . . 103
ix
Description:Notation en la cual basta sustituir los ciclos por submodelos de gráficas que representan el an algorithm36 named49 " ltering36 step"16 which reduces36 .. Combinatorial control of touch receptor neuron expression.