Table Of ContentUna aproximación basada en aprendizaje
automático para diversos problemas de
procesamiento de lenguaje natural en redes sociales
MaiteGiménezFayos
TrabajoFinaldelMásterUniversitarioen
InteligenciaArtificialReconocimientodeFormaseImagenDigital.
Tutores:LluísF.HurtadoyFerranPla
UniversidadPolitècnicadeValència
València
Abril2016
Tutores: LluísF.HurtadoyFerranPla MaiteGiménezFayos
Una aproximación basada en aprendizaje automático para
diversos problemas de procesamiento de lenguaje natural en
redes sociales
Resumen
Estetrabajosecentraenlaresolucióndedistintastareaspropiasdelprocesamientoauto-
máticodellenguajenatural,paralocualseempleóunaaproximaciónbasadaenalgorit-
mosdeaprendizajeautomático.
Lastareasconsideradasfueron:ladeteccióndelidioma,elanálisisdesentimientosyla
creacióndeperfilesdeusuario.Setratadetareaspropuestasencompeticionesinternacio-
nalesyquehandadolugaradiversaspublicaciones.
Todasestastareasseplantearonutilizandodatosextraídosderedessociales,enparti-
cular textos de Twitter. En general, los textos que pueden encontrarse en estos medios
poseen una serie de características (textos cortos y agramaticales) que plantean nuevos
retosparaelprocesamientodellenguajenatural.
Encadacaso,seestudiaelestadodelarteyseproponeunmodeloqueseajustealos
requisitos de la tarea. Para ello, se emplean los recursos y los algoritmos de aprendizaje
automático supervisado más adecuados. Finalmente, se ha analizado los resultados y se
plantean futuras modificaciones que mejoren el comportamiento de los sistemas plan-
teados.
iii
Advisors: LluísF.HurtadoyFerranPla MaiteGiménezFayos
A machine learning approach for natural language
processing tasks in social media
Abstract
ThisworkisfocusedonsolvingseveralNaturalLanguageProcessingtasks,forwhichan
approachbasedonmachinelearningalgorithmswasused.
Thetasksaddressedwere:languageidentification,sentimentanalysisandauthorprofi-
ling.Thesetaskswereproposedbyinternationalcompetitionswhichhaveledtopublish
severalpapers.
Adatasetofsocialmediatextswereusedinthesetasks,mainlyfromTwitter.Overall,
thesetextspresentsomecharacteristics(shortandungramaticaltexts)thatarechallenging
forNaturalLanguageProcessingtechniques.
Foreachtask,thestate-of-the-artisstudiedandamodeltosolvethetaskisproposed.
Inordertocreateavalidmodel,severalresourcesandsupervisedmachinelearningtech-
niqueswereused.Finally,theresultsobtainedwereanalyzedandimprovementstothe
modelwereproposedtoenhancethebehaviorofthemodel.
iii
Índice general
1. Introducción 1
1.1. Descripcióndelproblema,motivaciónyobjetivos . . . . . . . . . . . . 1
1.2. Estructuradeltrabajofinaldemáster . . . . . . . . . . . . . . . . . . . 4
2. Marcoteórico 6
2.1. Representancióndeltexto . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Algoritmosdeaprendizajeautomático . . . . . . . . . . . . . . . . . . 13
2.3. Métricasempleadasparaevaluarelrendimientodelossistemas . . . . . . 18
3. Deteccióndeidioma 22
3.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4. Modelopropuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6. Evaluaciónenlatarea . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 36
4. Análisisdesentimientos 37
4.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4. Presentacióndelametodologíapropuesta . . . . . . . . . . . . . . . . 47
4.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.6. Evaluaciónenlatarea . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 59
5. Caracterizacióndeperfilesdeusuario 62
5.1. Introducciónalproblema . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2. Estadodelarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
iv
5.3. Descripcióndelatarea . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.4. Modelopropuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.5. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.6. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.7. Conclusionesytrabajofuturo . . . . . . . . . . . . . . . . . . . . . . . 81
6. Conclusiones 83
ApéndiceA. Publicaciones 86
Referencias 95
v
Índice de figuras
1.1. Esquemageneraldeunclasificador. . . . . . . . . . . . . . . . . . . . . 3
2.1. Ejemplodelproblemadeladimensionalidad.Enelcasodeunadimensión
únicamentenecesitamosdiferenciar10áreasdeinterés.Condosdimensio-
nes,elalgoritmodeberásercapazdediferenciarentre100áreasdistintasy
porlotantonecesitaremosveralmenos100muestrasdeaprendizaje.Por
últimoenelcasode3dimensionesnecesitaremosdistinguirentre103 re-
gionesdelespaciolocualcomplicatodavíamáselproblema.Engeneral,
en un problema con d dimensiones y v valores a distinguir en cada eje,
necesitaremosverO(vd). . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.1. Distribución de la polaridad en función de la fecha de creación de los
tweetsdelatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2. Distribucióndelapolaridadenloscorporadeentrenamiento,devydev-
testdelatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3. Distribucióndelapolaridadenloscorporadeentrenamiento,devydev-
testdelatarea11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4. DistribucióndelaspalabrassiguiendolaleydeZipf. . . . . . . . . . . . 47
4.5. Númerodesignificadosposiblesdecadapalabrayelnúmerodevecesque
seutilizaenelcorpusdelatarea10. . . . . . . . . . . . . . . . . . . . . 48
4.6. Númerodesignificadosposiblesdecadapalabrayelnúmerodevecesque
seutilizaenelcorpusdelatarea11. . . . . . . . . . . . . . . . . . . . . 49
4.7. Resultadosdeexactitudobtenidosdurantelaexperimentacióninicialsi-
guiendodistintasaproximacionesparavectorizareltextocomoparaen-
trenarelsistemadelatarea10. . . . . . . . . . . . . . . . . . . . . . . . 53
5.1. Distribucióndelgéneroenelcorpusdeentrenamiento. . . . . . . . . . . 67
5.2. Distribuciónporedadenelcorpusdeentrenamiento. . . . . . . . . . . 67
5.3. Distribucióndelrasgodepersonalidadafableenelcorpusdeentrenamiento. 68
5.4. Distribucióndelosquincehashtagsmásfrecuentesencastellano. . . . . . 70
vi
5.5. Mejoresmodelosobtenidosdurantelafasedeentrenamientoparaelcor-
pusenitaliano.Laetiquetadecadaclasedefinelostrescomponentesdel
modelo:sisehaempleadounlexicóneninglésotraducido,eltipodevec-
torizacióndeltextoyelalgoritmodeaprendizajeempleado. . . . . . . . 74
5.6. Mejoresmodelosobtenidosdurantelafasedeentrenamientoparaelcor-
pusenholandés.Cadasistemaestáetiquetadoanálogamentealagráfica
5.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.7. DiagramadecuartilesparaelgéneroenItaliano. . . . . . . . . . . . . . 76
5.8. Diagramadecuartilesparaelrasgodepersonalidad“abierto”enItaliano. . 77
vii
Índice de tablas
3.1. Distribucióndelidiomaenqueestabanescritoslostweetsdelcorpusre-
colectadoparalatareaTweetLID. . . . . . . . . . . . . . . . . . . . . . 28
3.2. TalladelvocabularioextraídodelaWikipedia . . . . . . . . . . . . . . . 31
3.3. Evaluacióndelossistemasdurantelafaseexperimentalrealizandounava-
lidacióncruzadaconcincoparticiones. . . . . . . . . . . . . . . . . . . 33
3.4. Evaluación por idioma durante la fase de entrenamiento realizando una
validacióncruzadaconcincoparticiones . . . . . . . . . . . . . . . . . 34
3.5. Evaluacióndelossistemasenelconcurso. . . . . . . . . . . . . . . . . . 35
4.1. Porcentaje de palabras con polaridad en los córpora de las tareas 10 y 11
utilizandodiferenteslexicones. . . . . . . . . . . . . . . . . . . . . . . 51
4.2. Métricasobtenidasdurantelafasededesarrollodenuestrosmejoressiste-
masenlatarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3. Resultadosdelaevaluaciónoficialdelatarea10comparadocontraelsis-
temaquemejorypeorcomportamientopresentóporcorpus. . . . . . . 57
4.4. Resultados oficiales de la evaluación de la tarea 11 comparando nuestro
sistemacontraelmejoryelpeorsistemapresentadoencadacategoría. . . 58
4.5. Evaluacióndelatarea11empleandoMeanSquareError(MSE). . . . . . . 59
4.6. Ejemplo de tweets etiquetados erróneamente por nuestro sistema en la
tarea10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1. Distribucióndelnúmerodetweetsyautoresenelconjuntodeentrena-
miento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2. Distribucióndelnúmerodeautoresenelconjuntodeevaluación . . . . . 66
5.3. Distribucióndelaspalabrasmásfrecuentesdelvocabularioporedad. . . 69
5.4. Distribucióndelaspalabrasmásfrecuentesdelvocabularioporgénero. . 69
5.5. Exactitudmediaobtenidamediantevalidacióncruzadadurantelafasede
entrenamientodelPAN. . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.6. PrecisiónmediaobtenidaenlaevaluaciónoficialdelPAN. . . . . . . . . 80
viii
Acrónimos
AP AuthorProfiling.62–65,71,82
BOW BagofWords.7
DAG DirectedAcyclicGraph.15
IR InformationRetrieval.7,12
LID LanguageIdentification.22–24,35
LSA LatentSemanticAnalysis.44
MLE Maximum-LikelihoodEstimation.11,12
MSE MeanSquareError.viii,20,58,59
NLP NaturalLanguageProcessing.2,12,22,38,39,62–65,84
RMSE RootMeanSquareError.68,78,80,81
SA SentimentAnalysis.38–41
SVM SupportVectorMachine.14,32,34,40,54,56,58,79,81
SVR SupportVectorRegression.56
ix
1
Introducción
Antesdeintroducirnosenladescripcióndetalladadeltrabajorealizadocomoconclu-
sión del “Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e
ImagenDigital”,queremosdetenernosenestecapítuloparacontextualizarelámbitoteó-
ricoenelqueseenmarcayenfatizarelinterésdelacomunidadcientíficaenelestudiode
lalingüísticacomputacional.
1.1. Descripción del problema, motivación y objetivos
Comenzaremos por definir el objetivo de la lingüística computacional siguiendo la
aproximaciónquepodemosencontrarenellibrodeManningandSchütze[42].Dicha
área se enfoca en ser capaz de explicar y caracterizar el lenguaje natural que empleamos
loshablantesdeunalenguaennuestracomunicación,bienseaoraloescrita.Setratade
uncampodeestudiointerdisciplinarenelqueconfluyenlaLingüísticaylaInteligencia
Artificial.
Lasprimerasaproximacionesaesteestudiosecentraronenintentarcompilarunconjunto
dereglasquedescribieranellenguaje,conlaesperanzaqueesteconocimientopermitiera
comprenderlo.
Paulatinamenteseevolucionóhacialaconstruccióndegramáticasformalesquefaciliten
deunmodorigurosoelavanceenelestudiodelalingüísticacomputacional.
1
Description:Advisors: Lluís F. Hurtado y Ferran Pla. Maite Giménez Fayos. A machine learning approach for natural language processing tasks in social media.