Table Of ContentTRABAJO FIN DE MÁSTER
MÁSTER OFICIAL EN ESTADÍSTICA APLICADA
UNIVERSIDAD DE GRANADA
Alumna: María Ángeles Dueñas Rodríguez
ÍNDICE
Capítulo 1: Introducción ............................................................................................ 1
Capítulo 2: Teoría de los modelos de regresión logística multinomial ............... 6
2.1. Formulación e Interpretación del modelo ................................................... 8
2.1.1. Formulación ...................................................................................... 8
2.1.2. Interpretación del modelo ............................................................... 11
2.1.3. Otros aspectos a tener en cuenta sobre las variables ................... 13
2.2. Métodos de estimación. Estimación por máxima verosimilitud ................ 14
2.3. Bondad de ajuste del modelo ................................................................... 17
2.3.1. Contrastes de bondad de ajuste del modelo .................................. 17
2.3.1.1. Test chi-cuadrado de Pearson .......................................... 18
2.3.1.2. Test chi-cuadrado de razón de verosimilitudes.
Estadístico de Wilks. Devianza ........................................ 18
2.3.2. Calidad del ajuste ............................................................................ 19
2.3.2.1. Coeficiente pseudo-R2 de Mc-Fadden .............................. 19
2.3.2.2. Coeficiente pseudo-R2 de Cox-Snell ................................. 19
2.3.2.3. Coeficiente pseudo-R2 de Nagelkerke .............................. 20
2.3.3. Tasa de clasificaciones correctas ................................................... 20
2.4. Contrastes sobre los parámetros del modelo ........................................... 21
2.5. Inferencia en regresión logística multinomial. Intervalos de confianza .... 23
2.6. Métodos de selección del modelo ............................................................. 24
2.6.1. Hacia adelante ................................................................................ 25
2.6.2. Hacia atrás ...................................................................................... 25
2.6.3. Stepwise .......................................................................................... 25
2.7. Validación del modelo ................................................................................ 26
2.7.1. Residuos de Pearson o residuos estandarizados .......................... 26
2.7.2. Residuos de Pearson o residuos estandarizados .......................... 27
Capítulo 3: Funciones y comandos con R ............................................................ 29
3.1. Primeros pasos con R ............................................................................... 31
3.2. Análisis unidimensional ............................................................................. 37
3.2.1. Variables cualitativas ...................................................................... 37
3.2.2. Variables cuantitativas continuas ................................................... 41
3.3. Análisis bidimensional ............................................................................... 44
3.3.1. Dos variables cualitativas ............................................................... 44
3.3.2. Una variable cualitativa y una variable cuantitativa continua ......... 46
3.3.3. Dos variables cuantitativas continuas ............................................. 51
3.4. Modelo de regresión logística multinomial ................................................ 52
3.4.1. Formulación y selección del modelo ............................................... 53
3.4.2. Inferencia ......................................................................................... 56
3.4.3. Contrastes sobre los parámetros .................................................... 57
3.4.4. Bondad de ajuste del modelo ......................................................... 58
3.4.5. Validación del modelo ...................................................................... 59
Capítulo 4: Aplicación con datos reales ................................................................ 60
4.1. Descripción de la aplicación ..................................................................... 61
4.2. Resultados ................................................................................................ 64
4.2.1. Análisis descriptivo unidimensional ................................................. 64
4.2.2. Análisis bidimensional ..................................................................... 72
4.2.3. Modelo de regresión logística multinomial. Factores
asociados a los tipos de depresión .............................................. 80
4.2.3.1. Selección del modelo ......................................................... 81
4.2.3.2. Odds ratios e Intervalos de Confianza .............................. 89
4.2.3.3. Contraste sobre los parámetros ......................................... 90
4.2.3.4. Interpretación del modelo .................................................. 91
4.2.3.5. Ajuste global del modelo .................................................... 93
4.2.3.6. Validación del modelo ........................................................ 96
4.3. Conclusiones ............................................................................................. 98
Anexos. Cálculos con R .......................................................................................... 99
Bibliografía .............................................................................................................. 114
CAPÍTULO 1:
INTRODUCCIÓN
1
Este trabajo pretende dar una descripción detallada de una aplicación con
datos reales de modelos de respuestas discretas realizando el análisis con el software
estadístico R. Concretamente se aplicará un modelo de regresión logística multinomial.
El software utilizado tal y como se ha demostrado (1-3) es un paquete muy potente
que permite realizar numerosos análisis, y entre ellos la regresión logística
multinomial.
El objetivo principal del trabajo es describir la teoría del análisis que se llevará a
cabo (regresión logística multinomial), detallar cómo se aplica esta teoría con el
lenguaje de R y finalmente describir una aplicación con datos reales en la que se
aplique estos modelos y se realicen los análisis con R.
El trabajo se estructurará de la siguiente manera:
- Este primer capítulo es una introducción al trabajo donde se especifican los
objetivos del mismo y los objetivos de la aplicación, así como su relación con la
literatura.
- El segundo capítulo contiene toda la teoría de los modelos de regresión
logística multinomial, incluyendo la formulación, bondad de ajuste del modelo,
inferencia, calidad y validación de los modelos.
- El tercer capítulo incluye todas las funciones de R que se utilizarán
posteriormente en la aplicación para obtener los resultados deseados. Además
de nombrar estas funciones se describen sus argumentos y las salidas que
aportan cada una de ellas.
- El cuarto capítulo está completamente dedicado a la aplicación con datos
reales, en la que se describe ésta, incluyendo un análisis descriptivo y
relaciones entre variables anterior a la aplicación del modelo de regresión
logística multinomial. Finalmente se interpretan todos los resultados y se
obtienen conclusiones.
- Posteriormente, aparece un anexo en el que se incluyen todos los cálculos
realizados con R, en el que se incluyen todas las funciones y comandos
utilizados para obtener todos los resultados mostrados en el capítulo cuarto.
- Finalmente, mostramos toda la bibliografía utilizada en todo el trabajo.
La aplicación con datos reales que describimos en este trabajo procede de un
estudio a nivel nacional que se realizó en España, en el cual se estudia el dolor y la
depresión en pacientes atendidos en atención primaria. Para este trabajo se ha
seleccionado la información necesaria de este estudio para conocer los factores
asociados a la presencia de trastornos mentales infradiagnosticados en pacientes con
2
dolor crónico de tipo osteomuscular, atendidos en una muestra representativa de
centros de Atención Primaria (AP) en España.
Se ha considerado este estudio ya que se entiende que el dolor y la depresión
son problemas de salud muy comunes, sobre todo en pacientes atendidos en atención
primaria (4). Ambos problemas de salud aumentan el uso de los servicios sanitarios y
producen un deterioro de la calidad de vida relacionada con la salud de estos
individuos (5,6). El dolor crónico y la depresión son procesos comunes, mostrándose
en algunos estudios que la prevalencia oscila entre 15% y 100% (7). Así mismo, la
presencia y la intensidad de dolor crónico se reconoce que son predictores del grado
de depresión en estos pacientes(8,9). Pacientes con dolor crónico y depresión asisten
a la consulta del médico con más frecuencia y se convierten en grandes consumidores
de los servicios sanitarios (10,11). Muchos estudios han demostrado que pacientes
con depresión y dolor crónico son más propensos a estar más insatisfechos con su
salud (12).
En atención primaria, la depresión a menudo no se diagnostica, particularmente
en casos de pacientes que sufren dolor crónico (13).
Nos proponemos realizar esta aplicación con ese objetivo, ya que existen
escasos estudios que estudian la comorbilidad de dolor crónico con otros trastornos
mentales, la mayoría de los estudios estudian la relación entre el dolor y trastorno de
depresión mayor, habiendo pocos que estudien otros trastornos como depresión
menor, distimia o trastorno bipolar. Así mismo, no son muy comunes estudios que
utilizan un cuestionario específico estructurado para evaluar estos procesos en
atención primaria.
Así que nuestro objetivo principal será conocer los factores asociados a los
tipos de trastornos mentales en pacientes con dolor osteomuscular, y para tal fin se
realizará un modelo de regresión logística multinomial, que permitirá conocer qué
variables de las recogidas en el estudio afectan y de qué manera afectan a la
presencia o ausencia de algunos tipos de trastornos mentales de estos pacientes. Se
utilizará este modelo de regresión logística multinomial ya que la variable respuesta es
categórica, con más de dos categorías, ya que contempla entre los tipos de trastornos
mentales, la depresión mayor, depresión menor, trastorno bipolar, distimia, remisión
parcial y trastornos causados por medicamentos o drogas, además de contemplar la
posibilidad de presenciar más de un tipo de trastorno de los anteriores mencionados o
incluso la ausencia de trastorno mental.
3
Los modelos de regresión logística permiten principalmente dos finalidades
(14):
- Cuantificar la importancia de la relación existente entre cada una de las
covariables y la variable dependiente, lo que lleva implícito también
clarificar la existencia de interacción y confusión entre covariables respecto
a la variable dependiente (es decir, conocer la odds ratio para cada
covariable).
- Clasificar individuos dentro de las categorías de la variable dependiente,
según la probabilidad que tenga de pertenecer a una de ellas dada la
presencia de determinadas covariables.
De hecho, la regresión logística es una de las herramientas estadísticas con
mejor capacidad para el análisis de datos en investigación clínica y epidemiología, de
ahí su amplia utilización (15-22). Y es la técnica más apropiada para usar en este
estudio.
El objetivo primordial que resuelve esta técnica es el de modelar cómo influye
en la probabilidad de aparición de un suceso, habitualmente dicotómico pero en este
caso es politómico, la presencia o no de diversos factores y el valor o nivel de los
mismos. Es decir, estimar la probabilidad de aparición de cada una de las
posibilidades de un suceso con más de dos categorías.
Como se ha comentado antes, se realizará un análisis descriptivo previo de las
variables recogidas en el estudio, para conocer las características principales de los
pacientes estudiados. También analizaremos previamente relaciones entre distintas
variables que se consideren de interés, sobre todo entre la variable de los tipos de
trastornos mentales y el resto de variables, para poder elegir las posibles variables
independientes candidatas a ser incluidas en el modelo de regresión logística
multinomial. Una vez realizado este análisis exploratorio previo, conoceremos los
factores asociados a la presencia de algún tipo de trastorno mental, mediante el
modelo de regresión logística multinomial.
En nuestro caso, en este modelo la variable respuesta sería los tipos de
trastornos mentales, incluida la categoría de ausencia de depresión, la cual se tomaría
como categoría de referencia para el modelo. Las variables predictoras que
elegiremos para conocer su asociación con los tipos de trastornos mentales,
seleccionadas según lo obtenido en los análisis bivariantes y según criterios clínicos,
serán: sexo, edad, nivel de estudios, estado civil, trastornos del sueño, la localización
del dolor (cervical, espalda, articulaciones, extremidades), intensidad del dolor general,
4
duración del dolor en la última semana, influencia del dolor en las actividades de la
vida diaria y número de consultas al médico a causa del dolor. Así que estimaremos la
probabilidad de tener un tipo de trastorno mental influenciada por otros factores.
Finalmente se interpretará los resultados obtenidos llegando a alcanzar los
objetivos propuestos y obteniendo conclusiones.
5
CAPÍTULO 2:
TEORÍA DE LOS MODELOS DE
REGRESIÓN LOGÍSTICA
MULTINOMIAL
6
En este capítulo se explica toda la metodología que será utilizada para resolver
nuestro problema y alcanzar el objetivo que nos planteamos sobre nuestra aplicación.
Como se ha indicado anteriormente, para el propósito de ese estudio, se utilizarán
modelos de respuesta discreta, concretamente el modelo de regresión logística
multinomial. A continuación se describirá este modelo explicando entre otras cosas, la
formulación, los métodos de estimación, interpretación de parámetros, ajustes del
modelo, validación, contrastes de hipótesis asociados. Todo este desarrollo teórico
que se explica a continuación, es lo que posteriormente se llevará a cabo a la práctica
con nuestra aplicación.
Los modelos de regresión logística son modelos estadísticos en los que se
pretende conocer la relación entre una variable dependiente cualitativa, dicotómica
(regresión logística binaria o binomial) o con más de dos categorías (regresión
logística multinomial) y entre variables explicativas independientes, que pueden ser
cualitativas o cuantitativas. Las covariables cualitativas que sean dicotómicas, es
aconsejable que se codifiquen tomando valores 0, para una de las categorías o para
su ausencia y 1 para la otra categoría o para su presencia (esta codificación es
importante, ya que cualquier otra codificación podría provocar modificaciones en la
interpretación del modelo). Pero si la covariable cualitativa tuviera más de dos
categorías, se realiza una transformación, para poderla incluir en el modelo. Esta
transformación consiste en crear varias variables cualitativas dicotómicas ficticias o de
diseño, llamadas variables dummies, de forma que una de las variables se tomaría
como categoría de referencia y cada una de las variables creadas entraría en el
modelo de forma individual. En general, si la covariable cualitativa posee n categorías,
habrá que realizar n −1 covariables ficticias (14,23).
La regresión logística multinomial es utilizada en modelos con variable
dependiente de tipo nominal con más de dos categorías (politómica) y es una
extensión multivariante de la regresión logística binaria clásica. Las variables
independientes pueden ser tanto continuas (covariables) como categóricas (factores).
Tradicionalmente las variables dependientes politómicas han sido modeladas
mediante análisis discriminante pero, gracias al creciente desarrollo de las técnicas de
cálculo, cada vez es más habitual el uso de modelos de regresión logística
multinomial, implementados en paquetes estadísticos, debido a la mejor
interpretabilidad de los resultados que proporciona (24).
Estos modelos se analizan eligiendo una categoría como referencia de la
variable dependiente o de respuesta y se modelan varias ecuaciones
7
Description:Capítulo 2: Teoría de los modelos de regresión logística multinomial . logística multinomial, incluyendo la formulación, bondad de ajuste del