Table Of ContentMicroeconometría Aplicada
Notas de Clases
José Miguel Benavente H.1
8 de marzo de 2010
1Departamento de Economía. Universidad de Chile. e-mail : [email protected].
QuisieraagradecerlaeficienteayudadeJavieraVásquezenlatranscripcióndeestosapuntesco-
motambiénloscomentariosdeEmersonMelo,GonzaloLeytonyOsvaldoLarrañagaaversiones
previas de estas notas. Todos los errores son responsabilidad del autor.
Capítulo 1
Modelos de Elección Discreta
1.1. Introducción
En muchos contextos, el fenómeno que se quiere modelar no es continuo sino discre-
to. Así por ejemplo,la decisión de participar en el mercado del trabajo, opinión sobre
un tipo de legislación, tipo de auto escogido por el consumidor entre varios modelos
posibles. En general, todos los modelos que estudiaremos en este contexto tienen en
común que en ellos la variable dependiente toma los valores 0, 1, 2 ....En ocasiones
estos valores tendrán significado en si mismo como el numeros de patentes a los que
denominaremos datos de recuento. Pero en la mayoría de los casos los valores que toma
la variable dependiente no son mas que códigos utilizados para representar un resultado
cualitativo.Porejemplo,enelcasodelaparticipacióndemercado,un0puedesignificar
“no participar” y un 1 puede significar “si participar”.
Aparentemente, en ninguno de estos casos parece posible, en principio, utilizar el
análisis de regresión clásico. Sin embargo, en todos ellos es posible construir modelos
que enlazan la decisión o resultado con un conjunto de factores bajo la misma filosofía
que en el modelo de regresión. Lo que haremos será analizar cada uno de estos casos
dentro del marco general de los modelos de probabilidad.
Resulta conveniente agrupar los modelos posibles en dos grandes clases, binomial y
multinomial, dependiendo de si el resultado es la elección entre dos alternativas o entre
más. Si bien el segundo tipo es una extensión del primero, se pueden distinguir en estos
últimos situaciones donde los resultados son no ordenados, como el caso de la elección
del auto o bien ordenados como el caso de las patentes.
En lo que sigue nos concentraremos en las diversas formas de estimar un modelo de
elección binaria para luego continuar con casos de elección múltiples.
3
4 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA
1.2. Modelo Básico de Elección Binaria
Supuesto básico:
latent variable threshold model
y∗ = x(cid:48)β+ε
i i i
con: (cid:189)
1 si y∗ > 0;
y = i
i 0 si y∗ ≤ 0
i
Luego,
P[y = 1]=P[x(cid:48)β +ε > 0] = F(x(cid:48)β)
i i i i
Modelos Alternativos para F(·):
Probit:
(cid:90)
1 z
Φ(z) = √ · exp(−u2/2)du
2π
−∞
Logit:
1
Λ(z) =
1+e−z
1.3. Estimación por Máxima Verosimilitud
(cid:89)n
L = F(x(cid:48)β)yi[1−F(x(cid:48)β)]1−yi
i i
i=1
Tomando logaritmo a la expresión anterior:
(cid:88)n (cid:110) (cid:111)
(cid:48) (cid:48)
logL = y ·logF(x β)+(1−y )·log[1−F(x β)]
i i i i
i=1
Maximizando con respecto a beta obtenemos la función "score":
(cid:189) (cid:190)
∂logL (cid:88)n y ·f (1−y )·f
i i i i
= − · x
∂β F 1−F (cid:124)(cid:123)(cid:122)i(cid:125)
i i
i=1(cid:124) (cid:123)(cid:122) (cid:125) vector
escalar
1.3. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 5
con F = F(x(cid:48)β) y f = f(x(cid:48)β); donde f es la densidad correspondiente a F.
i i i i
Entonces:
∂logL (cid:88)n y −F
i i
= ·f ·x
i i
∂β F (1−F )
i i
i=1
y así, el estimador ML β(cid:98) es aquel que resuelve las ecuaciones de verosimilitud:
(cid:88)n y −F
i i
·f ·x = 0
i i
F (1−F )
i i
i=1
1.3.1. Modelo Logit
Para este caso, si se considera la forma funcional antes vista, se tiene que :
1
Λ(z) =
1+e−z
entonces al derivar se puede obtener la siguiente expresión :
f(z) = Λ(z)[1−Λ(z)]
Demostración :
F(z) = Λ(z) = (1+e−z)−1
dΛ(z)
= −1(1+e−1)−2(−1·e−z) = Λ(z)[1−Λ(z)]
dz
Y en consecuencia las ecuaciones de verosimilitud son:
∂logL (cid:88)n
= (y −Λ )·x
i i i
∂β
i=1
donde Λ = Λ(x(cid:48)β).
i i
Lamatrizdesegundasderivadas(Hessiano)eslasiguiente:(permiteverlavelocidad
con que se acerca al máximo)
∂2logL (cid:88)n
H = = − Λ (1−Λ )·x x(cid:48)
∂β∂β(cid:48) (cid:124)i (cid:123)(cid:122) i(cid:125) i i
i=1
escalar
6 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA
Demostración:
∂logL (cid:88)n y −F
i i
= ·f ·x
i i
∂β F (1−F )
i i
i=1
(cid:88)n y −Λ
i i
= ·Λ (1−Λ )·x
i i i
Λ (1−Λ )
i i
i=1
(cid:88)n
= (y −Λ )·x
i i i
i=1
∂2logL (cid:88)n ∂Λ
i
= −x
∂β∂β(cid:48) i ∂β
i=1
(cid:88)n
= − Λ (1−Λ )·x x(cid:48)
i i i i
i=1
La que es definida negativa para todos los β, asumiendo que los x’s no son perfec-
tamente colineales ( si lo fueran H no es invertible, explota). Así, la log-likelihood es
globalmente cóncava. La esperanza de H es ella misma y no depende de y, por lo tanto
la matriz de información muestral es:
(cid:88)n
Jn(β) = Λ (1−Λ )·x x(cid:48)
i i i i
i=1
1.3.2. Modelo Probit o Normit
En este caso, se tiene que :
∂logL (cid:88)n y −Φ
i i
= ·φ ·x = 0
i i
∂β Φ (1−Φ )
i i
i=1
donde Φ = Φ(x(cid:48)β)) y φ = φ(x(cid:48)β) con φ la densidad de la normal estándar. También
i i i i
se puede escribir como:
∂logL (cid:88) −φ (cid:88) φ
i i
= ·x + ·x
i i
∂β 1−Φ Φ
i i
yi=0 yi=1
1.4. MEDIAS CONDICIONALES DEL TÉRMINO DE ERROR 7
1.4. Medias condicionales del término de error
(cid:48)
E(ε |y = 1) = E(ε |x β+ε > 0)
i i i i i
φ(x(cid:48)β)
= i
Φ(x(cid:48)β)
i
y por otra parte:
(cid:48)
E(ε |y = 0) = E(ε |x β+ε (cid:54) 0)
i i i i i
−φ(x(cid:48)β)
= i
1−Φ(x(cid:48)β)
i
Si z (cid:118) N(0,1):
Figura 1
Distribución Normal(0,1)
densidad:
1
φ(z) = √ ·exp(−1/2z2)
2π
8 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA
Medias Condicionales:
(cid:90)
1 k
E(z|z < k) = · z·φ(z)dz
P(z < k)
−∞
(cid:90)
1 k 1
= · z· √ ·exp(−1/2z2)dz
Φ(k) 2π
−∞
(cid:183) (cid:184)
1 1 k
= −√ ·exp(−1/2z2)
Φ(k) 2π
−∞
−φ(k)
=
Φ(k)
De la misma manera:
(cid:90)
1 +∞
E(z|z > k) = · z·φ(z)dz
1−Φ(k)
k
(cid:90)
1 +∞ 1
= · z· √ ·exp(−1/2z2)dz
1−Φ(k) 2π
k
(cid:183) (cid:184)
1 1 +∞
= −√ ·exp(−1/2z2)
1−Φ(k) 2π
k
φ(k)
=
1−Φ(k)
Así, las ecuaciones de verosimilitud, en el caso de un modelo Probit, se pueden escribir
de la siguiente forma:
(cid:88)n
E(ε |y )·x = 0
i i i
i=1
(cid:124) (cid:123)(cid:122) (cid:125)
condición de ortogonalidad
La matriz Hessiana correspondiente es la siguiente:
∂2logL (cid:88) −φ (cid:88) −φ
= i [φ −xi(cid:48)β(1−Φ )]·x x(cid:48) + i[φ +x(cid:48)βΦ ]·x x(cid:48)
∂β∂β(cid:48) (1−Φ )2 i i i i Φ2 i i i i i
yi=0 i yi=1 i
Dadas las expresiones para las medias condicionales, los valores entre paréntesis
cuadradossonpositivosyentonceslamatrizHessianacorrespondienteesnegativadefini-
da, es decir, la log-likelihood es globalmente cóncava.
Tomando esperanzas, la matriz de información muestral para el modelo Probit es la
1.5. PROPIEDADES ASINTÓTICAS DEL ESTIMADOR ML 9
siguiente:
(cid:88)n φ2
Jn(β) = i ·x x(cid:48)
Φ (1−Φ ) i i
i i
i=1
1.5. Propiedades Asintóticas del estimador ML
Bajo “condiciones de regularidad generales”, el estimador ML es consistente y asin-
tóticamente normal con una matriz de varianzas y covarianzas dada por el inverso de
la matriz de información. Esta inversa es la cota inferior de Cramer-Rao y entonces, el
estimador ML es también asintóticamente eficiente.
La varianza del vector Score:
Para ambos modelos el Score tiene la siguiente forma:
∂logL (cid:88)n y −F
i i
= ·f ·x
i i
∂β F (1−F )
i i
i=1
Donde F = F(x(cid:48)β) y f = f(x(cid:48)β). Así, la varianza viene dada por:
i i i i
(cid:181) (cid:182)(cid:181) (cid:182) (cid:181) (cid:182)
∂logL ∂logL (cid:48) (cid:88)n y −F 2
E = E i i ·f2·x x(cid:48)
∂β ∂β F (1−F ) i i i
i i
i=1
(cid:88)n f2
= i ·x x(cid:48)
F (1−F ) i i
i i
i=1
Dado que la Var(y )=F (1−F ).
i i i
Demostración:
Var(y ) = E(y −F )2 = E(y2−2F y +F2)
i i i i i i i
Dado que: E(y ) = F
i i
Var(y ) = E(y )−F2 = F (1−F )
i i i i i
Notar que esta última expresión es la misma que la matriz de información muestral
derivada para cada uno de los modelos anteriores.
10 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA
Nota : Máximo Global: Aproximación de Taylor de logL(β) alrededor de β(cid:98)
MLE
(cid:175) (cid:175)
∂logL(cid:175) ∂2logL(cid:175)
logL(β) = logL(β(cid:98))+ (cid:175) (β(cid:98)−β)+0,5(β(cid:98)−β)(cid:48) (cid:175) (β(cid:98)−β)
∂β(cid:48) (cid:175) ∂β∂β(cid:48) (cid:175)
β(cid:98) β(cid:98)
(cid:124) (cid:123)(cid:122) (cid:125) (cid:124) (cid:123)(cid:122) (cid:125)
=0 <0
logL(β) < logL(β(cid:98))
1.6. Propiedades de las densidades regulares y verosimili-
tudes
Considere una muestra aleatoria obtenida de una función de densidad g(y:θ), la que
depende del parámetro θ (extendible al caso de un vector). El logaritmo de la función
de verosimilitud viene dado por:
(cid:88)n
logL = log(g(y ;θ))
i
i=1
La densidad g es Regular de primer orden si la diferenciación con respecto a θ y la
integración sobre y puede ser llevada a cabo en ambos sentidos con un mismo resultado.
(es decir, la integral de la derivada es igual a la derivada de la integral).
(cid:90) (cid:90)
d d
g(y;θ)dy = g(y;θ)dy
dθ dθ
y y
La densidad es Regular de segundo orden es lo mismo si se cumple para la segunda
derivada.
Si θ es un vector las condiciones anteriores deben cumplirse para todas las derivadas
con respecto a cada uno de los elementos de θ.
Propiedades:
1.
(cid:90)
+∞
g(y;θ)dy = 1
−∞
Así, si g es regular de primer orden, entonces:
(cid:90)
+∞
g(cid:48)(y;θ)dy = 0
−∞
Description:da, es decir, la log-likelihood es globalmente cóncava. Tomando .. Efecto marginal de variables dummies: La forma correcta de estimar el efecto.