Table Of ContentModelos de Regress~ao
Clarice Garcia Borges Dem(cid:19)etrio
Departamento de Ci^encias Exatas, ESALQ, USP
Caixa Postal 9
13418-900 Piracicaba, SP
Email: [email protected]
Fax: 019 34294346
S(cid:19)(cid:16)lvio Sandoval Zocchi
Departamento de Ci^encias Exatas, ESALQ, USP
Caixa Postal 9
13418-900 Piracicaba, SP
Email: [email protected]
Fax: 019 34294346
29 de mar(cid:24)co de 2011
ii Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi
Pref(cid:19)acio
Estas notas s~ao resultantes de v(cid:19)arios anos de lecionamento da disciplina LCE Regress~ao e
Covari^ancia,
Agradecimentos
Oa autores agradecem a todos que direta ou indiretamente contribu(cid:19)(cid:16)ram para a realiza(cid:24)c~ao desse
texto.
Sum(cid:19)ario
1 Conceitos gerais 1
1.1 Natureza das vari(cid:19)aveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Rela(cid:24)c~oes entre tipos de vari(cid:19)aveis e tipos de erros . . . . . . . . . . . . . . 2
1.1.2 Fun(cid:24)c~oes lineares e n~ao lineares (especi(cid:12)ca(cid:24)c~ao da fun(cid:24)c~ao f(.)) . . . . . . . 4
1.1.3 Tipos de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Diagramas de dispers~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Regress~ao linear simples 19
2.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Modelo estat(cid:19)(cid:16)stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Estima(cid:24)c~ao dos par^ametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Uma forma alternativa para o modelo de regress~ao linear simples { Vari(cid:19)avel X
centrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5 An(cid:19)alise de vari^ancia e teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 Estima(cid:24)c~ao por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7 Testes de hip(cid:19)oteses para os par^ametros . . . . . . . . . . . . . . . . . . . . . . . 42
2.8 Exemplo de aplica(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.9 Regress~ao linear por anamorfose . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.10 Teste para falta de ajuste (ou teste de linearidade) . . . . . . . . . . . . . . . . . 48
2.11 Coe(cid:12)ciente de determina(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.12 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3 Regress~ao Linear Mu(cid:19)ltipla 69
3.1 Modelo estat(cid:19)(cid:16)stico - Nota(cid:24)c~ao matricial . . . . . . . . . . . . . . . . . . . . . . . 69
3.2 Estima(cid:24)c~ao dos par^ametros { M(cid:19)etodo dos quadrados m(cid:19)(cid:16)nimos . . . . . . . . . . 71
3.3 Nota(cid:24)c~ao matricial alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4 An(cid:19)alise de vari^ancia e teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
iii
iv Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi
3.5 Coe(cid:12)ciente de Determina(cid:24)c~ao Mu(cid:19)ltiplo . . . . . . . . . . . . . . . . . . . . . . . . 91
3.6 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.7 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4 An(cid:19)alise de Res(cid:19)(cid:16)duos e Diagn(cid:19)osticos 103
4.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2 Tipos de res(cid:19)(cid:16)duos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.3 Estat(cid:19)(cid:16)sticas para diagn(cid:19)osticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4 Tipos de gr(cid:19)a(cid:12)cos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.5 Exemplo - Regress~ao linear simples . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.6 Exemplo - Regress~ao linear mu(cid:19)ltipla . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.7 Fam(cid:19)(cid:16)lia Box-Cox de tranforma(cid:24)c~oes . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.8 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.9 Transforma(cid:24)c~ao e fun(cid:24)c~ao de liga(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.10 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5 Correla(cid:24)c~oes lineares simples e parciais 143
5.1 Correla(cid:24)c~ao linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.1.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.1.2 Distribui(cid:24)c~ao normal bidimensional . . . . . . . . . . . . . . . . . . . . . . 144
5.1.3 Momentos da distribui(cid:24)c~ao normal bivariada . . . . . . . . . . . . . . . . 146
5.1.4 Correla(cid:24)c~ao linear simples na popula(cid:24)c~ao . . . . . . . . . . . . . . . . . . . 147
5.1.5 Estima(cid:24)c~ao dos par^ametros da distribui(cid:24)c~ao normal bivariada . . . . . . . 148
5.1.6 Correla(cid:24)c~ao linear simples na amostra . . . . . . . . . . . . . . . . . . . . 148
5.1.7 Testes de hip(cid:19)oteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.1.8 Intervalo de con(cid:12)an(cid:24)ca para ρ. . . . . . . . . . . . . . . . . . . . . . . . . 151
5.2 Correla(cid:24)c~oes parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.2.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.2.2 De(cid:12)ni(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.2.3 Estimativa do coe(cid:12)ciente de correla(cid:24)c~ao parcial . . . . . . . . . . . . . . . 155
5.2.4 Testes de hip(cid:19)oteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.4 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6 M(cid:19)etodos de Sele(cid:24)c~ao de Vari(cid:19)aveis 171
6.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.2 Crit(cid:19)erios usados na sele(cid:24)c~ao de vari(cid:19)aveis . . . . . . . . . . . . . . . . . . . . . . . 172
6.3 M(cid:19)etodos de sele(cid:24)c~ao de vari(cid:19)aveis . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Modelos de Regress~ao v
6.4 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.5 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7 Polin^omios Ortogonais 187
7.1 Introdu(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.2 Constru(cid:24)c~ao dos polin^omios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.3 An(cid:19)alise de Vari^ancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.4 Dados com repeti(cid:24)c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
7.5 Dados n~ao equidistantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
7.6 Equival^encia das f(cid:19)ormulas obtidas e as usadas por Pimentel Gomes (2000) . . 194
7.7 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
7.8 Exerc(cid:19)(cid:16)cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Cap(cid:19)(cid:16)tulo 1
Conceitos gerais
1.1 Natureza das vari(cid:19)aveis
Um problema comum em Estat(cid:19)(cid:16)stica (cid:19)e o estudo da rela(cid:24)c~ao entre duas vari(cid:19)aveis X e Y, isto (cid:19)e,
procura-se uma fun(cid:24)c~ao de X que explique Y
X,Y → Y ≃ f(X).
Em geral, a rela(cid:24)c~ao n~ao (cid:19)e perfeita. Os pontos n~ao se situam perfeitamente sobre a
fun(cid:24)c~ao que relaciona as duas vari(cid:19)aveis. Mesmo se existe uma rela(cid:24)c~ao exata entre as vari(cid:19)aveis
comotemperaturaepress~ao,(cid:13)utua(cid:24)c~oesemtornodacurvaaparecer~aodevidoaerrosdemedidas.
Frequ(cid:127)entemente, o tipo de curva a ser ajustada (cid:19)e sugerido por evid^encia emp(cid:19)(cid:16)rica
ou por argumentos te(cid:19)oricos. O modelo a ser adotado depende de v(cid:19)arios fatores, por exemplo,
natureza das vari(cid:19)aveis, rela(cid:24)c~ao linear ou n~ao, homogeneidade de vari^ancias ou n~ao, tipos de
erros, independ^encia dos erros etc.
A natureza das vari(cid:19)aveis X e Y pode variar, isto (cid:19)e, elas podem ser (cid:12)xas (ou contro-
ladas) ou aleat(cid:19)orias. Al(cid:19)em disso, ambas podem ser medidas com ou sem erro (de mensura(cid:24)c~ao).
De forma esquem(cid:19)atica, tem-se:
{
com erro
(cid:12)xa
sem erro
X
{
com erro
aleat(cid:19)oria
sem erro
{
com erro
(cid:12)xa
sem erro
Y
{
com erro
aleat(cid:19)oria
sem erro
1
2 Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi
o que sugere 16 combinac(cid:24)~oes poss(cid:19)(cid:16)veis entre X e Y.
Assim, por exemplo, se
• X representa a vari(cid:19)avel sexo, ela (cid:19)e uma vari(cid:19)avel de classi(cid:12)ca(cid:24)c~ao, (cid:12)xa, medida sem erro,
que pode assumir o valor 0, se feminino, ou 1 se masculino ou vice-versa;
• X representa um nu(cid:19)mero ((cid:12)xado) de frutos (2, 3, 4) por ramo em um determinado ano e
Y, o nu(cid:19)mero de gemas (cid:13)or(cid:19)(cid:16)feras nos mesmos ramos no ano seguinte, tem-se que X (cid:19)e (cid:12)xa,
sem erro e Y (cid:19)e aleat(cid:19)oria, sem erro de mensura(cid:24)c~ao;
• X representa as quantidades 30, 60 e 90kg de nitrog^enio/ha colocadas no solo, ela (cid:19)e (cid:12)xa,
possivelmente, medida com erro;
• X representa quantidades de nitrog^enio no solo e Y quantidades de nitrog^enio na planta,
ambas s~ao aleat(cid:19)orias, possivelmente, medidas com erro. Pode-se, por(cid:19)em, controlar X por
meio da especi(cid:12)ca(cid:24)c~ao de determinadas caracter(cid:19)(cid:16)sticas do solo.
1.1.1 Rela(cid:24)c~oes entre tipos de vari(cid:19)aveis e tipos de erros
(i) Considerando-se X (cid:12)xa (ou controlada), tem-se:
X = X +e
CE CS X
sendo
X : X controlada, medida com erro
CE
X : X controlada, medida sem erro
CS
e : erro de medida em X.
X
Como exemplos, t^em-se doses de pesticidas, de adubos etc.
(ii) Considerando-se Y (cid:12)xa (ou controlada), tem-se
Y = Y +e
CE CS Y
sendo
Y : Y controlada, medida com erro
CE
Y : Y controlada, medida sem erro
CS
e : erro de medida em Y.
Y
Modelos de Regress~ao 3
(iii) Considerando-se que X (cid:19)e uma vari(cid:19)avel aleat(cid:19)oria com distribui(cid:24)c~ao de m(cid:19)edia µ , tem-se:
X
X = µ +ε
AS X X
e
X = µ +ε +e = X +e
AE X X X AS X
sendo
X : X aleat(cid:19)oria, medida com erro
AE
X : X aleat(cid:19)oria, medida sem erro
AS
ε (cid:19)e erro aleat(cid:19)orio
X
e (cid:19)e erro de mensura(cid:24)c~ao.
X
Como exemplos, t^em-se quantidades de nutrientes encontradas no solo.
(iv) Considerando-se que Y (cid:19)e uma vari(cid:19)avel aleat(cid:19)oria com distribui(cid:24)c~ao de m(cid:19)edia µ , tem-se:
Y
Y = µ +ε
AS Y Y
e
Y = µ +ε +e = Y +e
AE Y Y Y AS Y
sendo
Y : Y aleat(cid:19)oria, medida com erro
AE
Y : Y aleat(cid:19)oria, medida sem erro
AS
ε (cid:19)e erro aleat(cid:19)orio
Y
e (cid:19)e erro de mensura(cid:24)c~ao.
Y
Como exemplos, t^em-se quantidades de nutrientes encontradas na planta, medidas
de comprimento, peso, volume etc.
Na maior parte dos casos, tanto X como Y s~ao medidas com erros e o que se pro-
cura fazer (cid:19)e tornar esses erros desprez(cid:19)(cid:16)veis. Apenas como exemplos, sejam alguns casos das 16
combina(cid:24)c~oes poss(cid:19)(cid:16)veis entre X e Y.
Caso 1: Y vs X (Y controlado sem erro versus X controlado sem erro).
CS CS
Esse (cid:19)e um problema matem(cid:19)atico (modelo determin(cid:19)(cid:16)stico) em que Y = f(X). Como
exemplo, tem-se a lei f(cid:19)(cid:16)sica:
E = rJ
4 Clarice G.B. Dem(cid:19)etrio & Silvio S. Zocchi
sendo E, tens~ao, J, intensidade da corrente e r, resist^encia.
Se, por(cid:19)em, forem observados n pares de valores E, J, as medidas observadas depen-
der~ao da precis~ao dos equipamentos, estando, portanto, sujeitas a erros, e pode-se estimar r
por meio de uma equa(cid:24)c~ao de regress~ao que passa pela origem.
Caso 2: Y vs X (Y controlada com erro versus X controlada sem erro).
CE CS
Nesse caso, a vari(cid:19)avel Y est(cid:19)a afetada por apenas um tipo de erro, isto (cid:19)e,
Y = f(X )+e .
CE CS Y
Em geral, considera-se que E(e ) = 0, e portanto,
Y
E(Y ) = f(X ).
CE CS
Caso 3: Y vs X (Y aleat(cid:19)oria sem erro versus X controlada sem erro).
AS CS
Nesse caso, tamb(cid:19)em, a vari(cid:19)avel Y est(cid:19)a afetada por apenas um tipo de erro, isto (cid:19)e,
Y = f(X )+ε = µ +ε .
AS CS Y Y Y
Caso 4: Y vs X (Y aleat(cid:19)oria com erro versus X controlada sem erro).
AE CS
Nesse caso, a vari(cid:19)avel Y est(cid:19)a afetada por dois tipos de erros, isto (cid:19)e,
Y = f(X )+ε +e = µ +ε +e
AE CS Y Y Y Y Y
se a fun(cid:24)c~ao f(.) for conhecida. Se f(.) n~ao (cid:19)e conhecida, ou quando Y (cid:19)e afetada por k vari(cid:19)aveis,
isto (cid:19)e,
Y = g(X,X ,X ,··· ,X )+ε +e
1 2 k Y Y
sendo g(X,X ,X ,··· ,X ) = f(X)+h(X ,X ,··· ,X ), pode-se ter
1 2 k 1 2 k
Y = f(X )+ξ +ε +e = µ +ξ +ε +e
CS Y Y Y Y Y Y Y
em que ξ (cid:19)e o erro devido (cid:18)a n~ao considera(cid:24)c~ao de todas as vari(cid:19)aveis que afetam Y, isto(cid:19)e, tem-se,
Y
tamb(cid:19)em, um erro de especi(cid:12)ca(cid:24)c~ao do modelo.
1.1.2 Fun(cid:24)c~oes lineares e n~ao lineares (especi(cid:12)ca(cid:24)c~ao da fun(cid:24)c~ao f(.))
Nosestudosderegress~aobusca-serelacionarumavari(cid:19)avelaleat(cid:19)oriaY comumaoumaisvari(cid:19)aveis
X’s, especi(cid:12)cando-se a fun(cid:24)c~ao f(.). Quando Y depende apenas de uma vari(cid:19)avel X, isto (cid:19)e,
Y = f(X,β ,β ,··· ,β )+ε
0 1 k Y
tem-se que f(.) (cid:19)e linear nos par^ametros β ,β ,··· ,β se
0 1 k
∂f
= h(X),i = 0,1,··· ,k,
∂β
i
Modelos de Regress~ao 5
sendo h(X) dependente apenas de X.
Outro caso comum (cid:19)e considerar
Y = f(X ,X ,··· ,X ,β ,β ,··· ,β )+ε
1 2 k 0 1 k Y
que (cid:19)e linear nos par^ametros se
∂f
= h(X ,X ,··· ,X ),
1 2 k
∂β
i
∂f
isto (cid:19)e, h(.) depende apenas de X ,X ,··· ,X . Se pelo menos uma das derivadas parciais
1 2 k
∂β
i
depende de pelo menos um dos par^ametros, ent~ao, f(.)(cid:19)e uma fun(cid:24)c~ao n~ao linear dos par^ametros.
Como exemplos de fun(cid:24)c~oes lineares, t^em-se:
∂f
(i) f(X,β ) = β , pois, = 1,
0 0
∂β
0
∂f ∂f
(ii) f(X,β ,β ) = β +β X, pois, = 1 e = X,
0 1 0 1
∂β ∂β
0 1
1 ∂f ∂f 1
(iii) f(X,β ,β ) = β +β , pois, = 1 e = ,
0 1 0 1
X ∂β ∂β X
0 1
(iv) f(X ,X ,X ,β ,β ,β ,β ) = β +β X +β X +β X ,
1 2 3 0 1 2 3 0 1 1 2 2 3 3
∂f ∂f ∂f ∂f
pois, = 1, = X , = X e = X ,
1 2 3
∂β ∂β ∂β ∂β
0 1 2 3
(v) f(X,β ,β ,β ,β ) = β +β X +β X2 +β X3,
0 1 2 3 0 1 2 3
∂f ∂f ∂f ∂f
pois, = 1, = X, = X2 e = X3
∂β ∂β ∂β ∂β
0 1 2 3
∂f ∂f
(vi) f(X,β ,β ) = β +β log(X), pois, = 1 e = log(X).
0 1 0 1
∂β ∂β
0 1
Como exemplos de fun(cid:24)c~oes n~ao lineares, podem ser citadas:
(i) f(X,β ,β ,β ) = β sen(β X +β ),
0 1 2 0 1 2
∂f ∂f ∂f
pois, = sen(β X +β ), = β Xcos(β X +β ) e = β cos(β X +β ),
1 2 0 1 2 0 1 2
∂β ∂β ∂β
0 1 2
(ii) f(X,β ,β ,β ) = β +β e(cid:12)2X,
0 1 2 0 1
∂f ∂f ∂f
pois, = 1, = e(cid:12)2X e = β Xe(cid:12)2X
1
∂β ∂β ∂β
0 1 2
β +β X
0 1
(iii) f(X,β ,β ,β ) = ,
0 1 2
1+β X
2
∂f 1 ∂f X ∂f (β +β X)X
pois, = , = e = − 0 1 .
∂β 1+β X ∂β 1+β X ∂β (1+β X)2
0 2 1 2 2 2
Description:6 Métodos de Seleç˜ao de Variáveis . Esse é um problema matemático (modelo determinıstico) em que Y = f(X). Os dados que se seguem (Ryan, Joiner e Ryan Jr., 1976) referem-se a medidas de Volume of usable wood in 31 black cherry trees from D = diameter at 4.5 ft from ground (inches).