Table Of ContentAnÆlise de Dados Amostrais Complexos
Djalma Galvªo Carneiro Pessoa (Consultor)- IBGE
Pedro Luis do Nascimento Silva (Pesquisador)- IBGE
17 de Mar(cid:231)o de 1998
2
Índice
0.1 PrefÆcio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.2 Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1 Introdução 9
1.1 Motiva(cid:231)ªo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Estrutura do Livro . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Referencial para Inferência 17
2.1 Modelagem - Primeiras IdØias . . . . . . . . . . . . . . . . . . 17
2.1.1 Abordagem 1 - Modelagem ClÆssica . . . . . . . . . . 17
2.1.2 Abordagem 2 - Amostragem Probabil(cid:237)stica . . . . . . 19
2.1.3 Discussªo das Abordagens 1 e 2 . . . . . . . . . . . . . 19
2.1.4 Abordagem 3 - Modelagem de Superpopula(cid:231)ªo . . . . 22
2.2 Fontes de Varia(cid:231)ªo . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Modelos de Superpopula(cid:231)ªo . . . . . . . . . . . . . . . . . . . 25
2.4 Planejamento Amostral . . . . . . . . . . . . . . . . . . . . . 28
2.5 Planos Amostrais Informativos e IgnorÆveis . . . . . . . . . . 29
3 Estimação Baseada no Plano Amostral 33
3.1 Estima(cid:231)ªo de Totais . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Por que Estimar Vari(cid:226)ncias . . . . . . . . . . . . . . . . . . . 37
3.3 Lineariza(cid:231)ªo de Taylor para Estimar Vari(cid:226)ncias . . . . . . . . 39
3.4 MØtodo do Conglomerado PrimÆrio . . . . . . . . . . . . . . . 42
3.5 MØtodos de Replica(cid:231)ªo . . . . . . . . . . . . . . . . . . . . . . 43
4 Efeitos do Plano Amostral 47
4.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Efeito do Plano Amostral (EPA) de Kish . . . . . . . . . . . 48
4.3 Efeito do Plano Amostral Ampliado . . . . . . . . . . . . . . 51
4.4 Intervalos de Con(cid:222)an(cid:231)a e Testes de Hip(cid:243)teses . . . . . . . . . 61
3
4 ÍNDICE
4.5 Efeitos Multivariados de Plano Amostral . . . . . . . . . . . . 64
5 Ajuste de Modelos Paramétricos 71
5.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 MØtodo de MÆxima Verossimilhan(cid:231)a (MV) . . . . . . . . . . . 73
5.3 Pondera(cid:231)ªo de Dados Amostrais . . . . . . . . . . . . . . . . 74
5.4 MØtodo de MÆxima Pseudo-Verossimilhan(cid:231)a . . . . . . . . . . 78
5.5 Robustez do Procedimento MPV . . . . . . . . . . . . . . . . 83
5.6 Desvantagens da InferŒncia Baseada em Aleatoriza(cid:231)ªo . . . . 84
6 Modelos de Regressão 87
6.1 Modelo de Regressªo Linear Normal . . . . . . . . . . . . . . 87
6.1.1 Especi(cid:222)ca(cid:231)ªo do Modelo . . . . . . . . . . . . . . . . . 87
6.1.2 Pseudo-par(cid:226)metros do Modelo . . . . . . . . . . . . . 88
6.1.3 Estimadores de MPV dos Par(cid:226)metros do Modelo . . . 90
6.1.4 Estima(cid:231)ªo da Vari(cid:226)ncia de Estimadores de MPV . . . 91
6.2 Modelo de Regressªo Log(cid:237)stica . . . . . . . . . . . . . . . . . 92
6.3 Teste de Hip(cid:243)teses . . . . . . . . . . . . . . . . . . . . . . . . 100
7 Testes de Qualidade de Ajuste 103
7.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2 Teste para uma Propor(cid:231)ªo . . . . . . . . . . . . . . . . . . . . 104
7.2.1 Corre(cid:231)ªo de Estat(cid:237)sticas ClÆssicas . . . . . . . . . . . 104
7.2.2 Estat(cid:237)stica de Wald . . . . . . . . . . . . . . . . . . . 108
7.3 Teste para VÆrias Propor(cid:231)ıes . . . . . . . . . . . . . . . . . . 109
7.3.1 Estat(cid:237)stica de Wald Baseada no Plano Amostral . . . 110
7.3.2 Situa(cid:231)ıes InstÆveis . . . . . . . . . . . . . . . . . . . . 110
7.3.3 Estat(cid:237)stica de Pearson com Ajuste de Rao-Scott . . . 111
8 Testes em Tabelas de Duas entradas 119
8.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.2 Tabelas 2x2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
8.2.1 Teste de IndependŒncia . . . . . . . . . . . . . . . . . 120
8.2.2 Teste de Homogeneidade . . . . . . . . . . . . . . . . . 121
8.2.3 Efeitos de Plano Amostral nas Celas . . . . . . . . . . 121
8.3 Tabelas de Duas Entradas (Caso Geral) . . . . . . . . . . . . 123
8.3.1 Teste de Homogeneidade . . . . . . . . . . . . . . . . . 123
8.3.2 Teste de IndependŒncia . . . . . . . . . . . . . . . . . 127
8.3.3 Estat(cid:237)stica de Wald Baseada no Plano Amostral . . . 128
8.3.4 Estat(cid:237)stica de Pearson com Ajuste de Rao-Scott . . . 129
ÍNDICE 5
9 Agregação vs. Desagregação 135
9.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.2 Modelagem da Estrutura Populacional . . . . . . . . . . . . . 136
9.3 Modelos HierÆrquicos. . . . . . . . . . . . . . . . . . . . . . . 139
9.4 AnÆlise Desagregada: Pr(cid:243)s e Contras . . . . . . . . . . . . . . 151
10 Pacotes para Análise de Dados Amostrais 155
10.1 Introdu(cid:231)ªo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
10.2 Pacotes Computacionais . . . . . . . . . . . . . . . . . . . . . 155
6 ÍNDICE
0.1 Prefácio
Uma preocupa(cid:231)ªo bÆsica de todainstitui(cid:231)ªoprodutorade informa(cid:231)ıes esta-
t(cid:237)sticasØcomautiliza(cid:231)ªo(cid:148)correta(cid:148)deseusdados. Issopodeserintrepretado
devÆriasformas,algumasdelascomre(cid:223)exosatØnacon(cid:222)an(cid:231)adopœblicoena
pr(cid:243)pria sobrevivŒncia do (cid:243)rgªo. Do nosso ponto de vista, como tØcnicos da
Ærea de metodologia do IBGE, enfatizamos um aspecto tØcnico particular,
mas nem por isso menos importante para os usuÆrios dos dados.
Arevolu(cid:231)ªodainformÆticacomaresultantefacilidadedeacessoaocom-
putador,crioucondi(cid:231)ıesextremamentefavorÆveis(cid:224)utiliza(cid:231)ªodedadosesta-
t(cid:237)sticos,produzidospor(cid:243)rgªoscomooIBGE.Algumasvezesessesdadossªo
utilizados para (cid:222)ns puramente descritivos. Outras vezes, porØm, sua utili-
za(cid:231)ªoØfeitapara(cid:222)nsanal(cid:237)ticos, envolvendoaconstru(cid:231)ªodemodelos, quan-
do o objetivo Ø extrair conclusıes aplicÆveis tambØm a popula(cid:231)ıes distintas
daquela da qual se extraiu a amostra. Neste caso, Ø comum empregar, sem
grandes preocupa(cid:231)ıes, pacotes computacionais padrıes dispon(cid:237)veis para a
sele(cid:231)ªo e ajuste de modelos. (cid:201) neste ponto que entra a nossa preocupa(cid:231)ªo
com o uso adequado dos dados produzidos pelo IBGE.
O que torna tais dados especiais para quem pretende usÆ-los para (cid:222)ns
anal(cid:237)ticos? Esta Ø a questªo bÆsica que serÆ amplamente discutida ao lon-
go deste texto. A mensagem principal que pretendemos transmitir Ø que
certos cuidados precisam ser tomados para utiliza(cid:231)ªo correta dos dados de
pesquisas amostrais como as que o IBGE realiza.
O que torna especiais dados como os produzidos pelo IBGE Ø que estes
sªo obtidos atravØs de pesquisas amostrais complexas de popula(cid:231)ıes (cid:222)nitas
que envolvem: probabilidades distintas de seleção, estratificação e
conglomeração das unidades, ajustes paracompensar não-resposta
e outros ajustes. Os pacotes tradicionais de anÆlise ignoram estes aspec-
tos, podendo produzir estimativas incorretas tanto dos par(cid:226)metros como
para as vari(cid:226)ncias destas estimativas. Quando utilizamos a amostra para
estudos anal(cid:237)ticos, as op(cid:231)ıes dispon(cid:237)veis nos pacotes estat(cid:237)sticos usuais para
levar em conta os pesos distintos das observa(cid:231)ıes sªo apropriadas somente
para observa(cid:231)ıes independentes e identicamente distribu(cid:237)das (IID). AlØm
disso, a variabilidade dos pesos produz impactos tanto na estima(cid:231)ªo pon-
tual quanto na estima(cid:231)ªo das vari(cid:226)ncias dessas estimativas, que sofre ainda
in(cid:223)uŒncia da estrati(cid:222)ca(cid:231)ªo e conglomera(cid:231)ªo.
O objetivo deste livro Ø analisar o impacto das simpli(cid:222)ca(cid:231)ıes feitas ao
utilizar procedimentos e pacotes usuais de anÆlise de dados, e apresentar
os ajustes necessÆrios desses procedimentos de modo a incorporar na anÆ-
lise, de forma apropriada, os aspectos aqui ressaltados. Para isto serªo
0.2. AGRADECIMENTOS 7
apresentados exemplos de anÆlises de dados obtidos em pesquisas amostrais
complexas, usando pacotes clÆssicos e tambØm pacotes estat(cid:237)sticos especia-
lizados. A compara(cid:231)ªo dos resultados das anÆlises feitas das duas formas
permitirÆavaliaroimpactodeignoraroplanoamostralnaanÆlisedosdados
resultantes de pesquisas amostrais complexas.
0.2 Agradecimentos
A elabora(cid:231)ªo de um texto como esse nªo se faz sem a colabora(cid:231)ªo de mui-
tas pessoas. Em primeiro lugar, agradecemos (cid:224) Comissªo Organizadora do
SINAPE por ter propiciado a oportunidade ao selecionar nossa proposta de
minicurso. Agradecemos tambØm ao IBGE por ter proporcionado as con-
di(cid:231)ıeseosmeiosusados paraaprodu(cid:231)ªodamonogra(cid:222)a, bemcomooacesso
aos dados detalhados e identi(cid:222)cados que utilizamos em vÆrios exemplos.
No plano pessoal, agradecemos a ZØlia Bianchini pela revisªo do ma-
nuscrito e sugestıes que o aprimoraram. Agradecemos a Marcos Paulo de
Freitas e Renata Duarte pela ajuda com a computa(cid:231)ªo de vÆrios exemplos.
Agradecemos a Waldecir Bianchini, Luiz Pessoa e Marinho Persiano pela
colabora(cid:231)ªo na utiliza(cid:231)ªo do processador de textos. Aos demais colegas do
Departamento de Metodologia do IBGE, agradecemos o companheirismo e
solidariedade nesses meses de trabalho na prepara(cid:231)ªo do manuscrito.
Finalmente, agradecemos a nossas fam(cid:237)lias pela aceita(cid:231)ªo resignada de
nossas ausŒncias e pelo incentivo (cid:224) conclusªo da empreitada.
8 ÍNDICE
Capítulo 1
Introdução
1.1 Motivação
Este livro trata de problema de grande import(cid:226)ncia para os usuÆrios de
dados obtidos atravØs de pesquisas amostrais por agŒncias produtoras de
informa(cid:231)ıes estat(cid:237)sticas. Tais dados sªo comumente utilizados em anÆlises
descritivas envolvendo o cÆlculo de estimativas para totais, propor(cid:231)ıes, mØ-
dias e razıes, nas quais, em geral, sªo devidademente considerados os pesos
distintos das observa(cid:231)ıes e o planejamento da amostra que lhes deu origem.
Outro uso destes dados, denominado secundÆrio, Ø a constru(cid:231)ªo de mo-
delos, feitageralmenteporanalistasquetrabalhamforadasagŒnciasprodu-
torasdosdados. Neste caso, ofocoØ, essencialmente, estabeleceranatureza
de rela(cid:231)ıes ou associa(cid:231)ıes entre variÆveis. Para isto, a estat(cid:237)stica clÆssica
conta com um arsenal de ferramentas de anÆlise, jÆ incorporado aos princi-
paispacotesestat(cid:237)sticosdispon(cid:237)veis. Ousodestespacotessefaz, entretanto,
sob condi(cid:231)ıes que nªo re(cid:223)etem a complexidade usualmente envolvida nas
pesquisas amostrais de popula(cid:231)ıes (cid:222)nitas. Em geral, partem de hip(cid:243)teses
bÆsicas que s(cid:243) sªo vÆlidas quando os dados sªo obtidos atravØs de amostras
aleat(cid:243)rias simples com reposi(cid:231)ªo (AASC). Tais pacotes estat(cid:237)sticos nªo con-
sideram os seguintes aspectos relevantes no caso de amostras complexas:
i) probabilidades distintas de seleção das unidades;
ii) conglomeração das unidades;
iii) estratificação;
iv) não-resposta e outros ajustes.
9
10 CAPÍTULO 1. INTRODUÇÃO
As estimativas pontuais de par(cid:226)metros da popula(cid:231)ªo sªo in(cid:223)uenciadas
por pesos distintos das observa(cid:231)ıes. AlØm disso, as estimativas de vari(cid:226)ncia
sªo in(cid:223)uenciadas pela conglomera(cid:231)ªo, estrati(cid:222)ca(cid:231)ªo e pesos. Ao ignorar
estesaspectos,ospacotestradicionaisdeanÆlisepodemproduzirestimativas
incorretas das vari(cid:226)ncias das estimativas pontuais.
Aseguirvamosapresentarumexemplodeusodedadosdeumapesquisa
amostral real para ilustrar como os pontos i) a iv) mencionados afetam
a inferŒncia sobre quantidades descritivas populacionais tais como mØdias,
propor(cid:231)ıes, razıes e totais.
Exemplo 1.1 Distribui(cid:231)ªo dos pesos da amostra da PPV
Osdadosdesteexemplosªorelativos(cid:224)distribui(cid:231)ªodospesosnaamostra
da Pesquisa Domiciliar sobre Padrıes de Vida (PPV), realizada pelo IBGE
nas Regiıes Nordeste e Sudeste do Brasil nos anos 96-97. Segundo Albieri e
Bianchini(1997), (cid:148)A Pesquisa Domiciliar sobre Padrıes de Vida (PPV) foi
realizada nas Regiıes Nordeste e Sudeste do Pa(cid:237)s, considerando 10 estratos
geogrÆ(cid:222)cos, a saber: Regiªo Metropolitana de Fortaleza, Regiªo Metropoli-
tana de Recife, Regiªo Metropolitana de Salvador, restante da Ærea urbana
do Nordeste, restante da Ærea rural do Nordeste, Regiªo Metropolitana de
Belo Horizonte, Regiªo Metropolitana do Rio de Janeiro, Regiªo Metropo-
litana de Sªo Paulo, restante da Ærea urbana do Sudeste e restante da Ærea
rural do Sudeste.
O plano amostral foi de dois estÆgios, com estrati(cid:222)ca(cid:231)ªo das unidades
primÆriaseprobabilidadedesele(cid:231)ªoproporcionalaotamanhoesele(cid:231)ªoalea-
t(cid:243)riadasunidades de segundoestÆgio. Aunidade primÆriaØ osetordabase
geogrÆ(cid:222)ca do Censo DemogrÆ(cid:222)co de 91 e a unidade do segundo estÆgio Ø o
domic(cid:237)lio. O tamanho da amostra para cada estrato geogrÆ(cid:222)co foi (cid:222)xado
em480 domic(cid:237)lios. Em cadaestrato geogrÆ(cid:222)co foi (cid:222)xadoem 60 onœmerode
setores a serem selecionados e 8 domic(cid:237)lios em cada setor, com exce(cid:231)ªo para
os estratos que correspondem ao restante da Ærea rural de cada Regiªo onde
(cid:222)xou-se em 30 o nœmero de setores e em 16 o nœmero de domic(cid:237)lios a serem
selecionados por setor, em fun(cid:231)ªo da di(cid:222)culdade de acesso a esses setores, o
que implicaria em aumento de custo(cid:148).
Ossetoresdecadaumdos10estratosgeogrÆ(cid:222)cosforamsubdivididosem
3estratosdeacordocomarendamØdiamensaldochefedafam(cid:237)liaporsetor,
perfazendo um total de 30 estratos geogrÆ(cid:222)cos versus renda. Em seguida foi
feitaumaaloca(cid:231)ªo proporcional, com base nonœmero de domic(cid:237)lios particu-
lares permanentes ocupados do estratode rendanouniversode cada estrato
geogrÆ(cid:222)co, obtidos pelo Censo de 91. No (cid:222)nal foram obtidos 554 setores na
amostra, distribu(cid:237)dos tal como revela a Tabela 1.1.
Description:apresentados exemplos de análises de dados obtidos em pesquisas amostrais complexas, usando pacotes clássicos e também pacotes estatísticos