Table Of ContentSusana Margarida Ferreira de Sa´ Faria
Modelos de Mistura:
Aplica¸co˜es em An´alise de Regress˜ao
Dissertac¸˜ao apresentada `a Faculdade de Engenharia da Universidade do Porto
para a obtenc¸˜ao do grau de Doutor em Ciˆencias de Engenharia
Orientac¸˜ao: Prof. Doutor Francisco Jos´e Lage Campelo Calheiros
Co-orientac¸˜ao: Prof. Doutora Gilda Maria De Carvalho Fernandes Soromenho Pereira
Faculdade de Engenharia da Universidade do Porto
2006
O trabalho de investigac¸˜ao apresentado nesta dissertac¸˜ao foi parcialmente financiado
pelo PRODEP III - Ac¸c˜ao 5.3 - Formac¸˜ao Avan¸cada no Ensino Superior - Concurso
no2/5.3/PRODEPIII/2001 e pelo FCT e FSE no ˆambito do III Quadro Comunit´ario de
Apoio.
Resumo
Nesta disserta¸c˜ao s˜ao estudados os Modelos de Mistura no dom´ınio da An´alise de Re-
gress˜ao, em particular, os modelos de regress˜ao em misturas de distribui¸c˜oes e os modelos
de mistura de regress˜oes lineares.
Relativamente aos modelos de regress˜ao em misturas de distribuic¸˜oes, pretende-se ana-
lisar qual o modelo de regress˜ao adequado em misturas de distribuic¸˜oes de componentes
normaisbidimensionais. Comesseobjectivo,estudam-seosvaloresesperadoscondicionaise
as variˆancias condicionais no par aleat´orio mistura de componentes normais bidimensionais
e conclui-se que a linearidade do modelo de regress˜ao nem sempre ´e verificada. Prop˜oe-
se ainda a aplica¸c˜ao de um m´etodo para estimar o modelo de regress˜ao nestas misturas.
Os estudos num´ericos efectuados mostram-nos resultados encorajadores na aplica¸c˜ao deste
m´etodonaestimac¸˜aodacurvaderegress˜aonestasmisturas,comparandocomoutrom´etodo
existente para estimar uma curva de regress˜ao. No entanto, estes estudos evidenciam cla-
ramente que quando se ajusta um modelo linear a cada componente da mistura se obt´em
um melhor ajustamento aos dados.
Relativamente aos modelos de mistura de regress˜oes lineares abordamos o problema da
sua estimac¸˜ao e da detec¸c˜ao de observa¸c˜oes inconsistentes nestes modelos.
Emboraom´etododam´aximaverosimilhan¸carecorrendoaoalgoritmoExpectationMaxi-
mization(EM)tenhasidoom´etodomaisaplicadonaestimac¸˜aodosparˆametrosdemisturas
de regress˜oes lineares, neste trabalho ´e proposto um novo procedimento que utiliza o al-
goritmo Classification Expectation Maximization (CEM) para determinar as estimativas de
m´axima verosimilhan¸ca dos parˆametros dessas misturas. O estudo efectuado leva-nos a
considerar a aplicac¸˜ao do algoritmo CEM como uma alternativa de interesse para a esti-
ma¸c˜ao dos parˆametros destas misturas, em especial nas situac¸˜oes em que as verdadeiras
rectas de regress˜ao componentes da mistura s˜ao paralelas entre si.
Uma vez que a detecc¸˜ao de observac¸˜oes que parecem inconsistentes com o modelo
de regress˜ao estimado tem desempenhado um papel primordial em an´alise de regress˜ao,
desenvolve-se um novo teste para identificar observac¸˜oes outliers em misturas de regress˜oes
lineares. Este teste tem como objectivo identificar se novas observa¸c˜oes entretando obtidas
podem ser consideradas outliers ao modelo estimado a partir do conjunto de observa¸c˜oes
iniciais. A sua aplica¸c˜ao permite concluir que´e um teste adequado para identificar se novas
observac¸˜oes constituem outliers ao modelo estimado de misturas de regress˜oes lineares.
Abstract
In this thesis we study Mixture Models in a Regression Analysis Context. In particular,
regression models in mixture distributions and the mixture of linear regression models.
Concerning regression models in mixture distributions, we study the regression model
in bivariate Gaussian mixture models. For doing so, we find the expected value and the
variance of bivariate Gaussian mixture in conditional distributions. At the end we conclude
that the linearity of this regression model is not always verified.
The application of a method for fitting a curve of regression in these mixtures is also
proposed. When comparing the results obtained by this method with those obtained by
anothermethodforfittingaregressioncurve, whenbothareappliedtoasetofcasestudies,
the results obtained are particularly encouraging for further developments in the area.
However, these studies clearly evidence that the best-fit regression model is obtained when
a linear model is fitted to each component of the mixture.
Concerning the models of mixture of linear regressions this work concentrates on the
fitting of these models and on the detection of outliers.
In most applications the parameters of a mixture of linear regression models are estima-
tedbymaximizingthelikelihood,theEMalgorithmbeingthemostpopulartooltoestimate
the maximum likelihood in mixtures of regression models. In this work, we develop a new
procedure for fitting these models using a Classification EM algorithm and compare it to
the EM approach. The results of the simulation suggest that the CEM algorithm performs
well, especially when the true regression lines are parallel.
The detention of observations that seem inconsistent with the fitted regression model
has played a primordial role in regression analysis. In this work we develop a new test for
outlier detection from a mixture of linear regressions, when the CEM algorithm is used to
estimate the maximum likelihood of the mixture of parameters. The objective of this test
is to identify if a new observation is as an outlier from the fitted regression model. The
good performance of the test shows that it is suitable for detecting if new observations are
outliers of the estimated model of mixtures of linear regressions.
Agradecimentos
Em primeiro lugar quero expressar os mais profundos agradecimentos aos meus orien-
tadores cient´ıficos, o Professor Doutor Francisco Calheiros e a Professora Doutora Gilda
Soromenho, pela orienta¸c˜ao, ajuda e amizade prestada durante a elaborac¸˜ao desta disser-
ta¸c˜ao.
Agrade¸coaoProfessorFranciscoCalheiroscomquemtiveoprivil´egiodetrabalhardesde
que iniciei os meus estudos em Estat´ıstica e que me motivou para o desenvolvimento do
tema deste trabalho.
Agrade¸coigualmente`aProfessoraGildaSoromenhopelasuadisponibilidadeeconfian¸ca
demonstrada, a quem ficarei eternamente agradecida.
N˜ao posso deixar de agradecer,
Aos meus colegas do Departamento de Matem´atica para a Ciˆencia e Tecnologia da
Universidade do Minho, em especial, `a Professora Doutora Estelita Vaz, pelo apoio sempre
demonstrado e pelos bons momentos de conv´ıvio e descontracc¸˜ao.
Ao S´ergio Reis Cunha, pela sua disponibilidade e apoio sempre manifestados `as minhas
solicitac¸˜oes.
A` Concei¸c˜ao, pelo constante encorajamento, apoio e amizade sempre presentes ao longo
do tempo.
A` Teresa,pelaenergia,oˆanimoeadisponibilidadequesempremeofereceu,emespecial,
nos momentos mais dif´ıceis ocorridos durante a elabora¸c˜ao desta disserta¸c˜ao.
A` Ana, pela ajuda? E´ pouco! Pela disponibilidade? E´ insuficiente! Pelo apoio? N˜ao
chega! Ent˜ao?... Agrade¸co a nossa Enorme Amizade.
Ao Paulo, pelo optimismo, pela confianc¸a e pela compreens˜ao sempre demonstradas.
ii
Aos meus pais e irm˜a que estiveram sempre presentes, me apoiaram nos momentos mais
dif´ıceis, pela paciˆencia que sempre tiveram, pelo incentivo que sempre manifestaram e pelo
bom ambiente que proporcionaram.
Finalmente, a duas pessoas que infelizmente j´a n˜ao se encontram entre n´os, os meus
av´os Maria da Piedade e Normando, pelo carinho dedicado e pelos princ´ıpios transmitidos
que me ajudam a ser o que hoje sou.
A todos os amigos mencionados e a todos que n˜ao o foram, mas que de algum modo
contribu´ıram para que eu pudesse realizar este trabalho, os meus sinceros e profundos
agradecimentos.
´
Indice
1 Introdu¸c˜ao 1
1.1 Tema e objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Estrutura da dissertac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Modelos de Mistura de Distribui¸c˜oes 7
2.1 No¸c˜oes preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 M´etodos de estima¸c˜ao de misturas de distribuic¸˜oes . . . . . . . . . . . . . . 12
2.2.1 M´etodo dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 M´etodo da m´axima verosimilhan¸ca . . . . . . . . . . . . . . . . . . . 13
2.2.3 M´etodos gr´aficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 M´etodo da distˆancia m´ınima . . . . . . . . . . . . . . . . . . . . . . 17
2.2.5 M´etodos bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.2 Desvantagem do algoritmo . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Estrat´egias para obtenc¸˜ao de solu¸c˜oes iniciais . . . . . . . . . . . . . 21
2.4 M´etodos para identificar o nu´mero de componentes da mistura . . . . . . . 22
2.5 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 MCLUST 27
3.1 An´alise de clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Constru¸c˜ao dos clusters . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 M´etodos hier´arquicos. . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.3 M´etodos de partic¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 M´odulo inform´atico Mclust . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Func¸˜ao EMclust . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
iii
iv ´INDICE
4 Momentos de Misturas de Distribui¸c˜oes 39
4.1 Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Coeficiente de assimetria e coeficiente de achatamento . . . . . . . . . . . . 40
4.3 Distribui¸c˜oes puras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Mistura bin´aria de distribui¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.1 Valor esperado e variˆancia . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4.2 Coeficiente de assimetria e coeficiente de achatamento . . . . . . . . 49
4.5 Generalizac¸˜ao a misturas n˜ao bin´arias . . . . . . . . . . . . . . . . . . . . . 58
4.5.1 Estudo de dados simulados . . . . . . . . . . . . . . . . . . . . . . . 58
4.6 Aplica¸c˜ao a dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.7 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5 An´alise de Regress˜ao em Misturas de Normais Bidimensionais 63
5.1 Introdu¸c˜ao `a An´alise de Regress˜ao . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.1 Modelo de regress˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1.2 M´etodos de estima¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1.3 Curva de regress˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2 Regress˜ao em normais bidimensionais . . . . . . . . . . . . . . . . . . . . . 68
5.3 Regress˜ao em misturas de normais bidimensionais. . . . . . . . . . . . . . . 70
5.3.1 Estima¸c˜ao do modelo de regress˜ao em misturas de normais bidimen-
sionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.2 Regress˜ao linear em misturas de normais bidimensionais . . . . . . . 84
5.4 Estudo de simulac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.1 Descri¸c˜ao do estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.2 Misturas de duas componentes normais bidimensionais: resultados . 94
5.4.3 Misturas de trˆes componentes normais bidimensionais: resultados . . 99
5.5 Aplica¸c˜ao de misturas de normais bidimensionais `a estimac¸˜ao de uma curva
de regress˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.5.1 Descri¸c˜ao do m´etodo . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.5.2 Descri¸c˜ao do estudo de simula¸c˜ao . . . . . . . . . . . . . . . . . . . . 107
5.6 Coment´arios finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6 Modelos de Mistura de Regress˜oes Lineares 111
6.1 Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.2 Modelo de mistura de regress˜oes . . . . . . . . . . . . . . . . . . . . . . . . 115
6.3 Estimac¸˜ao de misturas de regress˜oes lineares. . . . . . . . . . . . . . . . . . 116
Description:Nesta dissertaç˜ao s˜ao estudados os Modelos de Mistura no domınio da . 2.4 Métodos para identificar o número de componentes da mistura .