Table Of ContentUniversidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Informática e Matemática Aplicada
Programa de Pós-Graduação em Sistemas e Computação
Mestrado Acadêmico em Sistemas e Computação
Novos Métodos Determinísticos para Gerar
Centros Iniciais dos Grupos no Algoritmo
Fuzzy C-Means e Variantes
Heloína Alves Arnaldo
Natal-RN
Fevereiro de 2014
Heloína Alves Arnaldo
Novos Métodos Determinísticos para Gerar Centros
Iniciais dos Grupos no Algoritmo Fuzzy C-Means e
Variantes
DissertaçãodeMestradoapresentadaaoPro-
grama de Pós-Graduação em Sistemas e
Computação do Departamento de Informá-
tica e Matemática Aplicada da Universidade
Federal do Rio Grande do Norte como requi-
sito para a obtenção do grau de Mestre em
Sistemas e Computação.
Linha de pesquisa:
Fundamentos da Computação
Orientador
Prof. Dr. Benjamín René Callejas Bedregal
PPgSC – Programa de Pós-Graduação em Sistemas e Computação
DIMAp – Departamento de Informática e Matemática Aplicada
CCET – Centro de Ciências Exatas e da Terra
UFRN – Universidade Federal do Rio Grande do Norte
Natal-RN
Fevereiro de 2014
Dissertação de Mestrado sob o título Novos Métodos Determinísticos para Gerar Centros
Iniciais dos Grupos no Algoritmo Fuzzy C-Means e Variantes apresentada por Heloína
Alves Arnaldo e aceita pelo Programa de Pós-Graduação em Sistemas e Computação do
Departamento de Informática e Matemática Aplicada da Universidade Federal do Rio
Grande do Norte, sendo aprovada por todos os membros da banca examinadora abaixo
especificada:
Prof. Dr. Benjamín René Callejas Bedregal
Presidente
DIMAp – Departamento de Informática e Matemática Aplicada
UFRN – Universidade Federal do Rio Grande do Norte
Prof. Dra. Anne Magaly de Paula Canuto
Examinador
DIMAp – Departamento de Informática e Matemática Aplicada
UFRN – Universidade Federal do Rio Grande do Norte
Prof. Dr. Regivan Hugo Nunes Santiago
Examinador
DIMAp – Departamento de Informática e Matemática Aplicada
UFRN – Universidade Federal do Rio Grande do Norte
Prof. Dra. Graçaliz Pereira Dimuro
Examinador
C3 – Centro de Ciências Computacionais
FURG – Universidade Federal do Rio Grande
Natal-RN, 24 de fevereiro de 2014.
UFRN / Biblioteca Central Zila Mamede
Catalogação da Publicação na Fonte
Arnaldo, Heloína Alves.
Novos métodos determinísticos para gerar centros iniciais dos grupos
no algoritmo fuzzy C-Means e variantes. / Heloína Alves Arnaldo. –
Natal, RN, 2014.
106 f.: il.
Orientador: Prof. Dr. Benjamín René Callejas Bedregal.
Dissertação (Mestrado) – Universidade Federal do Rio Grande do
Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação
em Sistemas e Computação.
1. Agrupamento de dados – Dissertação. 2. Fuzzi C-Means -
Dissertação. 3. Inicialização dos centros de grupos - Dissertação. 4.
Índices de validação – Dissertação. I. Bedregal, Benjamín René Callejas.
II. Universidade Federal do Rio Grande do Norte. III. Título.
RN/UF/BCZM CDU 004.021
Agradecimentos
Agradeço inicialmente à Deus por me dar, além dos obstáculos, forças para enfrentá-
los.
Agradeço à minha família, meu porto seguro, pelo incentivo constante, que me ajudou
a nunca desistir dos desafios.
Obrigada ao professor Benjamín, pela orientação nesses dois anos de trabalho.
Obrigada aos meus amigos, pelo apoio nas horas difíceis. Em especial, obrigada à
minha amiga Danielle, pelas palavras de conforto nos momentos complicados.
Obrigada ao meu amigo e companheiro, Márcio, pelo apoio, ajuda e compreensão em
todos os momentos.
Atodosquecontribuíramdealgumaformaparaessarealização,omeumuitoobrigada.
Resumo
Agrupamento de dados é uma técnica aplicada a diversas áreas como mineração de da-
dos, processamento de imagens e reconhecimento de padrões. Algoritmos de agrupamento
particionam um conjunto de dados em grupos, de tal forma, que elementos dentro de um
mesmo grupo tenham alto grau de similaridade, enquanto elementos pertencentes a dife-
rentes grupos tenham alto grau de dissimilaridade. O algoritmo Fuzzy C-Means (FCM)
é um dos algoritmos de agrupamento fuzzy de dados mais utilizados e discutidos na lite-
ratura. O desempenho do FCM é fortemente afetado pela seleção dos centros iniciais dos
grupos. Portanto, a escolha de um bom conjunto de centros iniciais é muito importante
para o desempenho do algoritmo. No entanto, no FCM, a escolha dos centros iniciais é
feita de forma aleatória, tornando difícil encontrar um bom conjunto. Este trabalho pro-
põe três novos métodos para obter os centros iniciais dos grupos, de forma determinística,
no algoritmo FCM, e que podem também ser usados em variantes do FCM. Neste traba-
lho esses métodos de inicialização foram aplicados na variante ckMeans. Com os métodos
propostos, pretende-se obter um conjunto de centros iniciais que esteja próximo dos cen-
tros reais dos grupos. Com estas novas abordagens de inicialização deseja-se reduzir o
número de iterações para estes algoritmos convergirem e o tempo de processamento, sem
afetar a qualidade do agrupamento ou até melhorar a qualidade em alguns casos. Neste
sentido, foram utilizados índices de validação de agrupamento para medir a qualidade dos
agrupamentos obtidos pelos algoritmos FCM e ckMeans, modificados com os métodos de
inicialização propostos, quando aplicados a diversas bases de dados.
Palavras-chave: Agrupamento de dados, Fuzzy C-Means, inicialização dos centros de gru-
pos, índices de validação.
Abstract
Data clustering is applied to various fields such as data mining, image processing and
pattern recognition technique. Clustering algorithms splits a data set into clusters such
that elements within the same cluster have a high degree of similarity, while elements
belonging to different clusters have a high degree of dissimilarity. The Fuzzy C-Means
Algorithm(FCM)isafuzzyclusteringalgorithmmostusedanddiscussedintheliterature.
The performance of the FCM is strongly affected by the selection of the initial centers of
the clusters. Therefore, the choice of a good set of initial cluster centers is very important
for the performance of the algorithm. However, in FCM, the choice of initial centers is
made randomly, making it difficult to find a good set. This paper proposes three new
methods to obtain initial cluster centers, deterministically, the FCM algorithm, and can
also be used in variants of the FCM. In this work these initialization methods were applied
invariantckMeans.Withtheproposedmethods,weintendtoobtainasetofinitialcenters
which are close to the real cluster centers. With these new approaches startup if you want
to reduce the number of iterations to converge these algorithms and processing time
without affecting the quality of the cluster or even improve the quality in some cases.
Accordingly, cluster validation indices were used to measure the quality of the clusters
obtained by the modified FCM and ckMeans algorithms with the proposed initialization
methods when applied to various data sets.
Keywords: Data clustering, Fuzzy C-Means, cluster centers initialization, validation indi-
ces.
Lista de figuras
1 Exemplo de agrupamento de dados. . . . . . . . . . . . . . . . . . . . . p.22
2 Diferentes agrupamentos de elementos do conjunto {bob, lia, ari, ana}. p.23
3 Procedimento de agrupamento. . . . . . . . . . . . . . . . . . . . . . . p.23
4 Conjunto clássico das pessoas idosas. . . . . . . . . . . . . . . . . . . . p.28
5 Conjunto fuzzy das pessoas idosas. . . . . . . . . . . . . . . . . . . . . p.29
6 Conjunto de dados com sobreposição. . . . . . . . . . . . . . . . . . . . p.30
7 O problema de agrupamento: objetos não agrupados. . . . . . . . . . . p.32
8 O problema de agrupamento: objetos agrupados. . . . . . . . . . . . . . p.32
9 Espaço do atributo a dividido em 2 regiões. . . . . . . . . . . . . . . . p.50
1
10 Espaço do atributo a dividido em 2 regiões. . . . . . . . . . . . . . . . p.50
2
11 Espaço do atributo a dividido em 2 regiões. . . . . . . . . . . . . . . . p.53
1
12 Espaço do atributo a dividido em 2 regiões. . . . . . . . . . . . . . . . p.54
2
13 Espaço dos atributos divididos em 2 regiões. . . . . . . . . . . . . . . . p.54
14 Base de dados Moons. . . . . . . . . . . . . . . . . . . . . . . . . . . . p.61
15 Base de dados Blobs em duas dimensões. . . . . . . . . . . . . . . . . . p.62
16 Base de dados S4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.62
17 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.96
18 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.97
19 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.98
20 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.99
21 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.100
22 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.100
23 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.101
24 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.102
25 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.103
26 Resultado do teste post-hoc . . . . . . . . . . . . . . . . . . . . . . . . p.104
Lista de tabelas
1 Quatro objetos descritos por seis atributos. . . . . . . . . . . . . . . . . p.22
2 Exemplo de objeto ou padrão. . . . . . . . . . . . . . . . . . . . . . . . p.25
3 Exemplo de matriz de dados com quatro objetos descritos por três atri-
butos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.26
4 Partição crisp para os objetos da Figura 7. . . . . . . . . . . . . . . . . p.32
5 Partição fuzzy para os objetos da Figura 7. . . . . . . . . . . . . . . . . p.33
6 Conjunto de dados X . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.49
7 Matriz E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.50
8 Matriz E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.51
9 Matriz E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.51
10 Grupo C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.51
1
11 Grupo C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.51
2
12 Centros iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.52
13 Conjunto de dados X . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.53
14 Matriz de centros CI . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.53
15 Matriz de centros CI . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.54
16 Matriz de centros CI . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.54
17 Matriz de centros CI . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.55
18 Matriz das distâncias entre X e CI . . . . . . . . . . . . . . . . . . . . p.55
19 Grupos C e C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.55
1 2
20 Matriz de centros finais . . . . . . . . . . . . . . . . . . . . . . . . . . . p.55
21 Conjunto de dados X . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.56
Description:Iniciais dos Grupos no Algoritmo Fuzzy C-Means e Variantes apresentada por Heloína. Alves Arnaldo e aceita pelo Programa de Pós-Graduação em Sistemas e Computação do. Departamento de Informática e Matemática Aplicada da Universidade Federal do Rio pattern recognition technique.