Abstract:
RESUMO:
O agrupamento (clustering) de dados tem sido considerado como um dos t´opicos mais rele vantes dentre aqueles existentes na ´area de aprendizagem de m´aquina n˜ao supervisionada.
Embora o desenvolvimento e aprimoramento de algoritmos que tratam esse problema
tenham sido o principal foco de muitos pesquisadores, a compreens˜ao dos grupos (clusters)
´e t˜ao importante quanto sua forma¸c˜ao. Definir um grupo pode ajudar na sua compreens˜ao.
Por exemplo, ao se encontrar uma defini¸c˜ao para grupos consumidores ´e poss´ıvel saber
quais as principais diferen¸cas entre os grupos e tomar decis˜oes direcionadas para cada um
deles. Frente ao problema de encontrar defini¸c˜oes, tamb´em chamadas de r´otulos, capazes
de identificar cada grupo de forma f´acil, este trabalho descreve um modelo que elabora
r´otulos utilizando a teoria de conjuntos fuzzy para encontrar caracter´ısticas relevantes nos
elementos de cada grupo e modelar faixas de valores que identificam os grupos de forma
´unica. Para avaliar o desempenho, o modelo produziu r´otulos para grupos de trˆes bases
de dados e foi submetido a uma an´alise comparativa com um modelo de rotula¸c˜ao. Os
r´otulos produzidos conseguiram representar um grande n´umero de elementos, apresentando
assim um bom resultado. Na compara¸c˜ao, o modelo conseguiu produzir r´otulos mais
f´aceis de serem compreendidos. Os experimentos realizados demonstram que o modelo
proposto ´e capaz de construir r´otulos para a identifica¸c˜ao dos grupos, melhorando assim a
compreens˜ao dos grupos fornecidos. ABSTRACT:
The clustering of data has been regarded as one of the most relevant topics among
those existing in unsupervised machine learning area. Although the development and
improvement of algorithms that address this issue have been the main focus of many
researchers, understanding the clusters is as important as your training. Define a cluster
can help in your understanding, for example, to find a definition for consumer groups
is possible to know what the main differences between the cluster and make decisions
directed to each of them. Facing the problem of finding definitions also called labels, able
to identify each easily cluster, this paper describes a model that produces labels using the
theory fuzzy sets to find relevant characteristics of the elements of each cluster and model
ranges values that uniquely identify the clusters. To evaluate the performance of the model
produced labels for clusters of three databases and was subjected to a comparative analysis
with a labeling template. The labels produced managed to represent a large number of
elements, thus presenting a good result. In comparison, the model was able to produce
labels easier to be understood. The experiments demonstrate that the model is capable to
build labels for the identification of clusters, thereby enhancing the understanding of the
provided clusters.