Abstract:
RESUMO:As técnicas de agrupamento e classificação de dados são frequentemente utilizadas com a
finalidade de extrair padrões e classificar novos elementos, respectivamente. A combinação
de tais técnicas pode ser aplicada em bases de dados em que não se conhece o atributo
classe, utilizando a interpretação dos grupos obtidos no processo de agrupamento dos
dados para identificação de um padrão que auxilie o processo de classificação. Esta
interpretação, apesar de depender do problema abordado, requerendo por vezes o auxílio
de um especialista, pode ser desempenhada por modelos de rotulação automáticos. Esses
modelos são capazes de identificar características relevantes dos grupos e utilizá-las na
formação de rótulos. Além da interpretação dos grupos a adição de outra técnica para
classificação pode demandar mais tempo de processamento. Baseado em modelos de
rotulação automáticos e lógica Fuzzy, este trabalho propõe um modelo de classificação no
qual os rótulos dos grupos são utilizados para formação de regras e funções de pertinência
de um sistema Fuzzy. O modelo proposto foi avaliado comparando a acurácia, desvio
padrão, índice Kappa e tempo de treinamento com de outros algoritmos de classificação.
Além disso, foi analisado a quantidade de regras geradas. Para diferentes bases testadas
disponíveis no repositório UCI, os resultados para o índice Kappa foram acima de 0,8, com
acurácia e tempo de treinamento similares aos de algoritmos encontrados na literatura.
ABSTRACT:The techniques of clustering and classification are frequently used to obtain patterns
and classify new data. The combination of those techniques can be applied to problems
where there is no label, using the clustering process to extract information that will assist
the classification process. Usually, the clusters are analyzed by an expert to obtain that
information, but this process can also be done by automatic labeling models. Those are
models capable of identifying the most relevant characteristics of the clusters and use them
to create a label. In addition to the interpretation of the groups, the addition of another
technique to classify new elements can further increase the simulation time. Based on the
automatic labeling models and the fuzzy logic, this paper proposes a model of classification
that uses the clusters labels to compose rules and membership functions of a Fuzzy system.
The efficiency of the proposed model was evaluated by comparing the accuracy, standard
deviation, Kappa index and training time with other classification algorithms, as well
as individually analyzed the amount of rules generated by the algorithms. For different
databases available in the UCI repository, the results for the Kappa index were above 0.8,
with accuracy and training time similar to the algorithms found in the literature.