Abstract:
RESUMO: O agrupamento de dados vem sendo considerado um item relevante na subárea de Aprendizagem de Máquina (AM), mais especificamente Aprendizagem de Máquina Não Supervisionada. Por esse motivo, nos últimos anos este tópico vem ganhando destaque no campo da Inteligência Artificial (IA). O problema relacionado ao agrupamento (clustering) é abordado com frequência em muitos trabalhos, e a compreensão dos grupos (clusters) é tão importante quanto a sua formação. Definir grupos pode auxiliar na interpretação e, consequentemente, direcionar esforços para tomada de decisão levando em consideração as peculiaridades de cada grupo formado. As interpretações dos grupos podem ser bastante úteis quando é necessário saber o que torna um elemento pertencente a um grupo, quais as principais características de um grupo, quais as diferenças e similaridades entre os grupos, entre outras situações. Devido à problemática relacionada a encontrar definições, ou rótulos, capazes de identificar facilmente os grupos formados, este trabalho descreve um modelo que elabora rótulos para encontrar características relevantes nos elementos de cada grupo e identificá-los de forma única. A proposta está dividida em duas partes. Na primeira o modelo transforma a saída padrão de um algoritmo de agrupamento não supervisionado baseado em distância em Grau de Pertinência (GP). Nessa etapa cada elemento da base de dados analisada recebe um GP em relação a cada grupo formado. Na segunda, os elementos com seus respectivos GPs são utilizados para formular faixas de valores para os rótulos. Estes, por sua vez, são capazes de identificar grupos de forma única em bases de dados bem difundidas na literatura. O método foi submetido a uma análise comparativa com outro modelo de rotulação que tem por objetivo identificar características únicas em grupos de dados, facilitando sua compreensão. Os rótulos produzidos pela proposta deste trabalho conseguiram representar um grande número de elementos de cada grupo, favorecendo seu entendimento. Na análise comparativa, o modelo conseguiu produzir rótulos atingindo média de percentual de acertos de 94, 66% nas bases de dados analisadas, permitindo uma fácil interpretação das definições geradas. Por fim, a proposta foi analisada utilizando outras bases de dados atingindo média de percentual de acertos de 92, 01%. Os experimentos realizados demonstram que o modelo proposto é capaz de construir rótulos para a identificação de grupos, melhorando a sua compreensão. ABSTRACT: Data grouping has been considered a relevant item in the Machine Learning (ML) subarea, more specifically Unsupervised Machine Learning. For this reason, in recent years this topic has been gaining prominence in the field of Artificial Intelligence (AI). Data grouping is frequently discussed in many papers, and to understand clusters is as important as to form them. Defining groups can assist in their interpretation and, consequently, in directing efforts to decision making, taking into account the peculiarities of each group. The interpretation of clusters can be very useful when it is necessary to know what makes an element belonging to a group, what are the main characteristics of a group, what are the differences and similarities between the groups, among other situations. Due to problems related to the finding of definitions, or labels, able to easily identify the groups, this work describes a model to find relevant characteristics in the elements of each group and to identify them uniquely. The proposal is divided in two steps. On the first step, the model transforms the standard output of an unsupervised clustering algorithm based in distance
into a pertinence degree. In this step each element of the analyzed database receives a pertinence degree in relation to each formed group. In the second, the elements and their respective pertinence degrees are used to formulate ranges of values for the labels. These, in turn, are able to uniquely identify groups in databases well diffused in the literature. The method was submitted to a comparative analysis with another labeling model that aims to identify unique characteristics in data groups, facilitating their comprehension. The labels produced by the proposed model managed to represent a large number of elements in each group, favoring their understanding. In the comparative analysis, the model was able to produce labels in the analyzed databases at a success rate of 94.66%, allowing an easy interpretation of the generated definitions. Finally, the proposal was analyzed using other databases and reached a success rate of 92.01%. The experiments demonstrated that the proposed model is able to build labels for group identification, improving their understanding.