Abstract:
RESUMO: O agrupamento (clusterização) é uma das principais técnicas de reconhecimento de padrões. Essa técnica consiste em identificar grupos (clusters) de elementos em um determinado conjunto de dados, levando em consideração métricas que permitam determinar a semelhança entre eles. Os elementos presentes nesses conjuntos de dados (data sets) frequentemente são descritos por meio de atributos, os quais podem assumir valores de diversos tipos, exigindo métodos eficientes na tarefa de detectar correlações entre dados de tipos complexos (ou mistos). No entanto, o processo de clusterização não fornece informações claras que permitam inferir as características de cada cluster formado, ou seja, o resultado do processo de clusterização não permite que os clusters tenham seu significado facilmente compreendido. A rotulação de dados visa identificar essas características e permitir então que se tenha a plena compreensão dos clusters resultantes. Neste trabalho propõe-se a utilização em conjunto de métodos de Aprendizagem de Máquina não supervisionada e supervisionada para as tarefas de agrupamento e rotulação de dados, respectivamente. Os algoritmos DAMICORE e sua nova versão, o DAMICORE-2 (ambos reconhecidamente eficientes) foram utilizados para detectar clusters que posteriormente foram submetidos ao Método de Rotulação Automática de clusters (MRA), obtendo taxas de acerto média, entre todos os conjuntos de dados, de 86,75%. ABRSTRACT: Clustering is one of the main techniques of pattern recognition. This technique consists of organizing the elements of a given set into groups (clusters) taking into account some metric that allows to determine the similarity in them. These datasets often describe the elements that compose them by means of attributes that can take values of several types, requiring efficient methods in the task of detectiong correlations between complex (or mixed) type data. However, the clustering process does not provide clear information to infer the characteristics of each clusters formed, ie, the result of the clustering process does not allow clusters to have their meaning easily understood. Data labeling aims at identifying these characteristics and then allowing full understanding of the resulting clusters. In this work we propose the joint use of unsupervised and supervised Machine Learning methods for data grouping and labeling tasks, respectively. For that, we used well-known algorithms. The DAMICORE algorithms and their new version, DAMICORE-2, were used to form clusters that were later submitted to the Automatic Labeling Method (ALM), obtaining average hit rates that reached 86.75%.