Abstract:
Resumo
Identificar semelhanças nos dados que não foram rotulados, classificados ou categorizados é
uma das funções do aprendizado não supervisionado. O agrupamento (do inglês clustering)
é uma técnica que permite dividir automaticamente o conjunto de dados de acordo com
uma similaridade. A grande vantagem do uso das técnicas de agrupamento é que, ao
agrupar dados similares, pode-se descrever de forma mais eficiente e eficaz as características
peculiares de cada um dos grupos identificados. Dessa forma, este trabalho tem como
objetivo a interpretação desses grupos através de rótulos. O rótulo é um conjunto de
valores relevantes que representam uma definição para um grupo. Esta abordagem utilizou
técnicas com aprendizagem de máquina não supervisionada, aplicação dos filtros de
ganho de informação através da seleção de atributos e um modelo de discretização. Na
metodologia proposta foi aplicado o algoritmo não supervisionado para formação dos
grupos e diferentes filtros de seleção de atributos para expor a relevância dos atributos e
comparar o funcionamento deles. Também, para contribuir no processo de rotulação foi
utilizado um método de discretização auxiliando no cálculo da variação de valores dos
dados. O modelo proposto foi aplicado na rotulação das bases de dados disponíveis no
repositório UCI, sendo elas, Íris, Seeds, Wine e Glass. Obtendo-se uma taxa de acerto
média de 83.66% com desvio padrão médio de 4.98.
Abstract
Identifying similarities in data that has not been labeled, classified, or categorized is one
of the functions of unsupervised learning. Clustering is a technique that allows you to
automatically divide the data set according to similarity. The great advantage of using
clustering techniques is that, by grouping similar data, it is possible to describe in a more
efficient and effective way the peculiar characteristics of each of the identified groups. Thus,
this work aims to interpret these groups through labels. The label is a set of relevant values
that represent a definition for a group. This approach used techniques with unsupervised
machine learning, application of information gain filters through the selection of attributes
and a discretization model. In the proposed methodology, the unsupervised algorithm was
applied to form the groups and different attribute selection filters to expose the relevance
of the attributes and compare their functioning. Also, to contribute to the labeling process,
a discretization method was used, helping to calculate the variation of data values. The
proposed model was applied in the labeling of the databases available in the UCI repository,
namely, Iris, Seeds, Wine and Glass. Obtaining an average hit rate of 83.66% with an
average standard deviation of 4.98.