ROTULAÇÃO AUTOMÁTICA DE GRUPOS ATRAVÉS DO USO DE FILTROS DE GANHO DE INFORMAÇÃO DE ATRIBUTOS

dc.contributor.author	ALENCAR, Marina dos Reis Barros
dc.date.accessioned	2023-11-09T19:34:42Z
dc.date.available	2023-11-09T19:34:42Z
dc.date.issued	2023-11-09
dc.identifier.uri	http://hdl.handle.net/123456789/3477
dc.description	Orientador: Prof. Vinicius Ponte Machado Examinadora: Profa. Ticiana Linhares Coelho da Silva Examinador: Prof. Ricardo de Andrade Lira Rabêlo	pt_BR
dc.description.abstract	Resumo Identificar semelhanças nos dados que não foram rotulados, classificados ou categorizados é uma das funções do aprendizado não supervisionado. O agrupamento (do inglês clustering) é uma técnica que permite dividir automaticamente o conjunto de dados de acordo com uma similaridade. A grande vantagem do uso das técnicas de agrupamento é que, ao agrupar dados similares, pode-se descrever de forma mais eficiente e eficaz as características peculiares de cada um dos grupos identificados. Dessa forma, este trabalho tem como objetivo a interpretação desses grupos através de rótulos. O rótulo é um conjunto de valores relevantes que representam uma definição para um grupo. Esta abordagem utilizou técnicas com aprendizagem de máquina não supervisionada, aplicação dos filtros de ganho de informação através da seleção de atributos e um modelo de discretização. Na metodologia proposta foi aplicado o algoritmo não supervisionado para formação dos grupos e diferentes filtros de seleção de atributos para expor a relevância dos atributos e comparar o funcionamento deles. Também, para contribuir no processo de rotulação foi utilizado um método de discretização auxiliando no cálculo da variação de valores dos dados. O modelo proposto foi aplicado na rotulação das bases de dados disponíveis no repositório UCI, sendo elas, Íris, Seeds, Wine e Glass. Obtendo-se uma taxa de acerto média de 83.66% com desvio padrão médio de 4.98. Abstract Identifying similarities in data that has not been labeled, classified, or categorized is one of the functions of unsupervised learning. Clustering is a technique that allows you to automatically divide the data set according to similarity. The great advantage of using clustering techniques is that, by grouping similar data, it is possible to describe in a more efficient and effective way the peculiar characteristics of each of the identified groups. Thus, this work aims to interpret these groups through labels. The label is a set of relevant values that represent a definition for a group. This approach used techniques with unsupervised machine learning, application of information gain filters through the selection of attributes and a discretization model. In the proposed methodology, the unsupervised algorithm was applied to form the groups and different attribute selection filters to expose the relevance of the attributes and compare their functioning. Also, to contribute to the labeling process, a discretization method was used, helping to calculate the variation of data values. The proposed model was applied in the labeling of the databases available in the UCI repository, namely, Iris, Seeds, Wine and Glass. Obtaining an average hit rate of 83.66% with an average standard deviation of 4.98.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	pt_BR
dc.language.iso	other	pt_BR
dc.subject	Sistema operacional - Computação	pt_BR
dc.subject	Agrupamento de dados	pt_BR
dc.subject	Rotulação de dados	pt_BR
dc.subject	Aprendizagem de máquina	pt_BR
dc.subject	Agrupamento de dados	pt_BR
dc.subject	Rotulação de dados	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Grouping	pt_BR
dc.subject	Lettering	pt_BR
dc.title	ROTULAÇÃO AUTOMÁTICA DE GRUPOS ATRAVÉS DO USO DE FILTROS DE GANHO DE INFORMAÇÃO DE ATRIBUTOS	pt_BR
dc.type	Preprint	pt_BR