Repositório Institucional da UFPI

ROTULAÇÃO AUTOMÁTICA DE GRUPOS ATRAVÉS DO USO DE FILTROS DE GANHO DE INFORMAÇÃO DE ATRIBUTOS

DSpace/Manakin Repository

Show simple item record

dc.contributor.author ALENCAR, Marina dos Reis Barros
dc.date.accessioned 2023-11-09T19:34:42Z
dc.date.available 2023-11-09T19:34:42Z
dc.date.issued 2023-11-09
dc.identifier.uri http://hdl.handle.net/123456789/3477
dc.description Orientador: Prof. Vinicius Ponte Machado Examinadora: Profa. Ticiana Linhares Coelho da Silva Examinador: Prof. Ricardo de Andrade Lira Rabêlo pt_BR
dc.description.abstract Resumo Identificar semelhanças nos dados que não foram rotulados, classificados ou categorizados é uma das funções do aprendizado não supervisionado. O agrupamento (do inglês clustering) é uma técnica que permite dividir automaticamente o conjunto de dados de acordo com uma similaridade. A grande vantagem do uso das técnicas de agrupamento é que, ao agrupar dados similares, pode-se descrever de forma mais eficiente e eficaz as características peculiares de cada um dos grupos identificados. Dessa forma, este trabalho tem como objetivo a interpretação desses grupos através de rótulos. O rótulo é um conjunto de valores relevantes que representam uma definição para um grupo. Esta abordagem utilizou técnicas com aprendizagem de máquina não supervisionada, aplicação dos filtros de ganho de informação através da seleção de atributos e um modelo de discretização. Na metodologia proposta foi aplicado o algoritmo não supervisionado para formação dos grupos e diferentes filtros de seleção de atributos para expor a relevância dos atributos e comparar o funcionamento deles. Também, para contribuir no processo de rotulação foi utilizado um método de discretização auxiliando no cálculo da variação de valores dos dados. O modelo proposto foi aplicado na rotulação das bases de dados disponíveis no repositório UCI, sendo elas, Íris, Seeds, Wine e Glass. Obtendo-se uma taxa de acerto média de 83.66% com desvio padrão médio de 4.98. Abstract Identifying similarities in data that has not been labeled, classified, or categorized is one of the functions of unsupervised learning. Clustering is a technique that allows you to automatically divide the data set according to similarity. The great advantage of using clustering techniques is that, by grouping similar data, it is possible to describe in a more efficient and effective way the peculiar characteristics of each of the identified groups. Thus, this work aims to interpret these groups through labels. The label is a set of relevant values that represent a definition for a group. This approach used techniques with unsupervised machine learning, application of information gain filters through the selection of attributes and a discretization model. In the proposed methodology, the unsupervised algorithm was applied to form the groups and different attribute selection filters to expose the relevance of the attributes and compare their functioning. Also, to contribute to the labeling process, a discretization method was used, helping to calculate the variation of data values. The proposed model was applied in the labeling of the databases available in the UCI repository, namely, Iris, Seeds, Wine and Glass. Obtaining an average hit rate of 83.66% with an average standard deviation of 4.98. pt_BR
dc.description.sponsorship Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES pt_BR
dc.language.iso other pt_BR
dc.subject Sistema operacional - Computação pt_BR
dc.subject Agrupamento de dados pt_BR
dc.subject Rotulação de dados pt_BR
dc.subject Aprendizagem de máquina pt_BR
dc.subject Agrupamento de dados pt_BR
dc.subject Rotulação de dados pt_BR
dc.subject Machine learning pt_BR
dc.subject Grouping pt_BR
dc.subject Lettering pt_BR
dc.title ROTULAÇÃO AUTOMÁTICA DE GRUPOS ATRAVÉS DO USO DE FILTROS DE GANHO DE INFORMAÇÃO DE ATRIBUTOS pt_BR
dc.type Preprint pt_BR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account