Repositório Institucional da UFPI

INTERPRETAÇÃO DE GRUPOS A PARTIR DE MÉTODO DE INFERÊNCIA DA QUANTIDADE ÓTIMA DE CLUSTERS BASEADO EM FAIXA DE VALORES DOS ATRIBUTOS COM POSTERIOR ROTULAÇÃO AUTOMÁTICA DE DADOS

DSpace/Manakin Repository

Show simple item record

dc.contributor.author SILVA, Aline Montenegro Leal
dc.date.accessioned 2025-05-15T20:14:08Z
dc.date.available 2025-05-15T20:14:08Z
dc.date.issued 2025-05-15
dc.identifier.uri http://hdl.handle.net/123456789/3851
dc.description Autora: Aline Montenegro Leal Silva; Prof. Orientador: Dr. André Macedo Santana -Universidade Federal do Piauí; Coorientador: Prof. Dr. Vinícius Ponte Machado -Universidade Federal do Piauí; Examinador Interno: Prof. Dr. Ricardo de Andrade Lira Rabêlo - Universidade Federal do Piauí; Examinador Interno: Prof. Dr. Kelson Rômulo Teixeira Aires - Universidade Federal do Piauí; Examinador Externo: Prof. Dr. Ricardo Augusto Souza Fernandes - Universidade Federal de São Carlos; Examinador Externo: Prof. Dr. Ivanovitch Medeiros Dantas da Silva - Universidade Federal do Rio Grande do Norte; Examinador Externo: Prof. Dr. Ariel Soares Teles - Instituto Federal do Maranhão. pt_BR
dc.description.abstract Resumo O aprendizado de máquina é uma técnica relevante de reconhecimento de padrões por meio da detecção de conexões entre os dados. Em se tratando de aprendizado não supervisionado, os grupos formados a partir dessas conexões podem receber um rótulo, que consiste em descrevê-los em termos de seus atributos mais relevantes e suas respectivas faixas de valores para que sejam compreendidos automaticamente. Nesse trabalho de pesquisa, esse processo é intitulado de rotulação. Entretanto, um desafio para os pesquisadores é estabelecer o número ótimo de grupos que melhor representa a estrutura subjacente dos dados submetida ao agrupamento. Esse número ótimo pode variar dependendo do conjunto de dados e do método de agrupamento utilizado e influencia no processo de clusterização dos dados e consequentemente na interpretação dos grupos gerados. Portanto, essa pesquisa tem o intuito de fornecer uma abordagem de interpretação de grupos a partir de critério de inferência da quantidade ótima de clusters a ser utilizada no agrupamento, com base em faixa de valores dos atributos, seguida de uma rotulação automática de dados baseada em métrica de dispersão para maximizar a compreensão dos grupos obtidos. Essa metodologia foi aplicada a sete bases de dados e os resultados mostram que ela contribui para a interpretação dos grupos, uma vez que gera rótulos mais confiáveis. Abstract Machine learning is a relevant pattern recognition technique that detects connections between data. When it comes to unsupervised learning, the groups formed from these connections can receive a label, describing them in terms of their most relevant attributes and their respective ranges of values so that they are automatically understood. In this research work, this process is called labeling. However, a challenge for researchers is establishing the optimal number of groups that best represent the underlying structure of the data subjected to clustering. This optimal number may vary depending on the data set and the grouping method used and influences the data clustering process and the interpretation of the generated groups. Therefore, this research aims to provide an approach to interpreting groups based on criteria for inferring the optimal number of clusters to be used in the grouping, based on a range of attribute values, followed by automatic labeling data according to dispersion metric to maximize the understanding of the groups obtained. This methodology was applied to seven databases, and the results show that it contributes to the interpretation of groups by generating more reliable labels. pt_BR
dc.language.iso other pt_BR
dc.subject interpretação de grupos pt_BR
dc.subject Quantidade ótima de clusters pt_BR
dc.subject Rotulação automática de dados pt_BR
dc.subject Métrica de dispersão pt_BR
dc.title INTERPRETAÇÃO DE GRUPOS A PARTIR DE MÉTODO DE INFERÊNCIA DA QUANTIDADE ÓTIMA DE CLUSTERS BASEADO EM FAIXA DE VALORES DOS ATRIBUTOS COM POSTERIOR ROTULAÇÃO AUTOMÁTICA DE DADOS pt_BR
dc.type Preprint pt_BR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account