Abstract:
Resumo
O aprendizado de máquina é uma técnica relevante de reconhecimento de padrões por
meio da detecção de conexões entre os dados. Em se tratando de aprendizado não
supervisionado, os grupos formados a partir dessas conexões podem receber um rótulo,
que consiste em descrevê-los em termos de seus atributos mais relevantes e suas
respectivas faixas de valores para que sejam compreendidos automaticamente. Nesse
trabalho de pesquisa, esse processo é intitulado de rotulação. Entretanto, um desafio para
os pesquisadores é estabelecer o número ótimo de grupos que melhor representa a
estrutura subjacente dos dados submetida ao agrupamento. Esse número ótimo pode
variar dependendo do conjunto de dados e do método de agrupamento utilizado e
influencia no processo de clusterização dos dados e consequentemente na interpretação
dos grupos gerados. Portanto, essa pesquisa tem o intuito de fornecer uma abordagem de
interpretação de grupos a partir de critério de inferência da quantidade ótima de clusters a
ser utilizada no agrupamento, com base em faixa de valores dos atributos, seguida de
uma rotulação automática de dados baseada em métrica de dispersão para maximizar a
compreensão dos grupos obtidos. Essa metodologia foi aplicada a sete bases de dados e
os resultados mostram que ela contribui para a interpretação dos grupos, uma vez que
gera rótulos mais confiáveis. Abstract
Machine learning is a relevant pattern recognition technique that detects connections
between data. When it comes to unsupervised learning, the groups formed from these
connections can receive a label, describing them in terms of their most relevant attributes
and their respective ranges of values so that they are automatically understood. In this
research work, this process is called labeling. However, a challenge for researchers is
establishing the optimal number of groups that best represent the underlying structure of
the data subjected to clustering. This optimal number may vary depending on the data set
and the grouping method used and influences the data clustering process and the
interpretation of the generated groups. Therefore, this research aims to provide an
approach to interpreting groups based on criteria for inferring the optimal number of
clusters to be used in the grouping, based on a range of attribute values, followed by
automatic labeling data according to dispersion metric to maximize the understanding of
the groups obtained. This methodology was applied to seven databases, and the results
show that it contributes to the interpretation of groups by generating more reliable labels.
Description:
Autora: Aline Montenegro Leal Silva; Prof. Orientador: Dr. André Macedo Santana -Universidade Federal do Piauí; Coorientador: Prof. Dr. Vinícius Ponte Machado -Universidade Federal do Piauí; Examinador Interno: Prof. Dr. Ricardo de Andrade Lira Rabêlo - Universidade Federal do Piauí; Examinador Interno: Prof. Dr. Kelson Rômulo Teixeira Aires - Universidade Federal do Piauí; Examinador Externo: Prof. Dr. Ricardo Augusto Souza Fernandes - Universidade Federal de São Carlos; Examinador Externo: Prof. Dr. Ivanovitch Medeiros Dantas da Silva - Universidade Federal do Rio Grande do Norte; Examinador Externo: Prof. Dr. Ariel Soares Teles - Instituto Federal do Maranhão.