Repositório Institucional da UFPI

ROTULAÇÃO DE GRUPOS EM ALGORITMOS DE AGRUPAMENTO BASEADOS EM DISTÂNCIA UTILIZANDO GRAU DE PERTINÊNCIA

DSpace/Manakin Repository

Show simple item record

dc.contributor.author IMPERES FILHO, Francisco das Chagas
dc.date.accessioned 2018-07-09T18:29:47Z
dc.date.available 2018-07-09T18:29:47Z
dc.date.issued 2018-07-09
dc.identifier.uri http://hdl.handle.net/123456789/1334
dc.description Orientador: Prof. Dr. Vinicius Ponte Machado. Examinador interno: Prof. Dr. Kelson Rômulo Teixeira Aires. Examinador interno: Prof. Dr. Rodrigo de Melo Souza Veras. Examinador externo: Prof. Dr. Ricardo Augusto Souza Fernandes (UFCAR). pt_BR
dc.description.abstract RESUMO: O agrupamento de dados vem sendo considerado um item relevante na subárea de Aprendizagem de Máquina (AM), mais especificamente Aprendizagem de Máquina Não Supervisionada. Por esse motivo, nos últimos anos este tópico vem ganhando destaque no campo da Inteligência Artificial (IA). O problema relacionado ao agrupamento (clustering) é abordado com frequência em muitos trabalhos, e a compreensão dos grupos (clusters) é tão importante quanto a sua formação. Definir grupos pode auxiliar na interpretação e, consequentemente, direcionar esforços para tomada de decisão levando em consideração as peculiaridades de cada grupo formado. As interpretações dos grupos podem ser bastante úteis quando é necessário saber o que torna um elemento pertencente a um grupo, quais as principais características de um grupo, quais as diferenças e similaridades entre os grupos, entre outras situações. Devido à problemática relacionada a encontrar definições, ou rótulos, capazes de identificar facilmente os grupos formados, este trabalho descreve um modelo que elabora rótulos para encontrar características relevantes nos elementos de cada grupo e identificá-los de forma única. A proposta está dividida em duas partes. Na primeira o modelo transforma a saída padrão de um algoritmo de agrupamento não supervisionado baseado em distância em Grau de Pertinência (GP). Nessa etapa cada elemento da base de dados analisada recebe um GP em relação a cada grupo formado. Na segunda, os elementos com seus respectivos GPs são utilizados para formular faixas de valores para os rótulos. Estes, por sua vez, são capazes de identificar grupos de forma única em bases de dados bem difundidas na literatura. O método foi submetido a uma análise comparativa com outro modelo de rotulação que tem por objetivo identificar características únicas em grupos de dados, facilitando sua compreensão. Os rótulos produzidos pela proposta deste trabalho conseguiram representar um grande número de elementos de cada grupo, favorecendo seu entendimento. Na análise comparativa, o modelo conseguiu produzir rótulos atingindo média de percentual de acertos de 94, 66% nas bases de dados analisadas, permitindo uma fácil interpretação das definições geradas. Por fim, a proposta foi analisada utilizando outras bases de dados atingindo média de percentual de acertos de 92, 01%. Os experimentos realizados demonstram que o modelo proposto é capaz de construir rótulos para a identificação de grupos, melhorando a sua compreensão. ABSTRACT: Data grouping has been considered a relevant item in the Machine Learning (ML) subarea, more specifically Unsupervised Machine Learning. For this reason, in recent years this topic has been gaining prominence in the field of Artificial Intelligence (AI). Data grouping is frequently discussed in many papers, and to understand clusters is as important as to form them. Defining groups can assist in their interpretation and, consequently, in directing efforts to decision making, taking into account the peculiarities of each group. The interpretation of clusters can be very useful when it is necessary to know what makes an element belonging to a group, what are the main characteristics of a group, what are the differences and similarities between the groups, among other situations. Due to problems related to the finding of definitions, or labels, able to easily identify the groups, this work describes a model to find relevant characteristics in the elements of each group and to identify them uniquely. The proposal is divided in two steps. On the first step, the model transforms the standard output of an unsupervised clustering algorithm based in distance into a pertinence degree. In this step each element of the analyzed database receives a pertinence degree in relation to each formed group. In the second, the elements and their respective pertinence degrees are used to formulate ranges of values for the labels. These, in turn, are able to uniquely identify groups in databases well diffused in the literature. The method was submitted to a comparative analysis with another labeling model that aims to identify unique characteristics in data groups, facilitating their comprehension. The labels produced by the proposed model managed to represent a large number of elements in each group, favoring their understanding. In the comparative analysis, the model was able to produce labels in the analyzed databases at a success rate of 94.66%, allowing an easy interpretation of the generated definitions. Finally, the proposal was analyzed using other databases and reached a success rate of 92.01%. The experiments demonstrated that the proposed model is able to build labels for group identification, improving their understanding. pt_BR
dc.language.iso other pt_BR
dc.subject Rotulação de dados pt_BR
dc.subject Definição de dados pt_BR
dc.subject Agrupamento de dados pt_BR
dc.subject Aprendizagem de máquina pt_BR
dc.subject Data labeling pt_BR
dc.subject Data definition pt_BR
dc.subject Data grouping pt_BR
dc.subject Machine learning pt_BR
dc.title ROTULAÇÃO DE GRUPOS EM ALGORITMOS DE AGRUPAMENTO BASEADOS EM DISTÂNCIA UTILIZANDO GRAU DE PERTINÊNCIA pt_BR
dc.type Preprint pt_BR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account