ROTULAÇÃO AUTOMÁTICA DE CLUSTERS BASEADOS EM ANÁLISE DE FILOGENIAS

dc.contributor.author	ARAÚJO, Francisco Neto Carvalho de
dc.date.accessioned	2018-07-30T16:54:44Z
dc.date.available	2018-07-30T16:54:44Z
dc.date.issued	2018-07-30
dc.identifier.uri	http://hdl.handle.net/123456789/1502
dc.description	Orientador: Prof. Dr. Vinicius Ponte Machado. Coorientador: Prof. Dr. Antonio Helson Mineiro Soares. Examinador interno: Prof. Dr. Laurindo de Sousa Britto Neto. Examinador interno: Prof. Dr. Ricardo de Andrade Lira Rabêlo. Examinador externo: Prof. Dr. Alexandre Cláudio Botazzo Delbem (USP).	pt_BR
dc.description.abstract	RESUMO: O agrupamento (clusterização) é uma das principais técnicas de reconhecimento de padrões. Essa técnica consiste em identificar grupos (clusters) de elementos em um determinado conjunto de dados, levando em consideração métricas que permitam determinar a semelhança entre eles. Os elementos presentes nesses conjuntos de dados (data sets) frequentemente são descritos por meio de atributos, os quais podem assumir valores de diversos tipos, exigindo métodos eficientes na tarefa de detectar correlações entre dados de tipos complexos (ou mistos). No entanto, o processo de clusterização não fornece informações claras que permitam inferir as características de cada cluster formado, ou seja, o resultado do processo de clusterização não permite que os clusters tenham seu significado facilmente compreendido. A rotulação de dados visa identificar essas características e permitir então que se tenha a plena compreensão dos clusters resultantes. Neste trabalho propõe-se a utilização em conjunto de métodos de Aprendizagem de Máquina não supervisionada e supervisionada para as tarefas de agrupamento e rotulação de dados, respectivamente. Os algoritmos DAMICORE e sua nova versão, o DAMICORE-2 (ambos reconhecidamente eficientes) foram utilizados para detectar clusters que posteriormente foram submetidos ao Método de Rotulação Automática de clusters (MRA), obtendo taxas de acerto média, entre todos os conjuntos de dados, de 86,75%. ABRSTRACT: Clustering is one of the main techniques of pattern recognition. This technique consists of organizing the elements of a given set into groups (clusters) taking into account some metric that allows to determine the similarity in them. These datasets often describe the elements that compose them by means of attributes that can take values of several types, requiring efficient methods in the task of detectiong correlations between complex (or mixed) type data. However, the clustering process does not provide clear information to infer the characteristics of each clusters formed, ie, the result of the clustering process does not allow clusters to have their meaning easily understood. Data labeling aims at identifying these characteristics and then allowing full understanding of the resulting clusters. In this work we propose the joint use of unsupervised and supervised Machine Learning methods for data grouping and labeling tasks, respectively. For that, we used well-known algorithms. The DAMICORE algorithms and their new version, DAMICORE-2, were used to form clusters that were later submitted to the Automatic Labeling Method (ALM), obtaining average hit rates that reached 86.75%.	pt_BR
dc.description.sponsorship	CAPES	pt_BR
dc.language.iso	other	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Clustering	pt_BR
dc.subject	Pattern recognition	pt_BR
dc.subject	Aprendizagem de máquina	pt_BR
dc.subject	Agrupamento	pt_BR
dc.subject	Rotulação automática	pt_BR
dc.title	ROTULAÇÃO AUTOMÁTICA DE CLUSTERS BASEADOS EM ANÁLISE DE FILOGENIAS	pt_BR
dc.type	Preprint	pt_BR