Abstract:
Resumo
O volume exponencial de dados impulsiona o crescimento da análise de dados. O agru-
pamento de dados é uma técnica importante, mas a interpretação dos grupos pode ser
desafiadora. A rotulação automática de grupos com árvores de decisão pode ajudar a
resolver este problema. Afim de se validar este modelo de rotulação automática de grupos
com uso de árvores de decisão este trabalho apresenta uma comparação entre quatro
algoritmos de árvore de decisão no contexto da rotulação automática de grupos. Inicial-
mente, destaca-se a importância dos modelos de rotulação de grupos como ferramentas
para auxiliar especialistas na interpretação de dados, fornecendo uma definição concisa
das principais características dos grupos. A escolha do algoritmo de árvore de decisão
impacta significativamente na performance do modelo, conforme demonstrado em um
estudo comparativo utilizando os algoritmos ID3, C4.5, CART e CHAID. Os resultados
revelaram que o algoritmo CHAID obteve os melhores resultados nas bases Íris e Sementes,
enquanto o algoritmo C4.5 foi mais eficaz nas bases Vinho e Vidros. As taxas de concor-
dância do algoritmo de melhor desempenho em cada base se aproximaram ou superaram a
média encontrada na literatura. A validade do modelo de rotulação automática de grupos
foi confirmada, destacando a importância da escolha criteriosa do algoritmo de árvore
de decisão.Os resultados deste estudo ressaltam o potencial dos modelos de rotulação
automática de grupos e a relevância da seleção adequada do algoritmo de árvore de decisão.
Pesquisas futuras são essenciais para aprimorar o modelo e expandir suas aplicações,
contribuindo para diversos campos, como descoberta de padrões em bancos de dados,
identificação de grupos em estudos de bioinformática e segmentação de mercado-alvo com
necessidades semelhantes.Abstract
The exponential volume of data drives the growth of data analytics. Data clustering
is an important technique, but interpreting the clusters can be challenging. Automatic
group labeling with decision trees can help solve this problem. In order to validate this
model of automatic group labeling using decision trees, this work presents a comparison
between four decision tree algorithms in the context of automatic group labeling. Initially,
the importance of group labeling models is highlighted as tools to assist experts in
data interpretation, providing a concise definition of the main characteristics of groups.
The choice of decision tree algorithm significantly impacts the model’s performance, as
demonstrated in a comparative study using the ID3, C4.5, CART and CHAID algorithms.
The results revealed that the CHAID algorithm obtained the best results in the Iris and
Seeds bases, while the C4.5 algorithm was more effective in the Wine and Glass bases. The
agreement rates of the best performing algorithm in each database approached or exceeded
the average found in the literature. The validity of the automatic group labeling model was
confirmed, highlighting the importance of judicious choice of the decision tree algorithm.
The results of this study highlight the potential of automatic group labeling models and the
relevance of appropriate selection of the decision tree algorithm. decision. Future research
is essential to improve the model and expand its applications, contributing to diverse fields,
such as discovering patterns in databases, identifying groups in bioinformatics studies, and
segmenting target markets with similar needs.