Abstract:
Resumo
Com o aumento no volume de dados gerados pelos sistemas de informação educacionais, a
Mineração de Dados se tornou uma abordagem promissora de investigação sobre impor-
tantes causas educacionais, como a evasão nos mais diversos níveis de ensino, em especial
o ensino superior. Mais de 2,3 milhões de alunos aptos a matricular-se em disciplinas em
2021 abandonaram o ensino superior, de acordo com o censo mais recente da educação
superior, resultando em um prejuízo financeiro superior a R$ 23 bilhões. Neste estudo de
Mineração de Dados Educacionais (MDE), desenvolvemos modelos de classificação com
aprendizado supervisionado e cinco abordagens com métodos Ensembles aplicadas a dados
reais coletados de uma Instituição Federal de Ensino Superior. No primeiro cenário, criamos
modelos do tipo Bagging utilizando a estratégia de Janelas Semestrais na construção
dos conjuntos de dados envolvidos. No segundo cenário, além da abordagem de Janelas
Semestrais (Nível Período), criamos conjuntos de dados em outros dois níveis adicionais
(Curso e Instituição) e combinamos os modelos gerados (cada um associado a um conjunto
de dados de nível distinto) por meio de técnicas de Ensemble Stacking. A combinação das
abordagens formando modelos Stacking com as predições dos modelos Bagging resultou
em um maior nível de robustez e na maximização dos resultados (mensurados por Acurácia
e MCC) mesmo com o uso de um único algoritmo por modelo, ao explorar a diversidade
nos diferentes níveis de dados.Abstract
With the increasing volume of data generated by educational information systems, Data
Mining has become a promising approach to investigate important educational issues, such
as dropout rates across various educational levels, particularly in higher education. Over
2.3 million eligible students dropped out of higher education in 2021, according to the latest
census on higher education, resulting in a financial loss exceeding R$ 23 billion. In this study
of Educational Data Mining (EDM), we developed classification models using supervised
learning and five approaches with Ensemble methods applied to real data collected from a
Federal Higher Education Institution. In the first scenario, we created Bagging models
using the Academic Periods strategy in building the datasets involved. In the second
scenario, in addition to the Academic Periods approach (Period Level), we created datasets
at two additional levels (Course and Institution) and combined the generated models
(each associated with a dataset of a distinct level) through Stacking Ensemble techniques.
Combining the approaches to form Stacking models with the predictions of Bagging models
resulted in a higher level of robustness and maximization of results (measured by Accuracy
and MCC) even with the use of a single algorithm per model, by exploring diversity across
different data levels.
Description:
Autor(a): Maurílio Lacerda Leonel Júnior; Orientador(a): André Macedo Santana
Instituição: Universidade Federal do Piauí; Membro da banca: Ialis Cavalcante de Paula Junior Instituição: Universidade Federal do Ceará; Membro da banca: Raimundo Santos Moura
Instituição: Universidade Federal do Piauí; Membro da banca: Vinícius Ponte Machado
Instituição: Universidade Federal do Piauí.