Abstract:
RESUMO: O câncer do colo do útero permanece um grande desafio global de saúde pública, es-
pecialmente em países de baixa e média renda, nos quais triagens ineficazes impactam
índices de morbidade e mortalidade. Esta dissertação investiga abordagens computacionais
inovadoras para a classificação automática de células cervicais, explorando o aprendizado
em ensemble que combina arquiteturas de redes neurais profundas de última geração:
EfficientViT, EVA-02 e EdgeNeXt. Foram conduzidos experimentos extensivos utilizando
dois conjuntos de dados públicos, Herlev (917 imagens) e SIPaKMeD (4.049 imagens), em
cenários de classificação binária e multiclasse. A metodologia proposta utiliza técnicas de
aumento de dados, aprendizado por transferência e procedimentos robustos de validação
cruzada com 5 folds, além de validação holdout para comparação com a literatura. A
análise estatística, utilizando o teste de Wilcoxon, confirma a superioridade e relevância
estatística do ensemble em relação aos modelos individuais. O ensemble atingiu desempe-
nho estado da arte, com acurácias de 98,35% (binário) e 83,40% (7 classes) no Herlev, e
99,73% (binário), 98,96% (3 classes) e 98,08% (5 classes) no SIPaKMeD. Estes resultados
evidenciam a eficácia da fusão de modelos com vieses indutivos distintos e destacam o
potencial de redução do esforço do especialista e da análise manual de células na prática
clínica. Em suma, este trabalho contribui metodologicamente com uma abordagem de
ensemble inovadora que integra arquiteturas convolutionais e baseadas em ViT, ao fornecer
benchmarks validados e resultados em dados públicos, abrindo caminho para soluções de
triagem apoiadas por IA mais robustas e acessíveis na prevenção do câncer cervical.
ABSTRACT: Cervical cancer remains a major global public health challenge, particularly in low- and
middle-income countries, where ineffective screening impacts morbidity and mortality rates.
This dissertation investigates novel computational approaches for the automatic classifica-
tion of cervical cells by leveraging ensemble learning that combines state-of-the-art deep
neural network architectures: EfficientViT, EVA-02, and EdgeNeXt. Extensive experiments
were conducted using two public datasets, Herlev (917 images) and SIPaKMeD (4,049
images), across binary and multiclass classification scenarios. The proposed methodology
utilizes data augmentation techniques, transfer learning, and robust 5-fold cross-validation
procedures, along with holdout validation for literature comparison. Statistical analysis
employing the Wilcoxon signed-rank test confirms the superiority and statistical rele-
vance of the ensemble over individual models. The ensemble achieved state-of-the-art
performance, with accuracies of 98.35% (binary) and 83.40% (7 classes) on Herlev, and
99.73% (binary), 98.96% (3 classes), and 98.08% (5 classes) on SIPaKMeD. These results
demonstrate the efficacy of model fusion with distinct inductive biases and highlight
the potential for reducing expert workload and manual cell analysis in clinical practice.
In summary, this work contributes both methodologically with an innovative ensemble
approach that integrates convolutional and transformer based architectures, by providing
validated benchmarks and public dataset results, paving the way for more robust and
accessible AI-based screening solutions in cervical cancer prevention.