Repositório Institucional da UFPI

DETECÇÃO DE CORRELAÇÕES ESPÚRIAS COM INTELIGÊNCIA ARTIFICIAL EXPLICÁVEL

DSpace/Manakin Repository

Show simple item record

dc.contributor.author SOARES, Hélcio de Abreu
dc.date.accessioned 2025-11-27T18:25:13Z
dc.date.available 2025-11-27T18:25:13Z
dc.date.issued 2025-11-27
dc.identifier.uri http://hdl.handle.net/123456789/4111
dc.description Orientador: Prof. Dr. Rodrigo de Melo Souza Veras Co-orientador: Prof. Dr. Anselmo Cardoso de Paiva - UFMA Examinador externo: Prof. Dr. Ajalmar Rego da Rocha Neto - IFC Examinador externo: Prof. Dr. Gustavo Paiva Guedes e Silva - CEFET/RJ Examinador interno: Prof. Dr. Vinícius Ponte Machado pt_BR
dc.description.abstract RESUMO: Apesar dos avanços em Inteligência Artificial (IA), modelos de Machine Learning e Deep Learning ainda carecem de transparência e explicabilidade, sendo tratados como “caixas-pretas”. Este trabalho aborda o problema das correlações espúrias — associações entre padrões e classes sem relação causal — que, em tarefas de classificação binária em Processamento de Linguagem Natural (PLN), comprometem a precisão, a imparcialidade e a generalização dos modelos. Propomos um método que combina técnicas de Inteligência Artificial Explicável (XAI) e aprendizado não supervisionado para identificar e graduar padrões espúrios. Utilizando o algoritmo K-means, os padrões são agrupados e analisados pela distância aos centroides, sob a hipótese de que distâncias maiores indicam maior grau de espuriedade. A abordagem considera a influência desses padrões sobre explicadores e sua associação com erros de previsão. A metodologia é aplicada a dados de licitações e contratos do Tribunal de Contas do Estado do Piauí (TCE-PI), usando modelos baseados em Support Vector Machine (SVM), Logistic Regression (LR) com representações textuais TF-IDF e Word Embeddings, e o modelo BERTimbau, como codificador e classificador com embeddings contextuais dinâmicos. Aplicamos também o método ao IMDB para avaliar generalização e compará-lo com métodos de referências. Os resultados confirmam a hipótese e mostram consistência entre modelos e bases. As principais contribuições incluem: (i) método agnóstico a modelos e explicadores; (ii) detecção automática de padrões espúrios; (iii) uma métrica de espuriedade baseada na distância ao centroide; e (iv) organização lógica e interpretável dos padrões, ampliando a compreensão dos modelos e apoiando a mitigação de padrões espúrios. ABSTRACT: Despite advances in Artificial Intelligence (AI), Machine Learning and Deep Learning models still lack transparency and explainability, often being regarded as “black boxes.” This dissertation addresses the issue of spurious correlations—associations between patterns and classes that lack causal relationships—which, in binary classification tasks in Natural Language Processing (NLP), undermine model accuracy, fairness, and generalization. We propose a method that combines Explainable Artificial Intelligence (XAI) techniques with unsupervised learning to identify and rank spurious patterns. Using the K-means algorithm, patterns are clustered and evaluated based on their distance from centroids under the hypothesis that greater distances indicate higher degrees of spuriousness. The approach accounts for the influence of these patterns on explainers and their association with prediction errors. The methodology is applied to procurement and contract data from the Court of Auditors of the State of Piauí (TCE-PI), using Support Vector Machines (SVM), Logistic Regression with TF-IDF and Word Embedding text representations, and the BERTimbau model, both as encoder and classifier with dynamic contextual embeddings. The method is also applied to the IMDB dataset to evaluate generalization and compare it against reference methods. The results confirm the hypothesis and reveal consistent patterns across models and datasets. The main contributions include: (i) a model- and explainer-agnostic method; (ii) automatic detection of spurious patterns; (iii) a spuriousness metric based on centroid distance; and (iv) logical and interpretable organization of patterns, enhancing model understanding and supporting the mitigation of spurious correlations. pt_BR
dc.language.iso other pt_BR
dc.subject PLN pt_BR
dc.subject XAI pt_BR
dc.subject Classificação binária pt_BR
dc.subject Padrões espúrios pt_BR
dc.subject Binary classification pt_BR
dc.subject Spurious patterns pt_BR
dc.title DETECÇÃO DE CORRELAÇÕES ESPÚRIAS COM INTELIGÊNCIA ARTIFICIAL EXPLICÁVEL pt_BR
dc.type Preprint pt_BR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account