Abstract:
RESUMO: Apesar dos avanços em Inteligência Artificial (IA), modelos de Machine Learning
e Deep Learning ainda carecem de transparência e explicabilidade, sendo
tratados como “caixas-pretas”. Este trabalho aborda o problema das correlações
espúrias — associações entre padrões e classes sem relação causal — que,
em tarefas de classificação binária em Processamento de Linguagem Natural
(PLN), comprometem a precisão, a imparcialidade e a generalização dos
modelos. Propomos um método que combina técnicas de Inteligência Artificial
Explicável (XAI) e aprendizado não supervisionado para identificar e graduar
padrões espúrios. Utilizando o algoritmo K-means, os padrões são agrupados
e analisados pela distância aos centroides, sob a hipótese de que distâncias
maiores indicam maior grau de espuriedade. A abordagem considera a influência
desses padrões sobre explicadores e sua associação com erros de previsão.
A metodologia é aplicada a dados de licitações e contratos do Tribunal de
Contas do Estado do Piauí (TCE-PI), usando modelos baseados em Support
Vector Machine (SVM), Logistic Regression (LR) com representações textuais
TF-IDF e Word Embeddings, e o modelo BERTimbau, como codificador e
classificador com embeddings contextuais dinâmicos. Aplicamos também o
método ao IMDB para avaliar generalização e compará-lo com métodos de
referências. Os resultados confirmam a hipótese e mostram consistência entre
modelos e bases. As principais contribuições incluem: (i) método agnóstico a
modelos e explicadores; (ii) detecção automática de padrões espúrios; (iii) uma
métrica de espuriedade baseada na distância ao centroide; e (iv) organização
lógica e interpretável dos padrões, ampliando a compreensão dos modelos e
apoiando a mitigação de padrões espúrios.
ABSTRACT: Despite advances in Artificial Intelligence (AI), Machine Learning and Deep
Learning models still lack transparency and explainability, often being
regarded as “black boxes.” This dissertation addresses the issue of spurious
correlations—associations between patterns and classes that lack causal
relationships—which, in binary classification tasks in Natural Language
Processing (NLP), undermine model accuracy, fairness, and generalization.
We propose a method that combines Explainable Artificial Intelligence (XAI)
techniques with unsupervised learning to identify and rank spurious patterns.
Using the K-means algorithm, patterns are clustered and evaluated based on
their distance from centroids under the hypothesis that greater distances indicate
higher degrees of spuriousness. The approach accounts for the influence of
these patterns on explainers and their association with prediction errors. The
methodology is applied to procurement and contract data from the Court of
Auditors of the State of Piauí (TCE-PI), using Support Vector Machines (SVM),
Logistic Regression with TF-IDF and Word Embedding text representations, and
the BERTimbau model, both as encoder and classifier with dynamic contextual
embeddings. The method is also applied to the IMDB dataset to evaluate
generalization and compare it against reference methods. The results confirm the
hypothesis and reveal consistent patterns across models and datasets. The main
contributions include: (i) a model- and explainer-agnostic method; (ii) automatic
detection of spurious patterns; (iii) a spuriousness metric based on centroid
distance; and (iv) logical and interpretable organization of patterns, enhancing
model understanding and supporting the mitigation of spurious correlations.