<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0">
<channel>
<title>Doutorado em Ciência da Computação UFPI/UFMA</title>
<link>http://hdl.handle.net/123456789/3648</link>
<description>Doutorado em Ciência da Computação UFPI/UFMA</description>
<pubDate>Tue, 21 Apr 2026 13:24:49 GMT</pubDate>
<dc:date>2026-04-21T13:24:49Z</dc:date>
<item>
<title>DETECÇÃO DE CORRELAÇÕES ESPÚRIAS COM INTELIGÊNCIA ARTIFICIAL EXPLICÁVEL</title>
<link>http://hdl.handle.net/123456789/4111</link>
<description>DETECÇÃO DE CORRELAÇÕES ESPÚRIAS COM INTELIGÊNCIA ARTIFICIAL EXPLICÁVEL
SOARES, Hélcio de Abreu
RESUMO: Apesar dos avanços em Inteligência Artificial (IA), modelos de Machine Learning&#13;
e Deep Learning ainda carecem de transparência e explicabilidade, sendo&#13;
tratados como “caixas-pretas”. Este trabalho aborda o problema das correlações&#13;
espúrias — associações entre padrões e classes sem relação causal — que,&#13;
em tarefas de classificação binária em Processamento de Linguagem Natural&#13;
(PLN), comprometem a precisão, a imparcialidade e a generalização dos&#13;
modelos. Propomos um método que combina técnicas de Inteligência Artificial&#13;
Explicável (XAI) e aprendizado não supervisionado para identificar e graduar&#13;
padrões espúrios. Utilizando o algoritmo K-means, os padrões são agrupados&#13;
e analisados pela distância aos centroides, sob a hipótese de que distâncias&#13;
maiores indicam maior grau de espuriedade. A abordagem considera a influência&#13;
desses padrões sobre explicadores e sua associação com erros de previsão.&#13;
A metodologia é aplicada a dados de licitações e contratos do Tribunal de&#13;
Contas do Estado do Piauí (TCE-PI), usando modelos baseados em Support&#13;
Vector Machine (SVM), Logistic Regression (LR) com representações textuais&#13;
TF-IDF e Word Embeddings, e o modelo BERTimbau, como codificador e&#13;
classificador com embeddings contextuais dinâmicos. Aplicamos também o&#13;
método ao IMDB para avaliar generalização e compará-lo com métodos de&#13;
referências. Os resultados confirmam a hipótese e mostram consistência entre&#13;
modelos e bases. As principais contribuições incluem: (i) método agnóstico a&#13;
modelos e explicadores; (ii) detecção automática de padrões espúrios; (iii) uma&#13;
métrica de espuriedade baseada na distância ao centroide; e (iv) organização&#13;
lógica e interpretável dos padrões, ampliando a compreensão dos modelos e&#13;
apoiando a mitigação de padrões espúrios.&#13;
ABSTRACT: Despite advances in Artificial Intelligence (AI), Machine Learning and Deep&#13;
Learning models still lack transparency and explainability, often being&#13;
regarded as “black boxes.” This dissertation addresses the issue of spurious&#13;
correlations—associations between patterns and classes that lack causal&#13;
relationships—which, in binary classification tasks in Natural Language&#13;
Processing (NLP), undermine model accuracy, fairness, and generalization.&#13;
We propose a method that combines Explainable Artificial Intelligence (XAI)&#13;
techniques with unsupervised learning to identify and rank spurious patterns.&#13;
Using the K-means algorithm, patterns are clustered and evaluated based on&#13;
their distance from centroids under the hypothesis that greater distances indicate&#13;
higher degrees of spuriousness. The approach accounts for the influence of&#13;
these patterns on explainers and their association with prediction errors. The&#13;
methodology is applied to procurement and contract data from the Court of&#13;
Auditors of the State of Piauí (TCE-PI), using Support Vector Machines (SVM),&#13;
Logistic Regression with TF-IDF and Word Embedding text representations, and&#13;
the BERTimbau model, both as encoder and classifier with dynamic contextual&#13;
embeddings. The method is also applied to the IMDB dataset to evaluate&#13;
generalization and compare it against reference methods. The results confirm the&#13;
hypothesis and reveal consistent patterns across models and datasets. The main&#13;
contributions include: (i) a model- and explainer-agnostic method; (ii) automatic&#13;
detection of spurious patterns; (iii) a spuriousness metric based on centroid&#13;
distance; and (iv) logical and interpretable organization of patterns, enhancing&#13;
model understanding and supporting the mitigation of spurious correlations.
Orientador: Prof. Dr. Rodrigo de Melo Souza Veras&#13;
Co-orientador: Prof. Dr. Anselmo Cardoso de Paiva - UFMA&#13;
Examinador externo: Prof. Dr. Ajalmar Rego da Rocha Neto - IFC&#13;
Examinador externo: Prof. Dr. Gustavo Paiva Guedes e Silva - CEFET/RJ&#13;
Examinador interno: Prof. Dr. Vinícius Ponte Machado
</description>
<pubDate>Thu, 27 Nov 2025 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/123456789/4111</guid>
<dc:date>2025-11-27T00:00:00Z</dc:date>
</item>
<item>
<title>XRaySwinGen: pré-laudos médicos automáticos para exames de Raio - X de Tórax com modelo multimodal</title>
<link>http://hdl.handle.net/123456789/4110</link>
<description>XRaySwinGen: pré-laudos médicos automáticos para exames de Raio - X de Tórax com modelo multimodal
MAGALHÃES JUNIOR, Gilvan Veras
RESUMO: A radiologia tem papel crucial na medicina moderna ao fornecer diagnósticos precisos por&#13;
meio de imagens não invasivas. Entretanto, a elaboração manual de laudos médicos é um&#13;
processo demorado e sujeito a falhas humanas. Esta tese propõe um modelo multimodal&#13;
para a geração automática de pré-laudos médicos a partir de radiografias de tórax,&#13;
combinando técnicas de Visão Computacional e Processamento de Linguagem Natural&#13;
com base na arquitetura Transformer. Inicialmente, foi desenvolvida uma abordagem com&#13;
codificador visual baseado no Swin Transformer e decodificador textual integrando&#13;
camadas de atenção cruzada e treinamento bilíngue com conjuntos de dados em&#13;
Português PT-BR ou Inglês. Posteriormente, a arquitetura foi aprimorada com a introdução&#13;
de um módulo de memória relacional, permitindo a retenção de informações contextuais&#13;
de longo prazo durante a geração dos textos. O modelo final integra de forma coesa os&#13;
componentes visuais e textuais por meio de normalização condicional orientada à&#13;
memória. Os experimentos, realizados nas bases de imagens Proposta, IU Chest X-ray,&#13;
NIH Chest X-ray e MIMIC-CXR-JPG, evidenciaram ganhos consistentes. Na avaliação&#13;
com o conjunto de dados completo da MIMIC-CXR-JPG, o modelo com Swin Transformer&#13;
e decodificador textual atingiu ROUGE-L de 0.304, METEOR de 0.233 e BLEU-4 de&#13;
0.054. A inclusão da memória relacional elevou essas métricas para 0.321, 0.281 e&#13;
0.114, respectivamente. Na versão do mesmo conjunto de dados sem o histórico&#13;
clínico, o desempenho do modelo com memória relacional foi ainda maior, alcançando&#13;
ROUGE-L de 0.416, METEOR de 0.384 e BLEU-4 de 0.187. A melhora consistente das&#13;
métricas com a adição do módulo de memória relacional demonstra o impacto positivo da&#13;
retenção de contexto de longo prazo na qualidade textual dos pré-laudos gerados. Esses&#13;
resultados reforçam a relevância do modelo proposto e motivam sua adoção em cenários&#13;
clínicos que demandam precisão, fluidez e confiabilidade na geração automática de&#13;
relatórios médicos.&#13;
ABSTRACT: Radiology plays a crucial role in modern medicine by providing accurate diagnoses&#13;
through non-invasive imaging. However, the manual creation of medical reports is a&#13;
time-consuming process and prone to human error. This thesis proposes a multimodal&#13;
model for the automatic generation of preliminary medical reports from chest radiographs,&#13;
combining Computer Vision and Natural Language Processing techniques based on the&#13;
Transformer architecture. Initially, an approach was developed with a visual encoder based&#13;
on the Swin Transformer and a textual decoder integrating cross-attention layers and&#13;
bilingual training with datasets in Brazilian Portuguese (PT-BR) or English. Subsequently,&#13;
the architecture was enhanced with the introduction of a relational memory module,&#13;
enabling the retention of long-term contextual information during text generation. The final&#13;
model cohesively integrates the visual and textual components through memory-oriented&#13;
conditional normalization. The experiments, conducted on the Proposta, IU Chest X-ray,&#13;
NIH Chest X-ray, and MIMIC-CXR-JPG image datasets, showed consistent gains. In&#13;
the evaluation with the complete MIMIC-CXR-JPG dataset, the model with the Swin&#13;
Transformer and textual decoder achieved a ROUGE-L of 0.304, a METEOR of 0.233, and&#13;
a BLEU-4 of 0.054. The inclusion of the relational memory module raised these metrics to&#13;
0.321, 0.281, and 0.114, respectively. In the version of the same dataset without clinical&#13;
history, the performance of the model with relational memory was even higher, reaching&#13;
a ROUGE-L of 0.416, a METEOR of 0.384, and a BLEU-4 of 0.187. The consistent&#13;
improvement in metrics with the addition of the relational memory module demonstrates&#13;
the positive impact of long-term context retention on the textual quality of the generated&#13;
pre-reports. These results reinforce the relevance of the proposed model and encourage&#13;
its adoption in clinical scenarios that demand accuracy, fluidity, and reliability in the&#13;
automatic generation of medical reports.
Orientador: Prof. Dr. Pedro de Alcântara dos Santos Neto&#13;
Co-orientador: Prof. Dr. Anselmo Cardoso de Paiva&#13;
Examinador externo: Prof. Dr. António Manuel Trigueiros da Silva Cunha - Universidade de Trás-os-Montes e Alto Douro&#13;
Examinador externo: Prof. Dr. Cláudio de Souza Baptista - UFCG&#13;
Examinador interno: Prof. Dr. Rodrigo De Melo Souza Veras&#13;
Examinador interno: Prof. Dr. Kelson Romulo Teixeira Aires
</description>
<pubDate>Thu, 27 Nov 2025 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/123456789/4110</guid>
<dc:date>2025-11-27T00:00:00Z</dc:date>
</item>
<item>
<title>SOURCE CODE EXPERTISE: Improving Knowledge Models and Assessing Generative AI Impact</title>
<link>http://hdl.handle.net/123456789/4059</link>
<description>SOURCE CODE EXPERTISE: Improving Knowledge Models and Assessing Generative AI Impact
CASTRO, Otávio Cury da Costa
Abstract: Identifying developer expertise in source code is valuable in various Software Engineering&#13;
contexts. Knowledgeable developers are best suited to perform tasks such as code review&#13;
and onboarding. Numerous models have been proposed to estimate source code&#13;
knowledge, making it a well-explored topic; however, important gaps remain that affect the&#13;
accuracy and applicability of these models. Moreover, the increasing use of Generative&#13;
Artificial Intelligence (GenAI) tools may influence how code expertise is acquired and&#13;
measured. This study aims to develop more accurate models for identifying source code&#13;
experts. We first investigate the correlation between development history variables and&#13;
developers’ knowledge of source code files. We extract metrics from public and private&#13;
repositories and survey developers about the files they contributed to. Based on these&#13;
data, we propose a linear model and train machine learning classifiers, comparing their&#13;
performance with existing models. We also apply the proposed models to the Truck Factor&#13;
(TF) metric to assess their practical implications in identifying critical developers. To&#13;
examine the impact of GenAI, we build a dataset combining code expertise metrics with&#13;
information on ChatGPT-generated code integrated into open-source projects. We&#13;
simulate different usage scenarios by assigning a portion of contributions to GenAI instead&#13;
of developers and survey developers about their perception of GenAI’s effects on code&#13;
comprehension. Our results show that First Authorship and Recency of Modification are&#13;
the variables most strongly correlated with source code knowledge. The proposed&#13;
machine learning models outperform linear baselines, achieving F-scores between 71%&#13;
and 73%. When applied to the TF algorithm, they improved developer identification,&#13;
reaching a best average F-score of 74%. GenAI usage negatively affected TF reliability,&#13;
even in low proportions. Developers reported mixed perceptions, with concerns, especially&#13;
about use by novice programmers.
Orientador: Guilherme Amaral Avelino&#13;
Co-orientador: Prof. Dr. Pedro de Alcantara dos Santos Neto&#13;
Examinador interno: Prof. Dr. Vinicius Ponte Machado&#13;
Examinador interno: Prof. Dr. Romuere Rodrigues Veloso e Silva&#13;
Examinador externo: Prof. Dr. Lincoln Souza Rocha&#13;
Examinador externo: Prof. Dr. André Cavalcante Hora
</description>
<pubDate>Tue, 16 Sep 2025 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/123456789/4059</guid>
<dc:date>2025-09-16T00:00:00Z</dc:date>
</item>
<item>
<title>MELHORAMENTO NA CLASSIFICAÇÃO DE PÓLEN USANDO REDE NEURAL HÍBRIDA COM MECANISMO DE ATENÇÃO E SEPARAÇÃO POR VISTAS: uma abordagem Equatorial e Polar</title>
<link>http://hdl.handle.net/123456789/4058</link>
<description>MELHORAMENTO NA CLASSIFICAÇÃO DE PÓLEN USANDO REDE NEURAL HÍBRIDA COM MECANISMO DE ATENÇÃO E SEPARAÇÃO POR VISTAS: uma abordagem Equatorial e Polar
SOARES, Júlio César da Silva
Resumo: A pesquisa com grãos de pólen tem aplicações em áreas como ecologia, controle&#13;
de alergias e rastreamento de alimentos. No entanto, a classificação desses grãos&#13;
&#13;
enfrenta desafios significativos devido à limitação dos dados disponíveis e à variabili-&#13;
dade das características morfológicas. Recentemente, a aplicação de Redes Neurais&#13;
&#13;
Convolucionais (CNNs) trouxe avanços expressivos nesse campo, com técnicas como&#13;
transferência de aprendizado e aumento de dados sendo utilizadas para melhorar os&#13;
resultados.&#13;
Este estudo visa inovar na classificação de imagens de grãos de pólen ao considerar&#13;
as diferenças entre as vistas equatorial e polar. O objetivo central é avaliar o impacto&#13;
dessas vistas na tarefa de classificação, partindo da hipótese de que a vista polar, por&#13;
revelar detalhes mais precisos do que a equatorial, pode proporcionar um desempenho&#13;
superior. Assim, ao separar os grãos de pólen com base nas vistas, espera-se obter&#13;
resultados que igualem ou superem os reportados na literatura, contribuindo de maneira&#13;
original para o avanço do estado da arte.&#13;
A pesquisa foi estruturada em três etapas interdependentes. Na primeira etapa, as&#13;
&#13;
bases de dados foram classificadas em seu formato original, empregando redes pré-&#13;
treinadas e redes baseadas em mecanismos de atenção, com treinamento iniciado&#13;
&#13;
do zero. A segunda etapa focou na separação das bases em vistas equatorial e polar,&#13;
utilizando técnicas de aprendizado semi-supervisionado para garantir uma divisão&#13;
precisa. Na terceira e última etapa, as novas bases foram classificadas utilizando&#13;
as redes que apresentaram o melhor desempenho na etapa inicial, permitindo uma&#13;
avaliação comparativa entre as vistas.&#13;
Os resultados preliminares demonstram que as redes pré-treinadas, particularmente&#13;
a DenseNet201, alcançaram melhorias substanciais ao utilizar a base CPD1 dividida&#13;
por vistas. A vista polar obteve as melhores métricas, com uma acurácia de 99.10%,&#13;
superando as pesquisas anteriores que utilizaram a mesma base de dados CPD1,&#13;
confirmando a hipótese inicial e destacando a relevância da separação por vistas.&#13;
Abstract: Research on pollen grains has applications in areas such as ecology, allergy control, and&#13;
food traceability. However, the classification of these grains faces significant challenges&#13;
due to the limited availability of data and the variability of morphological characteristics.&#13;
&#13;
Recently, the application of Convolutional Neural Networks (CNNs) has led to signif-&#13;
icant advancements in this field, with techniques such as transfer learning and data&#13;
&#13;
augmentation being employed to improve results.&#13;
This study aims to innovate in the classification of pollen grain images by considering the&#13;
differences between equatorial and polar views. The central objective is to assess the&#13;
impact of these views on the classification task, based on the hypothesis that the polar&#13;
view, by revealing more precise details than the equatorial view, can provide superior&#13;
performance. Thus, by separating pollen grains based on these views, it is expected&#13;
to achieve results that match or exceed those reported in the literature, contributing&#13;
originally to the advancement of the state of the art.&#13;
The research was structured into three interdependent stages. In the first stage, the&#13;
datasets were classified in their original format, employing pre-trained networks and&#13;
attention-based networks with training initiated from scratch. The second stage focused&#13;
on separating the datasets into equatorial and polar views, using semi-supervised&#13;
learning techniques to ensure accurate division. In the third and final stage, the newly&#13;
generated datasets were classified using the networks that performed best in the initial&#13;
stage, allowing for a comparative evaluation between the views.&#13;
Preliminary results show that pre-trained networks, particularly DenseNet201, achieved&#13;
substantial improvements when using the CPD1 dataset divided by views. The polar&#13;
view achieved the best metrics, with an accuracy of 99.1%, surpassing previous studies&#13;
that used the same CPD1 dataset, confirming the initial hypothesis and highlighting the&#13;
relevance of view separation.
Orientador: Prof. Dr. Kelson Romulo Teixeira Aires&#13;
Co-orientador: Prof. Dr. Rodrigo de Melo Souza Veras&#13;
Examinador interno: Prof.º Dr. Vinicius Ponte Machado&#13;
Examinador interno: Prof. Dr. Ivan Saraiva Silva&#13;
Examinadora interna: Profa. Dra. Juliana do Nascimento Bendini&#13;
Examinadora externa: Profa. Dra. Andrea Gomes Campos Bianchi - UFOP&#13;
Examinador externo: Prof. Dr. Pedro Luiz de Paula - UTFPR
</description>
<pubDate>Tue, 16 Sep 2025 00:00:00 GMT</pubDate>
<guid isPermaLink="false">http://hdl.handle.net/123456789/4058</guid>
<dc:date>2025-09-16T00:00:00Z</dc:date>
</item>
</channel>
</rss>
