Abstract:
RESUMO: A radiologia tem papel crucial na medicina moderna ao fornecer diagnósticos precisos por
meio de imagens não invasivas. Entretanto, a elaboração manual de laudos médicos é um
processo demorado e sujeito a falhas humanas. Esta tese propõe um modelo multimodal
para a geração automática de pré-laudos médicos a partir de radiografias de tórax,
combinando técnicas de Visão Computacional e Processamento de Linguagem Natural
com base na arquitetura Transformer. Inicialmente, foi desenvolvida uma abordagem com
codificador visual baseado no Swin Transformer e decodificador textual integrando
camadas de atenção cruzada e treinamento bilíngue com conjuntos de dados em
Português PT-BR ou Inglês. Posteriormente, a arquitetura foi aprimorada com a introdução
de um módulo de memória relacional, permitindo a retenção de informações contextuais
de longo prazo durante a geração dos textos. O modelo final integra de forma coesa os
componentes visuais e textuais por meio de normalização condicional orientada à
memória. Os experimentos, realizados nas bases de imagens Proposta, IU Chest X-ray,
NIH Chest X-ray e MIMIC-CXR-JPG, evidenciaram ganhos consistentes. Na avaliação
com o conjunto de dados completo da MIMIC-CXR-JPG, o modelo com Swin Transformer
e decodificador textual atingiu ROUGE-L de 0.304, METEOR de 0.233 e BLEU-4 de
0.054. A inclusão da memória relacional elevou essas métricas para 0.321, 0.281 e
0.114, respectivamente. Na versão do mesmo conjunto de dados sem o histórico
clínico, o desempenho do modelo com memória relacional foi ainda maior, alcançando
ROUGE-L de 0.416, METEOR de 0.384 e BLEU-4 de 0.187. A melhora consistente das
métricas com a adição do módulo de memória relacional demonstra o impacto positivo da
retenção de contexto de longo prazo na qualidade textual dos pré-laudos gerados. Esses
resultados reforçam a relevância do modelo proposto e motivam sua adoção em cenários
clínicos que demandam precisão, fluidez e confiabilidade na geração automática de
relatórios médicos.
ABSTRACT: Radiology plays a crucial role in modern medicine by providing accurate diagnoses
through non-invasive imaging. However, the manual creation of medical reports is a
time-consuming process and prone to human error. This thesis proposes a multimodal
model for the automatic generation of preliminary medical reports from chest radiographs,
combining Computer Vision and Natural Language Processing techniques based on the
Transformer architecture. Initially, an approach was developed with a visual encoder based
on the Swin Transformer and a textual decoder integrating cross-attention layers and
bilingual training with datasets in Brazilian Portuguese (PT-BR) or English. Subsequently,
the architecture was enhanced with the introduction of a relational memory module,
enabling the retention of long-term contextual information during text generation. The final
model cohesively integrates the visual and textual components through memory-oriented
conditional normalization. The experiments, conducted on the Proposta, IU Chest X-ray,
NIH Chest X-ray, and MIMIC-CXR-JPG image datasets, showed consistent gains. In
the evaluation with the complete MIMIC-CXR-JPG dataset, the model with the Swin
Transformer and textual decoder achieved a ROUGE-L of 0.304, a METEOR of 0.233, and
a BLEU-4 of 0.054. The inclusion of the relational memory module raised these metrics to
0.321, 0.281, and 0.114, respectively. In the version of the same dataset without clinical
history, the performance of the model with relational memory was even higher, reaching
a ROUGE-L of 0.416, a METEOR of 0.384, and a BLEU-4 of 0.187. The consistent
improvement in metrics with the addition of the relational memory module demonstrates
the positive impact of long-term context retention on the textual quality of the generated
pre-reports. These results reinforce the relevance of the proposed model and encourage
its adoption in clinical scenarios that demand accuracy, fluidity, and reliability in the
automatic generation of medical reports.
Description:
Orientador: Prof. Dr. Pedro de Alcântara dos Santos Neto
Co-orientador: Prof. Dr. Anselmo Cardoso de Paiva
Examinador externo: Prof. Dr. António Manuel Trigueiros da Silva Cunha - Universidade de Trás-os-Montes e Alto Douro
Examinador externo: Prof. Dr. Cláudio de Souza Baptista - UFCG
Examinador interno: Prof. Dr. Rodrigo De Melo Souza Veras
Examinador interno: Prof. Dr. Kelson Romulo Teixeira Aires