Repositório Institucional da UFPI

XRaySwinGen: pré-laudos médicos automáticos para exames de Raio - X de Tórax com modelo multimodal

DSpace/Manakin Repository

Show simple item record

dc.contributor.author MAGALHÃES JUNIOR, Gilvan Veras
dc.date.accessioned 2025-11-27T17:52:31Z
dc.date.available 2025-11-27T17:52:31Z
dc.date.issued 2025-11-27
dc.identifier.uri http://hdl.handle.net/123456789/4110
dc.description Orientador: Prof. Dr. Pedro de Alcântara dos Santos Neto Co-orientador: Prof. Dr. Anselmo Cardoso de Paiva Examinador externo: Prof. Dr. António Manuel Trigueiros da Silva Cunha - Universidade de Trás-os-Montes e Alto Douro Examinador externo: Prof. Dr. Cláudio de Souza Baptista - UFCG Examinador interno: Prof. Dr. Rodrigo De Melo Souza Veras Examinador interno: Prof. Dr. Kelson Romulo Teixeira Aires pt_BR
dc.description.abstract RESUMO: A radiologia tem papel crucial na medicina moderna ao fornecer diagnósticos precisos por meio de imagens não invasivas. Entretanto, a elaboração manual de laudos médicos é um processo demorado e sujeito a falhas humanas. Esta tese propõe um modelo multimodal para a geração automática de pré-laudos médicos a partir de radiografias de tórax, combinando técnicas de Visão Computacional e Processamento de Linguagem Natural com base na arquitetura Transformer. Inicialmente, foi desenvolvida uma abordagem com codificador visual baseado no Swin Transformer e decodificador textual integrando camadas de atenção cruzada e treinamento bilíngue com conjuntos de dados em Português PT-BR ou Inglês. Posteriormente, a arquitetura foi aprimorada com a introdução de um módulo de memória relacional, permitindo a retenção de informações contextuais de longo prazo durante a geração dos textos. O modelo final integra de forma coesa os componentes visuais e textuais por meio de normalização condicional orientada à memória. Os experimentos, realizados nas bases de imagens Proposta, IU Chest X-ray, NIH Chest X-ray e MIMIC-CXR-JPG, evidenciaram ganhos consistentes. Na avaliação com o conjunto de dados completo da MIMIC-CXR-JPG, o modelo com Swin Transformer e decodificador textual atingiu ROUGE-L de 0.304, METEOR de 0.233 e BLEU-4 de 0.054. A inclusão da memória relacional elevou essas métricas para 0.321, 0.281 e 0.114, respectivamente. Na versão do mesmo conjunto de dados sem o histórico clínico, o desempenho do modelo com memória relacional foi ainda maior, alcançando ROUGE-L de 0.416, METEOR de 0.384 e BLEU-4 de 0.187. A melhora consistente das métricas com a adição do módulo de memória relacional demonstra o impacto positivo da retenção de contexto de longo prazo na qualidade textual dos pré-laudos gerados. Esses resultados reforçam a relevância do modelo proposto e motivam sua adoção em cenários clínicos que demandam precisão, fluidez e confiabilidade na geração automática de relatórios médicos. ABSTRACT: Radiology plays a crucial role in modern medicine by providing accurate diagnoses through non-invasive imaging. However, the manual creation of medical reports is a time-consuming process and prone to human error. This thesis proposes a multimodal model for the automatic generation of preliminary medical reports from chest radiographs, combining Computer Vision and Natural Language Processing techniques based on the Transformer architecture. Initially, an approach was developed with a visual encoder based on the Swin Transformer and a textual decoder integrating cross-attention layers and bilingual training with datasets in Brazilian Portuguese (PT-BR) or English. Subsequently, the architecture was enhanced with the introduction of a relational memory module, enabling the retention of long-term contextual information during text generation. The final model cohesively integrates the visual and textual components through memory-oriented conditional normalization. The experiments, conducted on the Proposta, IU Chest X-ray, NIH Chest X-ray, and MIMIC-CXR-JPG image datasets, showed consistent gains. In the evaluation with the complete MIMIC-CXR-JPG dataset, the model with the Swin Transformer and textual decoder achieved a ROUGE-L of 0.304, a METEOR of 0.233, and a BLEU-4 of 0.054. The inclusion of the relational memory module raised these metrics to 0.321, 0.281, and 0.114, respectively. In the version of the same dataset without clinical history, the performance of the model with relational memory was even higher, reaching a ROUGE-L of 0.416, a METEOR of 0.384, and a BLEU-4 of 0.187. The consistent improvement in metrics with the addition of the relational memory module demonstrates the positive impact of long-term context retention on the textual quality of the generated pre-reports. These results reinforce the relevance of the proposed model and encourage its adoption in clinical scenarios that demand accuracy, fluidity, and reliability in the automatic generation of medical reports. pt_BR
dc.language.iso other pt_BR
dc.subject Visão Computacional pt_BR
dc.subject Pré-Laudo Médico pt_BR
dc.subject Multimodal pt_BR
dc.subject Processamento de Linguagem Natural pt_BR
dc.subject Transformers pt_BR
dc.subject Computer Vision pt_BR
dc.subject Medical Report pt_BR
dc.subject Natural Language Processing pt_BR
dc.subject Transformer pt_BR
dc.title XRaySwinGen: pré-laudos médicos automáticos para exames de Raio - X de Tórax com modelo multimodal pt_BR
dc.type Preprint pt_BR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account