Repositório Institucional da UFPI

ROTULAÇÃO E RECONHECIMENTO DE ENTIDADES CLÍNICAS EM PORTUGUÊS ATRAVÉS DE MODELOS DE APRENDIZADO PROFUNDO

DSpace/Manakin Repository

Show simple item record

dc.contributor.author SOUSA, Orrana Lhaynher Veloso de
dc.date.accessioned 2023-05-17T13:51:10Z
dc.date.available 2023-05-17T13:51:10Z
dc.date.issued 2023-05-17
dc.identifier.uri http://hdl.handle.net/123456789/3292
dc.description Orientadora: Profa. Dra. Deborah Maria Vieira Magalhães Coorientador: Prof. Dr. Victor Eulalio Sousa Examinador interno: Prof. Dr. Romuere Rodrigues Veloso e Silva Examinador interno: Prof. Dr. Rafael Torres Anchieta pt_BR
dc.description.abstract RESUMO: Os sistemas de registro eletrônico de saúde (EHR) têm sido amplamente utilizados na prática médica, o que gerou um grande volume de dados não estruturados contendo abreviaturas, termos ambíguos e erros de digitação. Assim, a classificação automática de dados médicos em categorias clínicas informativas pode reduzir substancialmente o custo dessa tarefa. Além disso, tarefas de Processamento de Linguagem Natural (NLP) e Aprendizado de Máquina (ML), como o Reconhecimento de Entidade Nomeada (NER), têm sido usadas para processar esses dados. Em receitas médicas, por exemplo, é possível a extração de informações úteis para a farmacovigilância e o desenvolvimento de sistemas de apoio a tomada de decisão. Nesse contexto, este trabalho emprega uma metodologia que engloba desde a construção da base de dados até o processamento dos textos clínicos em português. Essa metodologia é dividida em duas etapas. Na etapa inicial, é investigada a utilização de uma ensemble de classificação para categorizar textos clínicos nas classes receitas, notas clínicas e solicitações de exames. Para isso, utilizamos diferentes combinações de métodos de vetorização para representar o texto. Em uma das combinações, analisamos o uso do framework Snorkel para supervisão fraca. Em seguida, a ensemble formada pelos algoritmos Máquina de Vetores de Suporte, Floresta Aleatória e Perceptron Multicamadas realiza a classificação. Na segunda etapa, técnicas de ML e aprendizado profundo (DL) são avaliadas para a extração de entidade clínicas nomeadas de receitas médicas. Cinco combinações de métodos de extração de características com classificadores foram avaliadas: características customizadas com os modelos Perceptron, Multinomial Naive Bayes e Campos Aleatórios Condicionais, as embeddings Glove com a rede neural BiLSTM, e uma versão com ajuste fino do BERTimbau. Os resultados alcançados com esta metodologia foram promissores, atingindo uma precisão de 1,00, kappa de 0,99 e F1-score de 1,00 na etapa de classificação, enquanto os modelos de DL obtiveram F1-score de 0,99 na extração das entidades. Assim, concluímos que nossa abordagem permite a classificação automática e precisa do conteúdo de textos clínicos, alcançando melhores resultados de categorização do que as abordagens únicas avaliadas; e o uso de embeddings de palavras e modelos de aprendizado profundo produzem melhores resultados no reconhecimento de entidades clínicas em português do que abordagens de ML. ABSTRACT: The medical practice widely uses Electronic Health Record (EHR) systems, which has generated a large volume of unstructured data containing abbreviations, ambiguous terms, and typing errors. Thus, the automatic classification of medical data into informative clinical categories can substantially reduce the cost of this task. Furthermore, researchers use Natural Language Processing (NLP) and Machine Learning (ML) tasks such as Named Entity Recognition (NER) to process this data, for example, the useful information extraction for pharmacovigilance and the development of decision-making support systems from medical prescriptions. This work employs a methodology from database construction to processing clinical texts in Portuguese. This methodology has two stages. In the initial stage, we adopt a classification ensemble to categorize clinical texts in the following classes: prescriptions, clinical notes, and exam requests. To this end, we use different vectorization methods to represent the text, supported by the framework Snorkel for weak supervision. Then, the ensemble formed by the Support Vector Machine, Random Forest, and Multilayer Perceptron algorithms performs the classification. In the second stage, we evaluate ML and Deep learning (DL) techniques for extracting named clinical entities from medical prescriptions. We also evaluate five combinations of feature extraction methods with classifiers: custom features with the Perceptron, Multinomial Naive Bayes, and Conditional Random Fields models, the embeddings Glove with the BiLSTM neural network, and a fine-tuned version of BERTimbau. The results are promising, reaching a precision of 1.00, kappa of 0.99, and F1-score of 1.00 in the classification stage, while the DL models obtained an F1-score of 0.99 for entity extraction. Thus, we conclude that our approach allows the automatic and accurate classification of the content of clinical texts, achieving better categorization results than the single evaluated approaches; and the use of word embeddings and deep learning models produce better results for clinical entity recognition in Portuguese than ML approaches. pt_BR
dc.language.iso other pt_BR
dc.subject Ensemble pt_BR
dc.subject Dados clínicos pt_BR
dc.subject Reconhecimento de entidade nomeada pt_BR
dc.subject Aprendizado profundo pt_BR
dc.subject BERTimbau pt_BR
dc.subject Ajuste fino pt_BR
dc.subject Clinical data pt_BR
dc.subject Classification pt_BR
dc.subject Ensemble pt_BR
dc.subject Named Entity Recognition pt_BR
dc.subject Deep learning pt_BR
dc.subject Fine tuning pt_BR
dc.title ROTULAÇÃO E RECONHECIMENTO DE ENTIDADES CLÍNICAS EM PORTUGUÊS ATRAVÉS DE MODELOS DE APRENDIZADO PROFUNDO pt_BR
dc.type Preprint pt_BR


Files in this item

This item appears in the following Collection(s)

  • Mestrado em Engenharia Elétrica
    Nesta coleção serão publicadas todas Dissertações do Programa de Pós-Graduação em Engenharia Elétrica do Centro de Tecnologia.

Show simple item record

Search DSpace


Advanced Search

Browse

My Account