Abstract:
RESUMO: Os sistemas de registro eletrônico de saúde (EHR) têm sido amplamente utilizados na prática
médica, o que gerou um grande volume de dados não estruturados contendo abreviaturas, termos
ambíguos e erros de digitação. Assim, a classificação automática de dados médicos em categorias
clínicas informativas pode reduzir substancialmente o custo dessa tarefa. Além disso, tarefas de
Processamento de Linguagem Natural (NLP) e Aprendizado de Máquina (ML), como o Reconhecimento
de Entidade Nomeada (NER), têm sido usadas para processar esses dados. Em receitas
médicas, por exemplo, é possível a extração de informações úteis para a farmacovigilância e
o desenvolvimento de sistemas de apoio a tomada de decisão. Nesse contexto, este trabalho
emprega uma metodologia que engloba desde a construção da base de dados até o processamento
dos textos clínicos em português. Essa metodologia é dividida em duas etapas. Na etapa inicial,
é investigada a utilização de uma ensemble de classificação para categorizar textos clínicos
nas classes receitas, notas clínicas e solicitações de exames. Para isso, utilizamos diferentes
combinações de métodos de vetorização para representar o texto. Em uma das combinações,
analisamos o uso do framework Snorkel para supervisão fraca. Em seguida, a ensemble formada
pelos algoritmos Máquina de Vetores de Suporte, Floresta Aleatória e Perceptron Multicamadas
realiza a classificação. Na segunda etapa, técnicas de ML e aprendizado profundo (DL) são
avaliadas para a extração de entidade clínicas nomeadas de receitas médicas. Cinco combinações
de métodos de extração de características com classificadores foram avaliadas: características
customizadas com os modelos Perceptron, Multinomial Naive Bayes e Campos Aleatórios
Condicionais, as embeddings Glove com a rede neural BiLSTM, e uma versão com ajuste fino
do BERTimbau. Os resultados alcançados com esta metodologia foram promissores, atingindo
uma precisão de 1,00, kappa de 0,99 e F1-score de 1,00 na etapa de classificação, enquanto os
modelos de DL obtiveram F1-score de 0,99 na extração das entidades. Assim, concluímos que
nossa abordagem permite a classificação automática e precisa do conteúdo de textos clínicos,
alcançando melhores resultados de categorização do que as abordagens únicas avaliadas; e o uso
de embeddings de palavras e modelos de aprendizado profundo produzem melhores resultados
no reconhecimento de entidades clínicas em português do que abordagens de ML.
ABSTRACT: The medical practice widely uses Electronic Health Record (EHR) systems, which has generated
a large volume of unstructured data containing abbreviations, ambiguous terms, and typing
errors. Thus, the automatic classification of medical data into informative clinical categories
can substantially reduce the cost of this task. Furthermore, researchers use Natural Language
Processing (NLP) and Machine Learning (ML) tasks such as Named Entity Recognition (NER)
to process this data, for example, the useful information extraction for pharmacovigilance and
the development of decision-making support systems from medical prescriptions. This work
employs a methodology from database construction to processing clinical texts in Portuguese.
This methodology has two stages. In the initial stage, we adopt a classification ensemble to
categorize clinical texts in the following classes: prescriptions, clinical notes, and exam requests.
To this end, we use different vectorization methods to represent the text, supported by the
framework Snorkel for weak supervision. Then, the ensemble formed by the Support Vector
Machine, Random Forest, and Multilayer Perceptron algorithms performs the classification. In
the second stage, we evaluate ML and Deep learning (DL) techniques for extracting named
clinical entities from medical prescriptions. We also evaluate five combinations of feature
extraction methods with classifiers: custom features with the Perceptron, Multinomial Naive
Bayes, and Conditional Random Fields models, the embeddings Glove with the BiLSTM
neural network, and a fine-tuned version of BERTimbau. The results are promising, reaching a
precision of 1.00, kappa of 0.99, and F1-score of 1.00 in the classification stage, while the DL
models obtained an F1-score of 0.99 for entity extraction. Thus, we conclude that our approach
allows the automatic and accurate classification of the content of clinical texts, achieving better
categorization results than the single evaluated approaches; and the use of word embeddings and
deep learning models produce better results for clinical entity recognition in Portuguese than ML
approaches.