Abstract:
RESUMO:Regulação é um mecanismo de controle utilizado por uma Operadora de Plano de Saúde
(OPS) com objetivo de minimizar o desperdício de recursos por meio da análise de solicitações
realizadas pelos beneficiários. Normalmente as solicitações passam por uma
avaliação administrativa que certifica se a solicitação cumpre parâmetros não-técnicos
(carência, adimplência e outros). Além disso, passa por uma avaliação especializada com
profissionais que ficam à disposição para análise das solicitações. Uma das estratégias
utilizadas para otimizar essa tarefa é o uso de um sistema que automatize parte desse
processo por meio da utilização de aprendizagem de máquina (AM). O objetivo deste
trabalho é aperfeiçoar o processo de aprendizagem supervisionada da regulação automatizada
acrescentando informação do histórico de regulação dos beneficiários. Este estudo se
baseia na ideia de que o histórico de beneficiários fornece informações relevantes sobre o
processo de regulação, e, que possíveis solicitações posteriores, sigam, de alguma forma,
um padrão baseado em solicitações antigas. A metodologia proposta utiliza três tipos de
representação de informações: representação binária, term-frequency (TF) e term-frequency
inverse document frequency (TF-IDF). Para cada uma dessas representações, são aplicados
algoritmos de seleção de atributos (Consistency Subset Eval (CSE), Correlation Feature
Subset (CFS), Wrapper Subset Eval (WSE), Ganho de Informação (IG), Razão de Ganho
(Gain Ratio - GR) e Relief) e tranformação de atributos (Principal Component Analysis
(PCA), Kernel PCA, Independent Component Analysis (ICA) e Latent Semantic Analysis
(LSA)) . Na etapa de aprendizagem supervisionada são testados os algoritmos classificação:
Random Forest (RF), Naive Bayes (NB), K-nearest neighbors (KNN) e Support Vector
Machine (SVM). Os resultados obtidos pelos classificadores são avaliados a partir das
métricas acurácia, precisão, recall, índice Kappa e precision-recall curve (PRC). A partir
dos resultados também é avaliado se houve melhora significativa ou não, comparando os
resultados da aprendizagem com e sem o histórico. Essa avaliação é realizada utilizando
o teste de hipótese Z. Os resultados apontam uma melhora significativa, em todos os
classificadores testados, onde o melhor resultado obtido foi utilizando o classificador RF
com representações TF e TF-IDF com seleção de atributos.
ABSTRACT:Prior Authorization is a control mechanism used by a Health Insurance Providers (HIP)
to minimize the waste of resources through the analysis of requests made by beneficiaries.
Normally, the applications go through an administrative evaluation that certifies if the
application complies with non-technical parameters (lack of funds, compliance and others).
In addition, it undergoes a specialized evaluation with professionals who are available to
analyze the applications. One of the strategies used to optimize this task is the use of a
system that automates part of this process through the use of machine learning (ML).
The objective of this work is to improve the process of supervised learning of automated
prior authorization by adding information from the history of beneficiaries. This study
is based on the idea that the history of beneficiaries provides relevant information on
the prior authorization process, and that possible subsequent requests somehow follow a
pattern based on old requests. The proposed methodology uses three types of information
representation: binary representation, term-frequency. (TF) and term-frequency inverse
document frequency (TF-IDF). For each of these representations, feature selection algorithms
are applied (Consistency Subset Eval (CSE), Correlation Feature Subset (CFS),
Wrapper Subset Eval (WSE), Information Gain (IG), Gain Ratio (GR) and Relief) and
feature transformation (Principal Component Analysis (PCA), Kernel PCA, Independent
Component Analysis (ICA) and Latent Semantic Analysis (LSA)). In the supervised learning
stage the classification algorithms are tested: Random Forest (RF), Naive Bayes (NB),
K-nearest neighbors (KNN) and Support Vector Machine (SVM). The results obtained by
the classifiers are evaluated from the metrics accuracy, precision, recall, Kappa index and
precision-recall curve (PRC). From the results it is also evaluated if there was significant
improvement or not, comparing the learning outcomes with and without the beneficiaries’
historical. This evaluation is performed using the hypothesis test Z. The results show a
significant improvement in all the classifiers tested, where the best result was obtained
using the RF classifier with TF and TF-IDF representations with feature selection.