Abstract:
RESUMO: A operação de planos privados de assistência à saúde no Brasil representa uma importante via de prestação de serviços à população. O Brasil é o maior mercado de saúde privada na América do Sul, sendo que em 2012 os custos com saúde representaram cerca de 8% do PIB. Nesse mercado, muitas empresas operadoras de planos de saúde (OPS) encontram-se em situação de desequilíbrio financeiro, caracterizada pelo fato de as despesas somadas representarem um valor maior que as receitas. Fraudes e abusos na utilização de serviços em saúde são dois fatores que influenciam diretamente esse desequilíbrio, uma vez que correspondem a despesas que poderiam ser eliminadas sem prejuízo à qualidade dos serviços prestados. Um dos mecanismos empregados pelas OPS para evitar despesas indevidas decorrentes de fraudes e abusos é a Regulação, que consiste em uma análise prévia antes
da liberação para realização, dos serviços que são solicitados pelos prestadores de saúde. A análise manual das solicitações que é realizada durante a regulação de planos de saúde é um exemplo de fator que tem motivado as OPS a desenvolverem sistemas capazes de identificar fraudes e abusos de forma automática ou semi-automática, muitas vezes por meio de técnicas de Mineração de Dados e Aprendizagem de Máquina. Neste cenário, a utilização dessas técnicas é impactada pelo problema do desbalanceamento de classes, oriundo do fato de haver muito mais solicitações de serviços autorizadas do que não autorizadas pelo processo de regulação. A proposta deste trabalho é investigar os efeitos desse problema na aplicação de técnicas de aprendizagem de máquina no contexto da regulação de planos de saúde. Mais precisamente, é investigar por meio de um experimento o quanto de performance de predição é perdida devido ao desbalanceamento de classes e o quanto dessa performance perdida pode ser recuperada utilizando-se métodos de tratamento específicos aplicados aos dados. Este experimento emprega bases de dados em que as distribuições de classes foram modificadas artificialmente, algoritmos de classificação de diferentes paradigmas e diferentes métodos de tratamento de dados. Entre os resultados mais importantes, notou-se que o desbalanceamento de classes afeta sim a performance de aprendizagem da regulação, mas de forma diferente para cada algoritmo estudado. Observou-se também que os métodos de tratamento são capazes de reduzir a perda de performance, mas também que essa redução depende do algoritmo de classificação e da distribuição de classes empregados em conjunto. ABSTRACT: Private health insurance services in Brazil are an important way of providing health to population. Brazil is the largest private healthcare market in South America, and in 2012 health care costs accounted for about 8 % of GDP. In Brazil many health insurance companies (HIC) are in financial imbalance, in which the added costs are greater than revenues. Fraud and abuse in consuption of healthcare are two factors that directly influence the costs, since they correspond to expenses that could be eliminated without prejudice to the quality of services provided. One of the mechanisms employed by HIC to avoid undue expenses caused by fraud and abuse is a claim authorization process, which consists of a preliminary analysis before release to execution. The manual analysis of claims performed is a factor that has motivated HIC to develop systems able to identify claims linked to fraud and abuse in an automatic or semi-automatic manner, often using data mining and machine learning techniques due to the large amount of data produced by these systems. The use of these techniques is affected by the problem of class imbalance, arising from the fact that the claim authorization process produces more authorized claims than not authorized ones. The purpose of this study is to investigate the effects of class imbalance in the claim authorization domain. More precisely, the goal is to investigate by an experiment
how prediction performance is lost due to class imbalance and how much can be recovered using specific treatment methods applied to the data. This experiment employs databases in which class distributions have been modified artificially, classification algorithms of different paradigms and different treatment methods. Among the most important results, it was noted that the class imbalance does affect the performance of the claim authorization learning, but differently for each studied algorithm. It was also observed that treatment methods can reduce loss of performance, but also that this reduction depends on the classification algorithm and class distribution used together.