Abstract:
RESUMO: A evolução do e-commerce e das Redes Sociais Online (RSO) contribuiu para o aumento
das informações disponíveis, tornando a tarefa de analisar comentários de forma manual
praticamente impossível para o processo de tomada de decisão sobre a aquisição ou não de
um produto ou serviço. Devido ao volume de informações tornou-se necessário criar métodos
automáticos de extração de conhecimento. A mineração de opinião é um dos temas tratados
pela comunidade de Processamento de Linguagem Natural (PLN). Atualmente, para
facilitar a análise de comentários alguns sites utilizam filtros tais como, votos de utilidade ou
número de estrelas. Porém, o uso desses filtros não é uma boa prática pois eles podem excluir
comentários que tenham sido recentemente submetidos ao processo de votação, além de
existir a possibilidade do usuário superestimar ou subestimar o comentário com a atribuição
das estrelas. Uma possível solução para tais problemas é filtrar os comentários baseados
na descrição textual, nas informações do autor e em outras medidas. Sousa (2015) propôs
uma abordagem, denominada TOP(X), para estimar o grau de importância de comentários
sobre produtos e serviços utilizando um Sistema Fuzzy com três variáveis de entrada:
reputação do autor, extração de tuplas <característica, palavra opinativa> e analisador de
riqueza e uma variável de saída: grau de importância do comentário. Apesar da abordagem
apresentar bons resultados, alguns problemas ficaram pendentes de resolução e melhorias,
além da possibilidade de alterar o modelo computacional utilizado. Esta Dissertação
propõe adaptações em duas variáveis de entrada, a saber: quantidade de tuplas e riqueza
do vocabulário e a construção de novas abordagens utilizando modelos computacionais
baseados em Sistemas Fuzzy e Redes Neurais Artificiais (RNA). Adicionalmente, fez-se uma
comparação entre as abordagens propostas por meio de medidas estatísticas. Experimentos
realizados no domínio de hotéis mostraram que a abordagem utilizando Sistema Fuzzy
obteve melhores resultados na detecção dos comentários mais importantes, sem considerar
a orientação semântica dos comentários. Entretanto, a abordagem usando RNA do tipo
Multi-Layer Perceptron (MLP) obteve melhores resultados quando se conhece a orientação
semântica do comentário (positivo ou negativo)..............ABSTRACT: The evolution of e-commerce and On-line Social Networks has contributed to the increase
of the information available, making the task of analyzing the reviews manually almost
impossible for the buying (or not) a product or service decision-making process. Due to the
amount of information, the creation of automatic methods of knowledge extraction and
data mining has become necessary. The opinion mining is one of the topics addressed by
the Natural Language Processing (NLP) community. Currently, to facilitate the analysis
of reviews some websites use filters such as votes by utility or by stars. However, the use
of these filters is not a good practice because they may exclude reviews that have recently
been submitted to the voting process, besides the possibility of the user overestimate
or underestimate the review with attribution of stars. One possible solution is to filter
the reviews based on their textual descriptions, author informations and others measures.
Sousa (2015) proposed an approach, called TOP(X), to estimate the degree of importance
of reviews about products and services using a Fuzzy System with three input variables:
author reputation, extraction of tuples <feature, opinion word> and richness analyzer
and an output variable: degree of importance of the review. Although the approach
presented good results, some problems were pending of resolution and improvements,
besides the possibility to change the computational model used. This Dissertation proposes
adaptations in two input variables, namely: quantity of tuples and vocabulary richness
and the building of new approaches using computational models based on Fuzzy Systems
and Artificial Neural Networks (ANN). In addition, a comparison was made among the
proposed approaches through statistical measures. Experiments performed in the hoteldomain
showed that the approach using Fuzzy System obtained better results when
detecting the most important reviews, without considering the semantic orientation of the
comments. However, the approach using Multi-Layer Perceptron (MLP) Artificial Neural
Networks obtained better results when is known the semantic orientation of the review
(positive or negative).