Abstract:
RESUMO: O peixe-boi marinho (Trichechus manatus manatus) é o mamífero aquático mais ameaçado
de extinção no Brasil e sua distribuição ao longo da costa marinha tem diminuído com
o passar dos anos. Para o desenvolvimento de propostas de preservação da espécie e de
seu habitat é preciso conhecer como estes animais interagem com os recursos naturais
disponíveis e quais as características ambientais que tornam possível a sua sobrevivência.
Métodos estatísticos frequentemente são usados para este propósito, porém não se adequam
totalmente à necessidade, tendo em vista que os ecossistemas apresentam relações nãolineares
entre seus componentes. Dada a existência de uma base de dados sobre a presença
de peixe-boi marinho no estuário dos rios Timonha e Ubatuba (PI/CE), coletada pela
ONG Comissão Ilha Ativa, foi proposto o uso do processo de Descoberta de Conhecimento
em Bases de Dados (DCBD) para a obtenção de padrões potencialmente úteis que possam
auxiliar no entendimento da ecologia da espécie e para se alcançar um classificador da presença
da espécie e região de aparecimento dos indivíduos. A metodologia utilizada engloba
o pré-processamento, transformação, mineração dos dados e avaliação/interpretação dos
padrões obtidos. No pré-processamento foram retirados ruídos e na fase de transformação
os dados foram modificados para permitir sua exploração em diferentes aspectos. Na
fase de mineração dos dados foram empregados classificadores dos paradigmas simbólico
(J48, Random Forest e Random Tree), estatístico (Naive Bayes e Tree Augmented Naive
Bayes) e conexionista (Multi Layer Perceptron e Radial Basis Function). Também foram
gerados clusters com o algoritmo K-means e executado a rotulação automática destes
grupos gerados. Os resultados obtidos foram avaliados de acordo com um conjunto de
métricas selecionadas (acurácia, índice Kappa, precisão, recall, f-measure e área sob a
curva ROC) para que se pudesse avaliar a qualidade deles e para descobrir informações
importantes sobre os atributos estudados. O algoritmo Random Forest se destacou na
classificação de presença da espécie e obteve uma acurácia de 99,7%. O modelo MLP foi o
melhor classificador para a região de aparecimento, ele obteve uma acurácia de 96,1%. A
interpretação dos padrões obtidos foi apoiada pela literatura especializada e os resultados
estão de acordo com o que é mostrado pelos levantamentos de distribuição e ocorrências
do mamífero no país.------------------ABSTRACT: The marine manatee (Trichechus manatus manatus) is the most endangered aquatic
mammal in Brazil and its distribution along the coast has declined over the years. For
the development of proposals for the preservation of the species and its habitat, it is
necessary to know how these animals interact with the natural resources available and
what environmental characteristics make their survival possible. Statistical methods are
often used for this purpose, but they do not fully fit the need, since ecosystems have
non-linear relationships between their components. Due to the existence of a database
about the presence of marine manatee in the Timonha and Ubatuba rivers estuary (PI/CE
in Brazil), collected by the NGO Comissão Ilha Ativa, it was proposed the Knowledge
Discovery in Databases (KDD) process to obtain potentially and useful patterns that
can help in understanding the ecology of the species and to reach a classifier of the
presence of the species and region of appearance of the individuals. The methodology used
includes the pre-processing, transformation, data mining and evaluation/interpretation
of the obtained standards. In the pre-processing phase, noises were removed and in the
transformation phase the data were modified to allow its exploitation in different aspects.
In the data mining phase, we used classifiers of the symbolic paradigms (J48, Random
Forest and Random Tree), statistical (Naive Bayes and Tree Augmented Naive Bayes)
and connectionist (Multi Layer Perceptron and Radial Basis Function). Clusters were
also generated with the K-means algorithm and the automatic labeling of these generated
groups was executed. The results obtained were evaluated according to a set of selected
metrics (accuracy, Kappa index, precision, recall, f-measure and area under the ROC
curve) to verify their qualities and to discover important information about the attributes
studied. The algorithm Random Forest was excelled in the presence classification of the
species and obtained an accuracy of 99.7%. The MLP model was the best classifier for the
region of appearance, it obtained an accuracy of 96.1%. The interpretation of the patterns
obtained was supported by the specialized literature and the results are in agreement
with what is shown by the surveys of distribution and occurrences of the mammal in the
country.