Abstract:
RESUMO:O reconhecimento facial é uma tarefa desafiadora de Visão Computacional. Nesta disserta-
ção, é proposto um método para reconhecimento de faces aplicando aumento de dados
e transferência de aprendizado de Redes Neurais Convolucionais (CNNs) pré-treinadas.
O foco é analisar o poder do aumento de dados para melhorar o desempenho do sistema.
Foram extraídas características das imagens para o treinamento de classificadores usando a
CNN VGG-Face. Para uma base de imagens de entrada, são aplicadas várias transformações
gerando 12 versões diferentes da base de imagens de entrada, para avaliar qual combinação
produz melhores resultados. Experimentos foram realizados usando o aumento de dados
na base Labeled Faces in the Wild (LFW). Os testes mostraram que a acurácia para essa
base chegou a 98.43%. Também foi criada uma base de dados proprietária composta por
imagens de 12 indivíduos. Para essa base a melhor acurácia foi de 95.41%. A melhoria
dos resultados com o método proposto leva a inferir que o aumento de dados é um passo
essencial para a tarefa de reconhecimento facial. No entanto, como a operação de aumento
que mais contribui com a melhora dos resultados não é a mesma para as duas bases de
entrada é necessário realizar esse estudo para cada aplicação.ABSTRACT:Face recognition is a challenging Computer Vision task. In this dissertation, we propose
a method for face recognition by applying data augmentation and transfer learning in
pre-trained Convolutional Neural Networks (CNNs). Our main focus is to analyze the
power of data augmentation towards improving system accuracy. We have trained classifiers
with extracted features from the VGG-Face CNN. For a given input dataset, we applied
several transformations to generate 12 different versions of the datasets used to evaluate
which combination produces better results. We ran experiments using data augmentation
on the Labeled Faces in the Wild (LFW) dataset. The experiments with LFW reached
accuracy of 98.43%. We also created a proprietary dataset composed of 12 subjects. For the
proprietary dataset, the best accuracy obtained was 95.41%. The improvement of results
with the proposed method leads to infer that data augmentation is an essential step for the
facial recognition task. However, since the augmentation operation that contributes the
most to the results improvement is not the same for the two input datasets it is necessary
to conduct this study for each application.