Abstract:
RESUMO: Nos últimos anos, a incidência de ódio e toxicidade nas redes sociais tem crescido exponen cialmente, tornando-se um fenômeno cada vez mais complexo que permeia os ambientes
virtuais. Esse fenômeno, agora intrínseco às interações sociais online, tem sido alvo de
análise e detecção por parte das comunidades científicas, expandindo-se para além das
disciplinas tradicionais como Direito, Sociologia, Psicologia e Política, adentrando também
nas áreas de Processamento de Linguagem Natural, Aprendizado de Máquina e Linguística.
Nesse contexto, este estudo propõe uma abordagem para identificar comentários tóxicos
ou que contenham discurso de ódio nas redes sociais, utilizando uma combinação de
Tabular Deep Learning e Processamento de Linguagem Natural. O objetivo é ampliar um
modelo preditivo baseado em Transformer, o FT-Transformer, para detectar com precisão
satisfatória se um comentário textual, como um tweet, possui conteúdo tóxico ou de ódio.
Uma parte crucial do trabalho é a geração e processamento das características textuais,
geradas a partir de modelos pré-treinados como Sentence-Transformer e BERT (tais como
BERTimbau e Albertina PT-BR) e outros modelos de embeddings, utilizando-os como
poderosos codificadores de texto. Assim, um aspecto importante da pesquisa envolve o
uso de modelos de embeddings modernos como incorporadores e modelos de linguagem
avaliando seu desempenho com o FT-Transformer, um modelo tabular baseado em trans formador. O cenário experimental utiliza a versão binária do conjunto de dados ToLD-Br
e a nossa abordagem alcançou uma precisão de 76% e uma pontuação F1-score de 75%
usando o modelo de embedding da OpenAI text-embedding-3-large. Os resultados obtidos
indicam o desempenho singular da abordagem, que pode ser aprimorada com a incorpora-
ção de novas características, como o uso de técnicas como o RAG (Retrieval-Augmented
Generation) que podem melhorar sua capacidade de lidar com as nuances da linguagem
e a manutenção das características mais significativas em um objeto textual. Portanto,
acreditamos haver oportunidades para aprimorar e expandir a capacidade do modelo em
classificar comentários com ódio e toxicidade, destacando ainda mais a abordagem como
uma alternativa inovadora em relação às abordagens tradicionais
ABSTRACT: n recent years, the prevalence of hate speech and toxicity on social media has grown
exponentially, becoming an increasingly complex phenomenon that pervades virtual envi ronments. This study proposes a novel approach to identify toxic or hate speech comments
on social media using a combination of tabular deep learning and natural language process ing. The objective is to enhance a transformer-based predictive model, FT-Transformer,
for accurately detecting toxic or hateful content in textual comments. A key aspect of
this work is the generation and processing of textual features using pre-trained models
such as Sentence-Transformer, BERT (e.g., BERTimbau and Albertina PT-BR) and other
modern embedding models. These models serve as powerful text encoders, providing rich
representations of textual data. The experimental setup employs the binary version of the
ToLD-Br dataset. Our approach achieved an accuracy of 76%, and a macro F1 score of 75%
using the OpenAI text-embedding-3-large embedding model. The results demonstrate the
effectiveness of our proposed approach, which can be further improved by incorporating
additional features and techniques such as Retrieval-Augmented Generation (RAG) to
enhance its ability to handle linguistic nuances. This research highlights the potential of
tabular deep learning and language models in combatting online hate speech.