Repositório Institucional da UFPI

LLMeFT-TRANSFORMER: uma abordagem de TDL para detecção de Discurso de Òdio e Toxicidade em Redes Sociais

DSpace/Manakin Repository

Show simple item record

dc.contributor.author SARAIVA, Guivvago Damas
dc.date.accessioned 2025-07-03T15:00:30Z
dc.date.available 2025-07-03T15:00:30Z
dc.date.issued 2025-07-03
dc.identifier.uri http://hdl.handle.net/123456789/3934
dc.description Orientador: Profº Dr. Raimundo Santos Moura Co-orientador: Profº. Dr. Rafael Torres Ancheita Examinador interno: Profº. Dr. Rodrigo de Melo Souza Veras Examinador interno: Profº. Dr. Vinícius Ponte Machado Examinador externo: Profº. Dr. Jonice de Oliveira Sampaio pt_BR
dc.description.abstract RESUMO: Nos últimos anos, a incidência de ódio e toxicidade nas redes sociais tem crescido exponen cialmente, tornando-se um fenômeno cada vez mais complexo que permeia os ambientes virtuais. Esse fenômeno, agora intrínseco às interações sociais online, tem sido alvo de análise e detecção por parte das comunidades científicas, expandindo-se para além das disciplinas tradicionais como Direito, Sociologia, Psicologia e Política, adentrando também nas áreas de Processamento de Linguagem Natural, Aprendizado de Máquina e Linguística. Nesse contexto, este estudo propõe uma abordagem para identificar comentários tóxicos ou que contenham discurso de ódio nas redes sociais, utilizando uma combinação de Tabular Deep Learning e Processamento de Linguagem Natural. O objetivo é ampliar um modelo preditivo baseado em Transformer, o FT-Transformer, para detectar com precisão satisfatória se um comentário textual, como um tweet, possui conteúdo tóxico ou de ódio. Uma parte crucial do trabalho é a geração e processamento das características textuais, geradas a partir de modelos pré-treinados como Sentence-Transformer e BERT (tais como BERTimbau e Albertina PT-BR) e outros modelos de embeddings, utilizando-os como poderosos codificadores de texto. Assim, um aspecto importante da pesquisa envolve o uso de modelos de embeddings modernos como incorporadores e modelos de linguagem avaliando seu desempenho com o FT-Transformer, um modelo tabular baseado em trans formador. O cenário experimental utiliza a versão binária do conjunto de dados ToLD-Br e a nossa abordagem alcançou uma precisão de 76% e uma pontuação F1-score de 75% usando o modelo de embedding da OpenAI text-embedding-3-large. Os resultados obtidos indicam o desempenho singular da abordagem, que pode ser aprimorada com a incorpora- ção de novas características, como o uso de técnicas como o RAG (Retrieval-Augmented Generation) que podem melhorar sua capacidade de lidar com as nuances da linguagem e a manutenção das características mais significativas em um objeto textual. Portanto, acreditamos haver oportunidades para aprimorar e expandir a capacidade do modelo em classificar comentários com ódio e toxicidade, destacando ainda mais a abordagem como uma alternativa inovadora em relação às abordagens tradicionais ABSTRACT: n recent years, the prevalence of hate speech and toxicity on social media has grown exponentially, becoming an increasingly complex phenomenon that pervades virtual envi ronments. This study proposes a novel approach to identify toxic or hate speech comments on social media using a combination of tabular deep learning and natural language process ing. The objective is to enhance a transformer-based predictive model, FT-Transformer, for accurately detecting toxic or hateful content in textual comments. A key aspect of this work is the generation and processing of textual features using pre-trained models such as Sentence-Transformer, BERT (e.g., BERTimbau and Albertina PT-BR) and other modern embedding models. These models serve as powerful text encoders, providing rich representations of textual data. The experimental setup employs the binary version of the ToLD-Br dataset. Our approach achieved an accuracy of 76%, and a macro F1 score of 75% using the OpenAI text-embedding-3-large embedding model. The results demonstrate the effectiveness of our proposed approach, which can be further improved by incorporating additional features and techniques such as Retrieval-Augmented Generation (RAG) to enhance its ability to handle linguistic nuances. This research highlights the potential of tabular deep learning and language models in combatting online hate speech. pt_BR
dc.language.iso other pt_BR
dc.subject Ódio pt_BR
dc.subject Toxicidade pt_BR
dc.subject Processamento de Linguagem Natural pt_BR
dc.subject Tabular Deep Learning pt_BR
dc.subject FT-Transformer pt_BR
dc.subject Hate pt_BR
dc.subject Toxicity pt_BR
dc.subject Natural Language Processing pt_BR
dc.subject Tabular Deep Learning pt_BR
dc.subject FT Transformer pt_BR
dc.title LLMeFT-TRANSFORMER: uma abordagem de TDL para detecção de Discurso de Òdio e Toxicidade em Redes Sociais pt_BR
dc.type Preprint pt_BR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account