Abstract:
RESUMO: O uso de ferramentas baseadas em modelos de linguagem de grande escala (LLMs), como
o ChatGPT, tem crescido rapidamente em diversos domínios, inclusive na educação.
No entanto, ainda são escassas as investigações empíricas sobre como essas ferramentas
impactam o processo de aprendizagem em disciplinas como Engenharia de Software. Este
trabalho tem como objetivo investigar como essas ferramentas podem ser utilizadas de
forma eficaz em um ambiente real de ensino, durante as atividades de Levantamento de
Requisitos e Testes. Para isso, foi conduzido um experimento com estudantes da disciplina
Engenharia de Software II do curso de Ciência da Computação da Universidade Federal
do Piauí, disponibilizando uma ferramenta de chat que utiliza com o modelo GPT-4o.
Participaram 16 alunos, cujas 126 interações com a ferramenta foram analisadas com
o uso de testes estatísticos, processamento de linguagem natural e questionários. Os
resultados indicam que, embora o tamanho dos prompts tenha influência na satisfação dos
alunos, o conteúdo dos prompts e a extensão das respostas geradas tiveram impacto mais
relevante na avaliação positiva das interações. Além disso, estudantes com experiência
profissional apresentaram uma abordagem mais técnica, com maior uso de trechos de
código. A tarefa de Testes foi percebida como mais adequada ao uso da IA em comparação
com a de Levantamento de Requisitos, devido à menor dificuldade ao adequar o conteúdo
produzido pelo modelo nas suas aplicações. Este estudo contribui com evidências sobre o
uso pedagógico de LLMs, propondo diretrizes para sua adoção em atividades práticas no
ensino de Engenharia de Software e para avaliar o que foi produzido pelos alunos.
ABSTRACT: The use of tools based on large language models (LLMs), such as ChatGPT, has been rapidly
expanding across various domains, including education. However, empirical investigations
into how these tools impact the learning process in disciplines like Software Engineering
remain scarce. This study aims to investigate how such tools can be effectively used in a real
educational setting, specifically during Requirements Elicitation and Testing activities. To
this end, an experiment was conducted with students enrolled in the Software Engineering
II course in the Computer Science program at the Federal University of Piauí, using a
custom chat tool powered by the GPT-4o model. Sixteen students participated, and a total
of 126 interactions with the tool were analyzed through statistical testing, natural language
processing, and questionnaires. The results indicate that while the length of the prompts
influences student satisfaction, the content of the prompts and the length of the responses
had a more significant impact on the likelihood of a positive evaluation. Additionally,
students with professional experience demonstrated a more technical approach, with
greater inclusion of code snippets in their prompts. The Testing activity was perceived as
more suitable for using the AI tool compared to Requirements Elicitation, due to fewer
difficulties in adapting the model’s output to their project context. This study contributes
empirical evidence on the pedagogical use of LLMs and proposes guidelines for their
adoption in practical learning activities in Software Engineering, as well as for evaluating
the content produced by students.