Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: SOUSA, Hiago Natan Fernandes de.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://dspace.sti.ufcg.edu.br/handle/riufcg/41048
Resumo: OBehavior-Driven Development (BDD) é essencial no desenvolvimento de software mod erno, com a linguagem Gherkin sendo crucial para especificar cenários de teste. No entanto, a criação manual desses cenários é demorada e propensa a erros. Os Grandes Modelos de Linguagem (LLM) surgem como uma solução inovadora para automatizar e otimizar esse processo, oferecendo uma alternativa mais eficiente e confiável. Neste estudo, investigamos a eficácia de seis LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT 4o Mini, LLaMA 3, Phi-3 e Gemini) na geração automatizada de cenários Gherkin a partir de 1.286 cenários de teste reais. Aplicamos diferentes técnicas de prompting, como zero shot, one-shot e few-shot, para avaliar a qualidade e a consistência das saídas produzidas. O objetivo foi identificar a técnica e o modelo mais adequados para a criação de cenários BDD. Para conduzir a análise, foram selecionadas medidas de avaliação de qualidade e variabil idade, que foram correlacionadas com avaliações qualitativas realizadas por especialistas. Isso garantiu a escolha de métricas representativas que refletem adequadamente a qualidade dos cenários gerados. Além disso, análises estatísticas foram realizadas para verificar a ex istência de diferenças significativas entre os modelos e técnicas aplicadas, assegurando a robustez metodológica do estudo. A análise de variabilidade apontou que a consistência dos modelos depende da técnica utilizada: em zero-shot, o Gemini foi mais consistente, enquanto LLaMA 3 e GPT-3.5 Turbo apresentaram maior variabilidade. Em one-shot, GPT-4o Mini e GPT-4 Turbo se destacaram pela estabilidade, ao passo que em few-shot, GPT-4o Mini e LLaMA 3 foram os mais es táveis. A análise de desempenho revelou que a técnica zero-shot foi a mais eficaz em diversos contextos, especialmente quando aplicada ao modelo Gemini. No entanto, análises estatís ticas, como o teste de Kruskal-Wallis, demonstraram que as diferenças observadas entre os modelos não foram estatisticamente significativas.
id UFCG_9e782b55bbfc1a86f71f42651a64ed3b
oai_identifier_str oai:dspace.sti.ufcg.edu.br:riufcg/41048
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.A comparative experiment of the effectiveness of different LLM in generating Gherkin scenarios.Behavior-Driven Development (BDD)GherkinModelos de linguagem de grande escalaGeração automatizada de cenáriosAvaliação de qualidadeAnálise de variabilidadeLarge-scale language modelsAutomated scenario generationQuality assessmentVariability analysisComputação.Informática.OBehavior-Driven Development (BDD) é essencial no desenvolvimento de software mod erno, com a linguagem Gherkin sendo crucial para especificar cenários de teste. No entanto, a criação manual desses cenários é demorada e propensa a erros. Os Grandes Modelos de Linguagem (LLM) surgem como uma solução inovadora para automatizar e otimizar esse processo, oferecendo uma alternativa mais eficiente e confiável. Neste estudo, investigamos a eficácia de seis LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT 4o Mini, LLaMA 3, Phi-3 e Gemini) na geração automatizada de cenários Gherkin a partir de 1.286 cenários de teste reais. Aplicamos diferentes técnicas de prompting, como zero shot, one-shot e few-shot, para avaliar a qualidade e a consistência das saídas produzidas. O objetivo foi identificar a técnica e o modelo mais adequados para a criação de cenários BDD. Para conduzir a análise, foram selecionadas medidas de avaliação de qualidade e variabil idade, que foram correlacionadas com avaliações qualitativas realizadas por especialistas. Isso garantiu a escolha de métricas representativas que refletem adequadamente a qualidade dos cenários gerados. Além disso, análises estatísticas foram realizadas para verificar a ex istência de diferenças significativas entre os modelos e técnicas aplicadas, assegurando a robustez metodológica do estudo. A análise de variabilidade apontou que a consistência dos modelos depende da técnica utilizada: em zero-shot, o Gemini foi mais consistente, enquanto LLaMA 3 e GPT-3.5 Turbo apresentaram maior variabilidade. Em one-shot, GPT-4o Mini e GPT-4 Turbo se destacaram pela estabilidade, ao passo que em few-shot, GPT-4o Mini e LLaMA 3 foram os mais es táveis. A análise de desempenho revelou que a técnica zero-shot foi a mais eficaz em diversos contextos, especialmente quando aplicada ao modelo Gemini. No entanto, análises estatís ticas, como o teste de Kruskal-Wallis, demonstraram que as diferenças observadas entre os modelos não foram estatisticamente significativas.Behavior-Driven Development (BDD) is essential in modern software development, with the Gherkin language playing a crucial role in specifying test scenarios. However, the manual creation of these scenarios is time-consuming and error-prone. Large Language Models (LLMs) emerge as an innovative solution to automate and optimize this process, offering a more efficient and reliable alternative. In this study, we investigated the effectiveness of six LLMs (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o Mini, LLaMA 3, Phi-3, and Gemini) in the automated generation of Gherkin scenarios from 1,286 real-world test scenarios. We applied different prompting techniques, such as zero-shot, one-shot, and few-shot, to evaluate the quality and consistency of the gen erated outputs. The goal was to identify the most suitable technique and model for creating BDDscenarios. To conduct the analysis, we selected quality and variability evaluation measures, which were correlated with qualitative assessments performed by experts. This ensured the choice of representative metrics that adequately reflect the quality of the generated scenarios. Addi tionally, statistical analyses were performed to verify the existence of significant differences between the models and techniques applied, ensuring the methodological robustness of the study. The variability analysis indicated that the consistency of the models depends on the tech nique used: in zero-shot, Gemini was more consistent, while LLaMA 3 and GPT-3.5 Turbo showed higher variability. In one-shot, GPT-4o Mini and GPT-4 Turbo stood out for their stability, whereas in few-shot, GPT-4o Mini and LLaMA 3 were the most stable. The per formance analysis revealed that the zero-shot technique was the most effective in various contexts, especially when applied to the Gemini model. However, statistical analyses, such as the Kruskal-Wallis test, demonstrated that the observed differences between the models were not statistically significant.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGSANTOS, Danilo Freire de Souza.Danilo F. S. Santos.http://lattes.cnpq.br/9890987649970131PERKUSICH, Mirko Barbosa.PERKUSICH, M. B.http://lattes.cnpq.br/3250186213608951GORGÔNIO, Kyller Costa.ALBUQUERQUE, Danyllo Wagner.SOUSA, Hiago Natan Fernandes de.2025-01-312025-03-14T12:25:35Z2025-03-142025-03-14T12:25:35Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://dspace.sti.ufcg.edu.br/handle/riufcg/41048SOUSA, Hiago Natan Fernandes de. Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin. 2025. 141 f. Dissertação (Mestrado em Computação) – Programa de Pós-Graduação em Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2025-11-18T07:17:07Zoai:dspace.sti.ufcg.edu.br:riufcg/41048Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512025-11-18T07:17:07Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
A comparative experiment of the effectiveness of different LLM in generating Gherkin scenarios.
title Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
spellingShingle Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
SOUSA, Hiago Natan Fernandes de.
Behavior-Driven Development (BDD)
Gherkin
Modelos de linguagem de grande escala
Geração automatizada de cenários
Avaliação de qualidade
Análise de variabilidade
Large-scale language models
Automated scenario generation
Quality assessment
Variability analysis
Computação.
Informática.
title_short Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
title_full Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
title_fullStr Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
title_full_unstemmed Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
title_sort Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.
author SOUSA, Hiago Natan Fernandes de.
author_facet SOUSA, Hiago Natan Fernandes de.
author_role author
dc.contributor.none.fl_str_mv SANTOS, Danilo Freire de Souza.
Danilo F. S. Santos.
http://lattes.cnpq.br/9890987649970131
PERKUSICH, Mirko Barbosa.
PERKUSICH, M. B.
http://lattes.cnpq.br/3250186213608951
GORGÔNIO, Kyller Costa.
ALBUQUERQUE, Danyllo Wagner.
dc.contributor.author.fl_str_mv SOUSA, Hiago Natan Fernandes de.
dc.subject.por.fl_str_mv Behavior-Driven Development (BDD)
Gherkin
Modelos de linguagem de grande escala
Geração automatizada de cenários
Avaliação de qualidade
Análise de variabilidade
Large-scale language models
Automated scenario generation
Quality assessment
Variability analysis
Computação.
Informática.
topic Behavior-Driven Development (BDD)
Gherkin
Modelos de linguagem de grande escala
Geração automatizada de cenários
Avaliação de qualidade
Análise de variabilidade
Large-scale language models
Automated scenario generation
Quality assessment
Variability analysis
Computação.
Informática.
description OBehavior-Driven Development (BDD) é essencial no desenvolvimento de software mod erno, com a linguagem Gherkin sendo crucial para especificar cenários de teste. No entanto, a criação manual desses cenários é demorada e propensa a erros. Os Grandes Modelos de Linguagem (LLM) surgem como uma solução inovadora para automatizar e otimizar esse processo, oferecendo uma alternativa mais eficiente e confiável. Neste estudo, investigamos a eficácia de seis LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT 4o Mini, LLaMA 3, Phi-3 e Gemini) na geração automatizada de cenários Gherkin a partir de 1.286 cenários de teste reais. Aplicamos diferentes técnicas de prompting, como zero shot, one-shot e few-shot, para avaliar a qualidade e a consistência das saídas produzidas. O objetivo foi identificar a técnica e o modelo mais adequados para a criação de cenários BDD. Para conduzir a análise, foram selecionadas medidas de avaliação de qualidade e variabil idade, que foram correlacionadas com avaliações qualitativas realizadas por especialistas. Isso garantiu a escolha de métricas representativas que refletem adequadamente a qualidade dos cenários gerados. Além disso, análises estatísticas foram realizadas para verificar a ex istência de diferenças significativas entre os modelos e técnicas aplicadas, assegurando a robustez metodológica do estudo. A análise de variabilidade apontou que a consistência dos modelos depende da técnica utilizada: em zero-shot, o Gemini foi mais consistente, enquanto LLaMA 3 e GPT-3.5 Turbo apresentaram maior variabilidade. Em one-shot, GPT-4o Mini e GPT-4 Turbo se destacaram pela estabilidade, ao passo que em few-shot, GPT-4o Mini e LLaMA 3 foram os mais es táveis. A análise de desempenho revelou que a técnica zero-shot foi a mais eficaz em diversos contextos, especialmente quando aplicada ao modelo Gemini. No entanto, análises estatís ticas, como o teste de Kruskal-Wallis, demonstraram que as diferenças observadas entre os modelos não foram estatisticamente significativas.
publishDate 2025
dc.date.none.fl_str_mv 2025-01-31
2025-03-14T12:25:35Z
2025-03-14
2025-03-14T12:25:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.sti.ufcg.edu.br/handle/riufcg/41048
SOUSA, Hiago Natan Fernandes de. Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin. 2025. 141 f. Dissertação (Mestrado em Computação) – Programa de Pós-Graduação em Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
url https://dspace.sti.ufcg.edu.br/handle/riufcg/41048
identifier_str_mv SOUSA, Hiago Natan Fernandes de. Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin. 2025. 141 f. Dissertação (Mestrado em Computação) – Programa de Pós-Graduação em Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1851784697728729088