Evaluating large and small language models for programming problem solving.

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: SOUZA, Débora Lêda de Lucena.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://dspace.sti.ufcg.edu.br/handle/riufcg/42745
Resumo: A transformação de linguagem natural em código está evoluindo rapidamente, impulsionada por avanços em Grandes e Pequenos Modelos de Linguagem (LLMs e SLMs). Embora demonstrem grande potencial na geração de código, a eficácia desses modelos em cenários reais de programação ainda é incerta, especialmente considerando diferentes tipos de problemas e níveis de dificuldade. Este estudo avalia a acurácia de Grandes Modelos de Linguagem (GPT-4, LLAMA 3, CLAUDE 3 SONNET e GEMINI PRO 1.0) em 100 problemas do LeetCode e BeeCrowd, além de investigar o desempenho de Pequenos Modelos de Linguagem (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Be DEEPSEEK-R1 14B) em 280 problemas do Codeforces. Os resultados mostram que, no grupo de LLMs, o GPT-4 liderou com 78 soluções corretas, evidenciando maior facilidade em problemas de nível mais baixo. Já entre os SLMs, o PHI-4 14B destaca-se ao resolver 63% dos problemas, superando significativamente os outros modelos, que apresentaram taxas inferiores a 23%. Esses achados indicam o potencial dos LLMs e SLMs como assistentes de codificação, mas também ressaltam a variação significativa nas taxas de sucesso conforme a complexidade dos problemas. Portanto, apesar de auxiliarem de forma relevante, não devem ser adotados como soluções autônomas. No caso dos SLMs, embora o PHI-4 14B apresente resultados promissores, ainda há limitações.
id UFCG_bb968145ad4a873f557fe880fca4fbf5
oai_identifier_str oai:dspace.sti.ufcg.edu.br:riufcg/42745
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling Evaluating large and small language models for programming problem solving.Avaliando modelos de linguagem grandes e pequenos para resolução de problemas de programação.Software engineeringLarge language modelsSmall language modelsCode generationCode generation evaluationEngenharia de softwareModelos de linguagem grandesModelos de linguagem pequenosGeração de códigoAvaliação de geração de códigoCiência da Computação.A transformação de linguagem natural em código está evoluindo rapidamente, impulsionada por avanços em Grandes e Pequenos Modelos de Linguagem (LLMs e SLMs). Embora demonstrem grande potencial na geração de código, a eficácia desses modelos em cenários reais de programação ainda é incerta, especialmente considerando diferentes tipos de problemas e níveis de dificuldade. Este estudo avalia a acurácia de Grandes Modelos de Linguagem (GPT-4, LLAMA 3, CLAUDE 3 SONNET e GEMINI PRO 1.0) em 100 problemas do LeetCode e BeeCrowd, além de investigar o desempenho de Pequenos Modelos de Linguagem (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Be DEEPSEEK-R1 14B) em 280 problemas do Codeforces. Os resultados mostram que, no grupo de LLMs, o GPT-4 liderou com 78 soluções corretas, evidenciando maior facilidade em problemas de nível mais baixo. Já entre os SLMs, o PHI-4 14B destaca-se ao resolver 63% dos problemas, superando significativamente os outros modelos, que apresentaram taxas inferiores a 23%. Esses achados indicam o potencial dos LLMs e SLMs como assistentes de codificação, mas também ressaltam a variação significativa nas taxas de sucesso conforme a complexidade dos problemas. Portanto, apesar de auxiliarem de forma relevante, não devem ser adotados como soluções autônomas. No caso dos SLMs, embora o PHI-4 14B apresente resultados promissores, ainda há limitações.The transformation of natural language into code is evolving rapidly, driven by advances in Large and Small Language Models (LLMs and SLMs). Although it demonstrates great potential in code generation, the effectiveness of these models in real programming scenarios is still uncertain, especially considering different types of problem and levels of difficulty. This study evaluates the accuracy of Large Language Models (GPT-4, LLAMA 3, CLAUDE 3 SONNET and GEMINI PRO 1.0) on 100 LeetCode and BeeCrowd problems, in addition to investigating the performance of Small Language Models (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Band DEEPSEEK-R1 14B) on 280 Codeforces problems. The results show that, in the group of LLMs, GPT-4 led with 78 correct solutions, showing greater ease in lower-level problems. Among SLMs, PHI-4 14B stands out by solving 63% of problems, significantly outperforming other models, which apply rates lower than 23%. These results indicate the potential of LLMs and SLMs as settlement residents, but also highlight the significant variation in success rates depending on the complexity of the problems. Therefore, despite helping significantly, they should not be adopted as independent solutions. In the case of SLMs, although PHI-4 14B presents promising results, there are still limitations.CNPqUniversidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGGHEYI, Rohit.GHEYI, R.http://lattes.cnpq.br/2931270888717344RIBEIRO, Márcio de Medeiros.SOARES, Gustavo Araújo.SOUZA, Débora Lêda de Lucena.2025-02-242025-08-12T15:07:38Z2025-08-122025-08-12T15:07:38Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://dspace.sti.ufcg.edu.br/handle/riufcg/42745SOUZA, Débora Lêda de Lucena. Evaluating large and small language models for programming problem solving. 2025. 90 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.porCapesinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2025-11-18T07:21:43Zoai:dspace.sti.ufcg.edu.br:riufcg/42745Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512025-11-18T07:21:43Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Evaluating large and small language models for programming problem solving.
Avaliando modelos de linguagem grandes e pequenos para resolução de problemas de programação.
title Evaluating large and small language models for programming problem solving.
spellingShingle Evaluating large and small language models for programming problem solving.
SOUZA, Débora Lêda de Lucena.
Software engineering
Large language models
Small language models
Code generation
Code generation evaluation
Engenharia de software
Modelos de linguagem grandes
Modelos de linguagem pequenos
Geração de código
Avaliação de geração de código
Ciência da Computação.
title_short Evaluating large and small language models for programming problem solving.
title_full Evaluating large and small language models for programming problem solving.
title_fullStr Evaluating large and small language models for programming problem solving.
title_full_unstemmed Evaluating large and small language models for programming problem solving.
title_sort Evaluating large and small language models for programming problem solving.
author SOUZA, Débora Lêda de Lucena.
author_facet SOUZA, Débora Lêda de Lucena.
author_role author
dc.contributor.none.fl_str_mv GHEYI, Rohit.
GHEYI, R.
http://lattes.cnpq.br/2931270888717344
RIBEIRO, Márcio de Medeiros.
SOARES, Gustavo Araújo.
dc.contributor.author.fl_str_mv SOUZA, Débora Lêda de Lucena.
dc.subject.por.fl_str_mv Software engineering
Large language models
Small language models
Code generation
Code generation evaluation
Engenharia de software
Modelos de linguagem grandes
Modelos de linguagem pequenos
Geração de código
Avaliação de geração de código
Ciência da Computação.
topic Software engineering
Large language models
Small language models
Code generation
Code generation evaluation
Engenharia de software
Modelos de linguagem grandes
Modelos de linguagem pequenos
Geração de código
Avaliação de geração de código
Ciência da Computação.
description A transformação de linguagem natural em código está evoluindo rapidamente, impulsionada por avanços em Grandes e Pequenos Modelos de Linguagem (LLMs e SLMs). Embora demonstrem grande potencial na geração de código, a eficácia desses modelos em cenários reais de programação ainda é incerta, especialmente considerando diferentes tipos de problemas e níveis de dificuldade. Este estudo avalia a acurácia de Grandes Modelos de Linguagem (GPT-4, LLAMA 3, CLAUDE 3 SONNET e GEMINI PRO 1.0) em 100 problemas do LeetCode e BeeCrowd, além de investigar o desempenho de Pequenos Modelos de Linguagem (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Be DEEPSEEK-R1 14B) em 280 problemas do Codeforces. Os resultados mostram que, no grupo de LLMs, o GPT-4 liderou com 78 soluções corretas, evidenciando maior facilidade em problemas de nível mais baixo. Já entre os SLMs, o PHI-4 14B destaca-se ao resolver 63% dos problemas, superando significativamente os outros modelos, que apresentaram taxas inferiores a 23%. Esses achados indicam o potencial dos LLMs e SLMs como assistentes de codificação, mas também ressaltam a variação significativa nas taxas de sucesso conforme a complexidade dos problemas. Portanto, apesar de auxiliarem de forma relevante, não devem ser adotados como soluções autônomas. No caso dos SLMs, embora o PHI-4 14B apresente resultados promissores, ainda há limitações.
publishDate 2025
dc.date.none.fl_str_mv 2025-02-24
2025-08-12T15:07:38Z
2025-08-12
2025-08-12T15:07:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.sti.ufcg.edu.br/handle/riufcg/42745
SOUZA, Débora Lêda de Lucena. Evaluating large and small language models for programming problem solving. 2025. 90 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
url https://dspace.sti.ufcg.edu.br/handle/riufcg/42745
identifier_str_mv SOUZA, Débora Lêda de Lucena. Evaluating large and small language models for programming problem solving. 2025. 90 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Capes
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1851784703452905472