Evaluating large and small language models for programming problem solving.

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: SOUZA, Débora Lêda de Lucena. lattes
Orientador(a): GHEYI, Rohit. lattes
Banca de defesa: RIBEIRO, Márcio de Medeiros., SOARES, Gustavo Araújo.
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Programa de Pós-Graduação: PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Departamento: Centro de Engenharia Elétrica e Informática - CEEI
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://dspace.sti.ufcg.edu.br/handle/riufcg/42745
Resumo: A transformação de linguagem natural em código está evoluindo rapidamente, impulsionada por avanços em Grandes e Pequenos Modelos de Linguagem (LLMs e SLMs). Embora demonstrem grande potencial na geração de código, a eficácia desses modelos em cenários reais de programação ainda é incerta, especialmente considerando diferentes tipos de problemas e níveis de dificuldade. Este estudo avalia a acurácia de Grandes Modelos de Linguagem (GPT-4, LLAMA 3, CLAUDE 3 SONNET e GEMINI PRO 1.0) em 100 problemas do LeetCode e BeeCrowd, além de investigar o desempenho de Pequenos Modelos de Linguagem (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Be DEEPSEEK-R1 14B) em 280 problemas do Codeforces. Os resultados mostram que, no grupo de LLMs, o GPT-4 liderou com 78 soluções corretas, evidenciando maior facilidade em problemas de nível mais baixo. Já entre os SLMs, o PHI-4 14B destaca-se ao resolver 63% dos problemas, superando significativamente os outros modelos, que apresentaram taxas inferiores a 23%. Esses achados indicam o potencial dos LLMs e SLMs como assistentes de codificação, mas também ressaltam a variação significativa nas taxas de sucesso conforme a complexidade dos problemas. Portanto, apesar de auxiliarem de forma relevante, não devem ser adotados como soluções autônomas. No caso dos SLMs, embora o PHI-4 14B apresente resultados promissores, ainda há limitações.
id UFCG_bb968145ad4a873f557fe880fca4fbf5
oai_identifier_str oai:dspace.sti.ufcg.edu.br:riufcg/42745
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling GHEYI, Rohit.GHEYI, R.http://lattes.cnpq.br/2931270888717344RIBEIRO, Márcio de Medeiros.SOARES, Gustavo Araújo.SOUZA, D. L. L.http://lattes.cnpq.br/8530613968137637SOUZA, Débora Lêda de Lucena.A transformação de linguagem natural em código está evoluindo rapidamente, impulsionada por avanços em Grandes e Pequenos Modelos de Linguagem (LLMs e SLMs). Embora demonstrem grande potencial na geração de código, a eficácia desses modelos em cenários reais de programação ainda é incerta, especialmente considerando diferentes tipos de problemas e níveis de dificuldade. Este estudo avalia a acurácia de Grandes Modelos de Linguagem (GPT-4, LLAMA 3, CLAUDE 3 SONNET e GEMINI PRO 1.0) em 100 problemas do LeetCode e BeeCrowd, além de investigar o desempenho de Pequenos Modelos de Linguagem (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Be DEEPSEEK-R1 14B) em 280 problemas do Codeforces. Os resultados mostram que, no grupo de LLMs, o GPT-4 liderou com 78 soluções corretas, evidenciando maior facilidade em problemas de nível mais baixo. Já entre os SLMs, o PHI-4 14B destaca-se ao resolver 63% dos problemas, superando significativamente os outros modelos, que apresentaram taxas inferiores a 23%. Esses achados indicam o potencial dos LLMs e SLMs como assistentes de codificação, mas também ressaltam a variação significativa nas taxas de sucesso conforme a complexidade dos problemas. Portanto, apesar de auxiliarem de forma relevante, não devem ser adotados como soluções autônomas. No caso dos SLMs, embora o PHI-4 14B apresente resultados promissores, ainda há limitações.The transformation of natural language into code is evolving rapidly, driven by advances in Large and Small Language Models (LLMs and SLMs). Although it demonstrates great potential in code generation, the effectiveness of these models in real programming scenarios is still uncertain, especially considering different types of problem and levels of difficulty. This study evaluates the accuracy of Large Language Models (GPT-4, LLAMA 3, CLAUDE 3 SONNET and GEMINI PRO 1.0) on 100 LeetCode and BeeCrowd problems, in addition to investigating the performance of Small Language Models (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Band DEEPSEEK-R1 14B) on 280 Codeforces problems. The results show that, in the group of LLMs, GPT-4 led with 78 correct solutions, showing greater ease in lower-level problems. Among SLMs, PHI-4 14B stands out by solving 63% of problems, significantly outperforming other models, which apply rates lower than 23%. These results indicate the potential of LLMs and SLMs as settlement residents, but also highlight the significant variation in success rates depending on the complexity of the problems. Therefore, despite helping significantly, they should not be adopted as independent solutions. In the case of SLMs, although PHI-4 14B presents promising results, there are still limitations.Submitted by Michelle Lima (michelle.lima@ufcg.edu.br) on 2025-08-12T15:07:38Z No. of bitstreams: 1 DÉBORA LÊDA DE LUCENA SOUZA - DISSERTAÇÃO (PPGCC) - 2025.pdf: 1501264 bytes, checksum: 650ead80466d8b82de5e6b325f06ee76 (MD5)Made available in DSpace on 2025-08-12T15:07:38Z (GMT). No. of bitstreams: 1 DÉBORA LÊDA DE LUCENA SOUZA - DISSERTAÇÃO (PPGCC) - 2025.pdf: 1501264 bytes, checksum: 650ead80466d8b82de5e6b325f06ee76 (MD5) Previous issue date: 2025-02-24CNPqUniversidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da Computação.Software engineeringLarge language modelsSmall language modelsCode generationCode generation evaluationEngenharia de softwareModelos de linguagem grandesModelos de linguagem pequenosGeração de códigoAvaliação de geração de códigoEvaluating large and small language models for programming problem solving.Avaliando modelos de linguagem grandes e pequenos para resolução de problemas de programação.2025-02-242025-08-12T15:07:38Z2025-08-122025-08-12T15:07:38Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/42745SOUZA, Débora Lêda de Lucena. Evaluating large and small language models for programming problem solving. 2025. 90 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporCapesinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTDÉBORA LÊDA DE LUCENA SOUZA - DISSERTAÇÃO (PPGCC) - 2025.pdf.txtDÉBORA LÊDA DE LUCENA SOUZA - DISSERTAÇÃO (PPGCC) - 2025.pdf.txttext/plain166376https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42745/3/D%C3%89BORA+L%C3%8ADA+DE+LUCENA+SOUZA+-+DISSERTA%C3%87%C3%83O+%28PPGCC%29+-+2025.pdf.txt723a756b9b2e1af8178221f89bd15a2bMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42745/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALDÉBORA LÊDA DE LUCENA SOUZA - DISSERTAÇÃO (PPGCC) - 2025.pdfDÉBORA LÊDA DE LUCENA SOUZA - DISSERTAÇÃO (PPGCC) - 2025.pdfapplication/pdf1501264https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42745/1/D%C3%89BORA+L%C3%8ADA+DE+LUCENA+SOUZA+-+DISSERTA%C3%87%C3%83O+%28PPGCC%29+-+2025.pdf650ead80466d8b82de5e6b325f06ee76MD51riufcg/427452025-11-18 04:21:43.835oai:dspace.sti.ufcg.edu.br:riufcg/42745Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512025-11-18T07:21:43Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Evaluating large and small language models for programming problem solving.
dc.title.alternative.pt_BR.fl_str_mv Avaliando modelos de linguagem grandes e pequenos para resolução de problemas de programação.
title Evaluating large and small language models for programming problem solving.
spellingShingle Evaluating large and small language models for programming problem solving.
SOUZA, Débora Lêda de Lucena.
Ciência da Computação.
Software engineering
Large language models
Small language models
Code generation
Code generation evaluation
Engenharia de software
Modelos de linguagem grandes
Modelos de linguagem pequenos
Geração de código
Avaliação de geração de código
title_short Evaluating large and small language models for programming problem solving.
title_full Evaluating large and small language models for programming problem solving.
title_fullStr Evaluating large and small language models for programming problem solving.
title_full_unstemmed Evaluating large and small language models for programming problem solving.
title_sort Evaluating large and small language models for programming problem solving.
author SOUZA, Débora Lêda de Lucena.
author_facet SOUZA, Débora Lêda de Lucena.
author_role author
dc.contributor.advisor1.fl_str_mv GHEYI, Rohit.
dc.contributor.advisor1ID.fl_str_mv GHEYI, R.
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2931270888717344
dc.contributor.referee1.fl_str_mv RIBEIRO, Márcio de Medeiros.
dc.contributor.referee2.fl_str_mv SOARES, Gustavo Araújo.
dc.contributor.authorID.fl_str_mv SOUZA, D. L. L.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8530613968137637
dc.contributor.author.fl_str_mv SOUZA, Débora Lêda de Lucena.
contributor_str_mv GHEYI, Rohit.
RIBEIRO, Márcio de Medeiros.
SOARES, Gustavo Araújo.
dc.subject.cnpq.fl_str_mv Ciência da Computação.
topic Ciência da Computação.
Software engineering
Large language models
Small language models
Code generation
Code generation evaluation
Engenharia de software
Modelos de linguagem grandes
Modelos de linguagem pequenos
Geração de código
Avaliação de geração de código
dc.subject.por.fl_str_mv Software engineering
Large language models
Small language models
Code generation
Code generation evaluation
Engenharia de software
Modelos de linguagem grandes
Modelos de linguagem pequenos
Geração de código
Avaliação de geração de código
description A transformação de linguagem natural em código está evoluindo rapidamente, impulsionada por avanços em Grandes e Pequenos Modelos de Linguagem (LLMs e SLMs). Embora demonstrem grande potencial na geração de código, a eficácia desses modelos em cenários reais de programação ainda é incerta, especialmente considerando diferentes tipos de problemas e níveis de dificuldade. Este estudo avalia a acurácia de Grandes Modelos de Linguagem (GPT-4, LLAMA 3, CLAUDE 3 SONNET e GEMINI PRO 1.0) em 100 problemas do LeetCode e BeeCrowd, além de investigar o desempenho de Pequenos Modelos de Linguagem (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Be DEEPSEEK-R1 14B) em 280 problemas do Codeforces. Os resultados mostram que, no grupo de LLMs, o GPT-4 liderou com 78 soluções corretas, evidenciando maior facilidade em problemas de nível mais baixo. Já entre os SLMs, o PHI-4 14B destaca-se ao resolver 63% dos problemas, superando significativamente os outros modelos, que apresentaram taxas inferiores a 23%. Esses achados indicam o potencial dos LLMs e SLMs como assistentes de codificação, mas também ressaltam a variação significativa nas taxas de sucesso conforme a complexidade dos problemas. Portanto, apesar de auxiliarem de forma relevante, não devem ser adotados como soluções autônomas. No caso dos SLMs, embora o PHI-4 14B apresente resultados promissores, ainda há limitações.
publishDate 2025
dc.date.issued.fl_str_mv 2025-02-24
dc.date.accessioned.fl_str_mv 2025-08-12T15:07:38Z
dc.date.available.fl_str_mv 2025-08-12
2025-08-12T15:07:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.sti.ufcg.edu.br/handle/riufcg/42745
dc.identifier.citation.fl_str_mv SOUZA, Débora Lêda de Lucena. Evaluating large and small language models for programming problem solving. 2025. 90 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
url https://dspace.sti.ufcg.edu.br/handle/riufcg/42745
identifier_str_mv SOUZA, Débora Lêda de Lucena. Evaluating large and small language models for programming problem solving. 2025. 90 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Capes
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42745/3/D%C3%89BORA+L%C3%8ADA+DE+LUCENA+SOUZA+-+DISSERTA%C3%87%C3%83O+%28PPGCC%29+-+2025.pdf.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42745/2/license.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42745/1/D%C3%89BORA+L%C3%8ADA+DE+LUCENA+SOUZA+-+DISSERTA%C3%87%C3%83O+%28PPGCC%29+-+2025.pdf
bitstream.checksum.fl_str_mv 723a756b9b2e1af8178221f89bd15a2b
8a4605be74aa9ea9d79846c1fba20a33
650ead80466d8b82de5e6b325f06ee76
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1863363572723089408