Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell

ALMEIDA, João Victor Soares de.

Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	ALMEIDA, João Victor Soares de.
Orientador(a):	MONTEIRO, João Arthur Brunet.
Banca de defesa:	MASSONI, Tiago Lima., TEIXEIRA , Leopoldo Motta.
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Campina Grande
Programa de Pós-Graduação:	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Departamento:	Centro de Engenharia Elétrica e Informática - CEEI
País:	Brasil
Palavras-chave em Português:	Prompt Análise sistemática Pull Requests LLaMA-2 13B Code smells Revisão de código Systematic analysis Code review
Área do conhecimento CNPq:	Ciência da Computação
Link de acesso:	https://dspace.sti.ufcg.edu.br/handle/riufcg/42073
Resumo:	A revisão de código em projetos de código aberto é uma prática comum e essencial no desenvolvimento de software, visando garantir a qualidade do código-fonte e detectar problemas na implementação. No entanto, embora essencial, essa prática manual pode se tornar dispendiosa e suscetível a erros, especialmente em projetos maiores e colaborativos. Diante deste cenário, investigamos como o Large Language Model Meta AI (LLaMA-2 13B) pode contribuir especificamente na revisão de code smells, buscando compreender suas capacidades e limitações no ciclo de desenvolvimento. Nossa investigação baseou-se em dados extraídos de projetos de código aberto consolidados como Neovim, Keycloak e gRPC. Partindo de 19.149 comentários distribuídos em 6.365 Pull Requests, aplicamos uma abordagem híbrida que consistiu em filtragem sistemática por palavras-chave seguida de análise manual dos comentários, resultando em um dataset focado em code smells de 3.023 comentários. Após desenvolver um prompt específico para orientar as revisões do modelo, selecionamos uma amostra estratificada de 637 comentários (21,10% do dataset) para uma avaliação detalhada. Os resultados revelaram que 91,73% das revisões do modelo apresentaram baixa similaridade com as revisões humanas. Nossa análise qualitativa identificou que em 72% das intervenções o modelo diverge do foco dos revisores humanos, embora forneça análises tecnicamente abrangentes em 48,3% dos casos. Os resultados sugerem que, embora o LLaMA-2 13B seja capaz de realizar análises relevantes, suas limitações de contexto resultam em revisões que frequentemente divergem do foco dos revisores humanos. Por fim, concluímos que o modelo pode ser mais efetivo quando utilizado como ferramenta complementar à revisão humana, não como substituto. Palavras-chave: Revisão de código; code smells; LLaMA-2 13B; Pull Requests; análise sistemática; prompt.

Metadados do item

id	UFCG_2851170b1f31253e16a1ee89ca24dccb
oai_identifier_str	oai:dspace.sti.ufcg.edu.br:riufcg/42073
network_acronym_str	UFCG
network_name_str	Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling	MONTEIRO, João Arthur Brunet.BRUNET, J. A. M.http://lattes.cnpq.br/7892247821251194MASSONI, Tiago Lima.TEIXEIRA , Leopoldo Motta.ALMEIDA, J. V. S.http://lattes.cnpq.br/0668664022330187ALMEIDA, João Victor Soares de.A revisão de código em projetos de código aberto é uma prática comum e essencial no desenvolvimento de software, visando garantir a qualidade do código-fonte e detectar problemas na implementação. No entanto, embora essencial, essa prática manual pode se tornar dispendiosa e suscetível a erros, especialmente em projetos maiores e colaborativos. Diante deste cenário, investigamos como o Large Language Model Meta AI (LLaMA-2 13B) pode contribuir especificamente na revisão de code smells, buscando compreender suas capacidades e limitações no ciclo de desenvolvimento. Nossa investigação baseou-se em dados extraídos de projetos de código aberto consolidados como Neovim, Keycloak e gRPC. Partindo de 19.149 comentários distribuídos em 6.365 Pull Requests, aplicamos uma abordagem híbrida que consistiu em filtragem sistemática por palavras-chave seguida de análise manual dos comentários, resultando em um dataset focado em code smells de 3.023 comentários. Após desenvolver um prompt específico para orientar as revisões do modelo, selecionamos uma amostra estratificada de 637 comentários (21,10% do dataset) para uma avaliação detalhada. Os resultados revelaram que 91,73% das revisões do modelo apresentaram baixa similaridade com as revisões humanas. Nossa análise qualitativa identificou que em 72% das intervenções o modelo diverge do foco dos revisores humanos, embora forneça análises tecnicamente abrangentes em 48,3% dos casos. Os resultados sugerem que, embora o LLaMA-2 13B seja capaz de realizar análises relevantes, suas limitações de contexto resultam em revisões que frequentemente divergem do foco dos revisores humanos. Por fim, concluímos que o modelo pode ser mais efetivo quando utilizado como ferramenta complementar à revisão humana, não como substituto. Palavras-chave: Revisão de código; code smells; LLaMA-2 13B; Pull Requests; análise sistemática; prompt.Code review in open source projects is a common and essential practice in software development, aiming to ensure source code quality and detect implementation issues. However, although essential, this manual practice can become costly and error-prone, especially in larger and collaborative projects. In this context, we investigate how the Large Language Model Meta AI (LLaMA-2 13B) can specifically contribute to the review of code smells, seeking to understand its capabilities and limitations in the development cycle. Our investigation was based on data extracted from consolidated open source projects such as Neovim, Keycloak, and gRPC. Starting from 19,149 comments distributed across 6,365 Pull Requests, we applied a hybrid approach consisting of systematic keyword filtering followed by manual analysis of comments, resulting in a code smell-focused dataset of 3,023 comments. After developing a specific prompt to guide the model’s reviews, we selected a stratified sample of 637 comments (21.10% of the dataset) for detailed evaluation. The results revealed that 91.73% of the model’s reviews showed low similarity to human reviews. Our qualitative analysis identified that in 72% of interventions the model diverges from human reviewers’ focus, although it provides technically comprehensive analyses in 48.3% of cases. The results suggest that, while LLaMA- 2 13B is capable of performing relevant analyses, its context limitations result in reviews that frequently diverge from human reviewers’ focus. Finally, we conclude that the model can be more effective when used as a complementary tool to human review, not as a substitute. Keywords: Code review; code smells; LLaMA-2 13B; Pull Requests; systematic analysis; prompt.Submitted by Helder Soares Dantas (helder-dantas@hotmail.com) on 2025-06-03T12:09:33Z No. of bitstreams: 1 JOÃO VICTOR SOARES DE ALMEIDA - DISSERTAÇÃO - (PPGCC) 2025.pdf: 1398944 bytes, checksum: 6f10be5aaae8a2ae28dc83ed82d54a78 (MD5)Made available in DSpace on 2025-06-03T12:09:33Z (GMT). No. of bitstreams: 1 JOÃO VICTOR SOARES DE ALMEIDA - DISSERTAÇÃO - (PPGCC) 2025.pdf: 1398944 bytes, checksum: 6f10be5aaae8a2ae28dc83ed82d54a78 (MD5) Previous issue date: 2025-04-11Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoPromptAnálise sistemáticaPull RequestsLLaMA-2 13BCode smellsRevisão de códigoSystematic analysisPull RequestsLLaMA-2 13BCode smellsCode reviewUma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smellAn investigation into how LLaMA-2 13B reviews source code with an emphasis on smell2025-04-112025-06-03T12:09:33Z2025-06-032025-06-03T12:09:33Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/42073ALMEIDA, João Victor Soares de. Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell. 2025. 76 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTJOÃO VICTOR SOARES DE ALMEIDA - DISSERTAÇÃO - (PPGCC) 2025.pdf.txtJOÃO VICTOR SOARES DE ALMEIDA - DISSERTAÇÃO - (PPGCC) 2025.pdf.txttext/plain149688https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42073/3/JO%C3%83O+VICTOR+SOARES+DE+ALMEIDA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2025.pdf.txt377349d70dd1afba4148c9f288df5accMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42073/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALJOÃO VICTOR SOARES DE ALMEIDA - DISSERTAÇÃO - (PPGCC) 2025.pdfJOÃO VICTOR SOARES DE ALMEIDA - DISSERTAÇÃO - (PPGCC) 2025.pdfapplication/pdf1398944https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42073/1/JO%C3%83O+VICTOR+SOARES+DE+ALMEIDA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2025.pdf6f10be5aaae8a2ae28dc83ed82d54a78MD51riufcg/420732025-11-18 04:08:03.488oai:dspace.sti.ufcg.edu.br:riufcg/42073Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.bropendoar:48512025-11-18T07:08:03Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell
dc.title.alternative.pt_BR.fl_str_mv	An investigation into how LLaMA-2 13B reviews source code with an emphasis on smell
title	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell
spellingShingle	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell ALMEIDA, João Victor Soares de. Ciência da Computação Prompt Análise sistemática Pull Requests LLaMA-2 13B Code smells Revisão de código Systematic analysis Pull Requests LLaMA-2 13B Code smells Code review
title_short	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell
title_full	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell
title_fullStr	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell
title_full_unstemmed	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell
title_sort	Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell
author	ALMEIDA, João Victor Soares de.
author_facet	ALMEIDA, João Victor Soares de.
author_role	author
dc.contributor.advisor1.fl_str_mv	MONTEIRO, João Arthur Brunet.
dc.contributor.advisor1ID.fl_str_mv	BRUNET, J. A. M.
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/7892247821251194
dc.contributor.referee1.fl_str_mv	MASSONI, Tiago Lima.
dc.contributor.referee2.fl_str_mv	TEIXEIRA , Leopoldo Motta.
dc.contributor.authorID.fl_str_mv	ALMEIDA, J. V. S.
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/0668664022330187
dc.contributor.author.fl_str_mv	ALMEIDA, João Victor Soares de.
contributor_str_mv	MONTEIRO, João Arthur Brunet. MASSONI, Tiago Lima. TEIXEIRA , Leopoldo Motta.
dc.subject.cnpq.fl_str_mv	Ciência da Computação
topic	Ciência da Computação Prompt Análise sistemática Pull Requests LLaMA-2 13B Code smells Revisão de código Systematic analysis Pull Requests LLaMA-2 13B Code smells Code review
dc.subject.por.fl_str_mv	Prompt Análise sistemática Pull Requests LLaMA-2 13B Code smells Revisão de código Systematic analysis Pull Requests LLaMA-2 13B Code smells Code review
description	A revisão de código em projetos de código aberto é uma prática comum e essencial no desenvolvimento de software, visando garantir a qualidade do código-fonte e detectar problemas na implementação. No entanto, embora essencial, essa prática manual pode se tornar dispendiosa e suscetível a erros, especialmente em projetos maiores e colaborativos. Diante deste cenário, investigamos como o Large Language Model Meta AI (LLaMA-2 13B) pode contribuir especificamente na revisão de code smells, buscando compreender suas capacidades e limitações no ciclo de desenvolvimento. Nossa investigação baseou-se em dados extraídos de projetos de código aberto consolidados como Neovim, Keycloak e gRPC. Partindo de 19.149 comentários distribuídos em 6.365 Pull Requests, aplicamos uma abordagem híbrida que consistiu em filtragem sistemática por palavras-chave seguida de análise manual dos comentários, resultando em um dataset focado em code smells de 3.023 comentários. Após desenvolver um prompt específico para orientar as revisões do modelo, selecionamos uma amostra estratificada de 637 comentários (21,10% do dataset) para uma avaliação detalhada. Os resultados revelaram que 91,73% das revisões do modelo apresentaram baixa similaridade com as revisões humanas. Nossa análise qualitativa identificou que em 72% das intervenções o modelo diverge do foco dos revisores humanos, embora forneça análises tecnicamente abrangentes em 48,3% dos casos. Os resultados sugerem que, embora o LLaMA-2 13B seja capaz de realizar análises relevantes, suas limitações de contexto resultam em revisões que frequentemente divergem do foco dos revisores humanos. Por fim, concluímos que o modelo pode ser mais efetivo quando utilizado como ferramenta complementar à revisão humana, não como substituto. Palavras-chave: Revisão de código; code smells; LLaMA-2 13B; Pull Requests; análise sistemática; prompt.
publishDate	2025
dc.date.issued.fl_str_mv	2025-04-11
dc.date.accessioned.fl_str_mv	2025-06-03T12:09:33Z
dc.date.available.fl_str_mv	2025-06-03 2025-06-03T12:09:33Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://dspace.sti.ufcg.edu.br/handle/riufcg/42073
dc.identifier.citation.fl_str_mv	ALMEIDA, João Victor Soares de. Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell. 2025. 76 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
url	https://dspace.sti.ufcg.edu.br/handle/riufcg/42073
identifier_str_mv	ALMEIDA, João Victor Soares de. Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell. 2025. 76 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv	UFCG
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv	Universidade Federal de Campina Grande
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG
instname_str	Universidade Federal de Campina Grande (UFCG)
instacron_str	UFCG
institution	UFCG
reponame_str	Biblioteca Digital de Teses e Dissertações da UFCG
collection	Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv	https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42073/3/JO%C3%83O+VICTOR+SOARES+DE+ALMEIDA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2025.pdf.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42073/2/license.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/42073/1/JO%C3%83O+VICTOR+SOARES+DE+ALMEIDA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2025.pdf
bitstream.checksum.fl_str_mv	377349d70dd1afba4148c9f288df5acc 8a4605be74aa9ea9d79846c1fba20a33 6f10be5aaae8a2ae28dc83ed82d54a78
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv	bdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.br
_version_	1863363568478453760

Uma investigação sobre como LLaMA-2 13B revisa código-fonte com ênfase em smell

Registros relacionados