Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: ANDRADE, Victor Brandão de. lattes
Orientador(a): MONTEIRO, João Arthur Brunet. lattes
Banca de defesa: FARIAS, Adalberto Cajueiro de. lattes, BRASILEIRO, Francisco Vilar. lattes
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Programa de Pós-Graduação: PÓS-GRADUAÇÃO EM LETRAS EM REDE PROFLETRAS (UFRN)
Departamento: Centro de Engenharia Elétrica e Informática - CEEI
País: Brasil
Palavras-chave em Português:
RAG
Área do conhecimento CNPq:
Link de acesso: https://dspace.sti.ufcg.edu.br/handle/riufcg/38351
Resumo: Revisão de código é uma das atividades mais importantes da engenharia de software, visto que visa garantir a qualidade e confiabilidade do código, mas esse processo é feito majoritariamente de maneira manual, o que pode demandar tempo e tornar o processo oneroso e suscetível a falhas. O processo de revisão de código é um forte candidato para automação com objetivo de torná-lo mais eficiente e menos suscetível a falhas devido ao componente humano do processo. Neste trabalho, nós desejamos explorar a automação do processo de revisão de código através da aplicação de Grandes Modelos de Linguagem e uma técnica de otimização no contexto de revisão de código Clojure, que é uma linguagem de programação emergente. O Grande Modelo de Linguagem escolhido foi o Mistral-7B-Instruct-v0.2 e a técnica de otimização foi a Retrieval Augmented Generation (RAG), ambos os tópicos são discutidos nas seções seguintes deste trabalho. Nossos resultados mostram que o Mistral com e sem o uso da otimização com RAG pode revisar código como humanos, mas RAG não melhorou a revisão do modelo.
id UFCG_6ce5c05f05feb573b7292da0675ed1bd
oai_identifier_str oai:dspace.sti.ufcg.edu.br:riufcg/38351
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling MONTEIRO, João Arthur Brunet.MONTEIRO, J. A. B.http://lattes.cnpq.br/7892247821251194FARIAS, Adalberto Cajueiro de.FARIAS, A. C.http://lattes.cnpq.br/9462873740250320BRASILEIRO, Francisco Vilar.BRASILEIRO, F. V.http://lattes.cnpq.br/5957855817378897ANDRADE, V. B.http://lattes.cnpq.br/8725291167589165ANDRADE, Victor Brandão de.Revisão de código é uma das atividades mais importantes da engenharia de software, visto que visa garantir a qualidade e confiabilidade do código, mas esse processo é feito majoritariamente de maneira manual, o que pode demandar tempo e tornar o processo oneroso e suscetível a falhas. O processo de revisão de código é um forte candidato para automação com objetivo de torná-lo mais eficiente e menos suscetível a falhas devido ao componente humano do processo. Neste trabalho, nós desejamos explorar a automação do processo de revisão de código através da aplicação de Grandes Modelos de Linguagem e uma técnica de otimização no contexto de revisão de código Clojure, que é uma linguagem de programação emergente. O Grande Modelo de Linguagem escolhido foi o Mistral-7B-Instruct-v0.2 e a técnica de otimização foi a Retrieval Augmented Generation (RAG), ambos os tópicos são discutidos nas seções seguintes deste trabalho. Nossos resultados mostram que o Mistral com e sem o uso da otimização com RAG pode revisar código como humanos, mas RAG não melhorou a revisão do modelo.Code review is one of the most important activities in software engineering, since it intends to guarantee code’s quality and reliability, but this process is done mostly manually, which can make it an onerous, time consuming and a failure susceptible task. The code review process is a strong candidate for automation in order to make it more efficient and less susceptible to failures due to its human component. In this work, we intend to explore the automation of the code review process by applying a LLM and an optimization technique in the context of Clojure’s code review, which is an emergent programming language. The LLM chosen was Mistral-7B-Instruct-v0.2 and the optimization technique was Retrieval Augmented Generation (RAG), both topics are discussed in the following sections of this work. Our results show that Mistral with and without the RAG optimization can review code like humans, but RAG didn’t improve the model’s review.Submitted by Meire Melo (meire.emanuela@tecnico.ufcg.edu.br) on 2024-10-08T14:47:50Z No. of bitstreams: 1 VICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf: 406600 bytes, checksum: f3ddd0a99aaf0bc236f3ec74dcabb471 (MD5)Made available in DSpace on 2024-10-08T14:47:50Z (GMT). No. of bitstreams: 1 VICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf: 406600 bytes, checksum: f3ddd0a99aaf0bc236f3ec74dcabb471 (MD5) Previous issue date: 2024-05-15Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM LETRAS EM REDE PROFLETRAS (UFRN)UFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoClojureCode ReviewRAGLLMsRevisão de CódigoEvaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.Avaliando o efeito da geração aumentada de recuperação na revisão de código do clojure do Mistral-7b-Instruct-v0.2.2024-05-152024-10-08T14:47:50Z2024-10-082024-10-08T14:47:50Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/38351ANDRADE, Victor Brandão de. Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/38351info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf.txtVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf.txttext/plain33354https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/3/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdf.txt217946baf0cd1034c7d0c82932b364a9MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdfVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdfapplication/pdf406600https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/1/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdff3ddd0a99aaf0bc236f3ec74dcabb471MD51riufcg/383512025-11-18 04:11:27.186oai:dspace.sti.ufcg.edu.br:riufcg/38351Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512025-11-18T07:11:27Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
dc.title.alternative.pt_BR.fl_str_mv Avaliando o efeito da geração aumentada de recuperação na revisão de código do clojure do Mistral-7b-Instruct-v0.2.
title Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
spellingShingle Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
ANDRADE, Victor Brandão de.
Ciência da Computação
Clojure
Code Review
RAG
LLMs
Revisão de Código
title_short Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
title_full Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
title_fullStr Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
title_full_unstemmed Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
title_sort Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
author ANDRADE, Victor Brandão de.
author_facet ANDRADE, Victor Brandão de.
author_role author
dc.contributor.advisor1.fl_str_mv MONTEIRO, João Arthur Brunet.
dc.contributor.advisor1ID.fl_str_mv MONTEIRO, J. A. B.
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7892247821251194
dc.contributor.referee1.fl_str_mv FARIAS, Adalberto Cajueiro de.
dc.contributor.referee1ID.fl_str_mv FARIAS, A. C.
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/9462873740250320
dc.contributor.referee2.fl_str_mv BRASILEIRO, Francisco Vilar.
dc.contributor.referee2ID.fl_str_mv BRASILEIRO, F. V.
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/5957855817378897
dc.contributor.authorID.fl_str_mv ANDRADE, V. B.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8725291167589165
dc.contributor.author.fl_str_mv ANDRADE, Victor Brandão de.
contributor_str_mv MONTEIRO, João Arthur Brunet.
FARIAS, Adalberto Cajueiro de.
BRASILEIRO, Francisco Vilar.
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Clojure
Code Review
RAG
LLMs
Revisão de Código
dc.subject.por.fl_str_mv Clojure
Code Review
RAG
LLMs
Revisão de Código
description Revisão de código é uma das atividades mais importantes da engenharia de software, visto que visa garantir a qualidade e confiabilidade do código, mas esse processo é feito majoritariamente de maneira manual, o que pode demandar tempo e tornar o processo oneroso e suscetível a falhas. O processo de revisão de código é um forte candidato para automação com objetivo de torná-lo mais eficiente e menos suscetível a falhas devido ao componente humano do processo. Neste trabalho, nós desejamos explorar a automação do processo de revisão de código através da aplicação de Grandes Modelos de Linguagem e uma técnica de otimização no contexto de revisão de código Clojure, que é uma linguagem de programação emergente. O Grande Modelo de Linguagem escolhido foi o Mistral-7B-Instruct-v0.2 e a técnica de otimização foi a Retrieval Augmented Generation (RAG), ambos os tópicos são discutidos nas seções seguintes deste trabalho. Nossos resultados mostram que o Mistral com e sem o uso da otimização com RAG pode revisar código como humanos, mas RAG não melhorou a revisão do modelo.
publishDate 2024
dc.date.issued.fl_str_mv 2024-05-15
dc.date.accessioned.fl_str_mv 2024-10-08T14:47:50Z
dc.date.available.fl_str_mv 2024-10-08
2024-10-08T14:47:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.sti.ufcg.edu.br/handle/riufcg/38351
dc.identifier.citation.fl_str_mv ANDRADE, Victor Brandão de. Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/38351
url https://dspace.sti.ufcg.edu.br/handle/riufcg/38351
identifier_str_mv ANDRADE, Victor Brandão de. Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/38351
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM LETRAS EM REDE PROFLETRAS (UFRN)
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/3/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdf.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/2/license.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/1/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdf
bitstream.checksum.fl_str_mv 217946baf0cd1034c7d0c82932b364a9
8a4605be74aa9ea9d79846c1fba20a33
f3ddd0a99aaf0bc236f3ec74dcabb471
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1863363558295732224