Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Campina Grande
|
| Programa de Pós-Graduação: |
PÓS-GRADUAÇÃO EM LETRAS EM REDE PROFLETRAS (UFRN)
|
| Departamento: |
Centro de Engenharia Elétrica e Informática - CEEI
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://dspace.sti.ufcg.edu.br/handle/riufcg/38351 |
Resumo: | Revisão de código é uma das atividades mais importantes da engenharia de software, visto que visa garantir a qualidade e confiabilidade do código, mas esse processo é feito majoritariamente de maneira manual, o que pode demandar tempo e tornar o processo oneroso e suscetível a falhas. O processo de revisão de código é um forte candidato para automação com objetivo de torná-lo mais eficiente e menos suscetível a falhas devido ao componente humano do processo. Neste trabalho, nós desejamos explorar a automação do processo de revisão de código através da aplicação de Grandes Modelos de Linguagem e uma técnica de otimização no contexto de revisão de código Clojure, que é uma linguagem de programação emergente. O Grande Modelo de Linguagem escolhido foi o Mistral-7B-Instruct-v0.2 e a técnica de otimização foi a Retrieval Augmented Generation (RAG), ambos os tópicos são discutidos nas seções seguintes deste trabalho. Nossos resultados mostram que o Mistral com e sem o uso da otimização com RAG pode revisar código como humanos, mas RAG não melhorou a revisão do modelo. |
| id |
UFCG_6ce5c05f05feb573b7292da0675ed1bd |
|---|---|
| oai_identifier_str |
oai:dspace.sti.ufcg.edu.br:riufcg/38351 |
| network_acronym_str |
UFCG |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
| repository_id_str |
|
| spelling |
MONTEIRO, João Arthur Brunet.MONTEIRO, J. A. B.http://lattes.cnpq.br/7892247821251194FARIAS, Adalberto Cajueiro de.FARIAS, A. C.http://lattes.cnpq.br/9462873740250320BRASILEIRO, Francisco Vilar.BRASILEIRO, F. V.http://lattes.cnpq.br/5957855817378897ANDRADE, V. B.http://lattes.cnpq.br/8725291167589165ANDRADE, Victor Brandão de.Revisão de código é uma das atividades mais importantes da engenharia de software, visto que visa garantir a qualidade e confiabilidade do código, mas esse processo é feito majoritariamente de maneira manual, o que pode demandar tempo e tornar o processo oneroso e suscetível a falhas. O processo de revisão de código é um forte candidato para automação com objetivo de torná-lo mais eficiente e menos suscetível a falhas devido ao componente humano do processo. Neste trabalho, nós desejamos explorar a automação do processo de revisão de código através da aplicação de Grandes Modelos de Linguagem e uma técnica de otimização no contexto de revisão de código Clojure, que é uma linguagem de programação emergente. O Grande Modelo de Linguagem escolhido foi o Mistral-7B-Instruct-v0.2 e a técnica de otimização foi a Retrieval Augmented Generation (RAG), ambos os tópicos são discutidos nas seções seguintes deste trabalho. Nossos resultados mostram que o Mistral com e sem o uso da otimização com RAG pode revisar código como humanos, mas RAG não melhorou a revisão do modelo.Code review is one of the most important activities in software engineering, since it intends to guarantee code’s quality and reliability, but this process is done mostly manually, which can make it an onerous, time consuming and a failure susceptible task. The code review process is a strong candidate for automation in order to make it more efficient and less susceptible to failures due to its human component. In this work, we intend to explore the automation of the code review process by applying a LLM and an optimization technique in the context of Clojure’s code review, which is an emergent programming language. The LLM chosen was Mistral-7B-Instruct-v0.2 and the optimization technique was Retrieval Augmented Generation (RAG), both topics are discussed in the following sections of this work. Our results show that Mistral with and without the RAG optimization can review code like humans, but RAG didn’t improve the model’s review.Submitted by Meire Melo (meire.emanuela@tecnico.ufcg.edu.br) on 2024-10-08T14:47:50Z No. of bitstreams: 1 VICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf: 406600 bytes, checksum: f3ddd0a99aaf0bc236f3ec74dcabb471 (MD5)Made available in DSpace on 2024-10-08T14:47:50Z (GMT). No. of bitstreams: 1 VICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf: 406600 bytes, checksum: f3ddd0a99aaf0bc236f3ec74dcabb471 (MD5) Previous issue date: 2024-05-15Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM LETRAS EM REDE PROFLETRAS (UFRN)UFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoClojureCode ReviewRAGLLMsRevisão de CódigoEvaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review.Avaliando o efeito da geração aumentada de recuperação na revisão de código do clojure do Mistral-7b-Instruct-v0.2.2024-05-152024-10-08T14:47:50Z2024-10-082024-10-08T14:47:50Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/38351ANDRADE, Victor Brandão de. Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/38351info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf.txtVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf.txttext/plain33354https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/3/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdf.txt217946baf0cd1034c7d0c82932b364a9MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdfVICTOR BRANDÃO DE ANDRADE-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdfapplication/pdf406600https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/1/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdff3ddd0a99aaf0bc236f3ec74dcabb471MD51riufcg/383512025-11-18 04:11:27.186oai:dspace.sti.ufcg.edu.br:riufcg/38351Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512025-11-18T07:11:27Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false |
| dc.title.pt_BR.fl_str_mv |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. |
| dc.title.alternative.pt_BR.fl_str_mv |
Avaliando o efeito da geração aumentada de recuperação na revisão de código do clojure do Mistral-7b-Instruct-v0.2. |
| title |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. |
| spellingShingle |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. ANDRADE, Victor Brandão de. Ciência da Computação Clojure Code Review RAG LLMs Revisão de Código |
| title_short |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. |
| title_full |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. |
| title_fullStr |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. |
| title_full_unstemmed |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. |
| title_sort |
Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. |
| author |
ANDRADE, Victor Brandão de. |
| author_facet |
ANDRADE, Victor Brandão de. |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
MONTEIRO, João Arthur Brunet. |
| dc.contributor.advisor1ID.fl_str_mv |
MONTEIRO, J. A. B. |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7892247821251194 |
| dc.contributor.referee1.fl_str_mv |
FARIAS, Adalberto Cajueiro de. |
| dc.contributor.referee1ID.fl_str_mv |
FARIAS, A. C. |
| dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/9462873740250320 |
| dc.contributor.referee2.fl_str_mv |
BRASILEIRO, Francisco Vilar. |
| dc.contributor.referee2ID.fl_str_mv |
BRASILEIRO, F. V. |
| dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/5957855817378897 |
| dc.contributor.authorID.fl_str_mv |
ANDRADE, V. B. |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/8725291167589165 |
| dc.contributor.author.fl_str_mv |
ANDRADE, Victor Brandão de. |
| contributor_str_mv |
MONTEIRO, João Arthur Brunet. FARIAS, Adalberto Cajueiro de. BRASILEIRO, Francisco Vilar. |
| dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
| topic |
Ciência da Computação Clojure Code Review RAG LLMs Revisão de Código |
| dc.subject.por.fl_str_mv |
Clojure Code Review RAG LLMs Revisão de Código |
| description |
Revisão de código é uma das atividades mais importantes da engenharia de software, visto que visa garantir a qualidade e confiabilidade do código, mas esse processo é feito majoritariamente de maneira manual, o que pode demandar tempo e tornar o processo oneroso e suscetível a falhas. O processo de revisão de código é um forte candidato para automação com objetivo de torná-lo mais eficiente e menos suscetível a falhas devido ao componente humano do processo. Neste trabalho, nós desejamos explorar a automação do processo de revisão de código através da aplicação de Grandes Modelos de Linguagem e uma técnica de otimização no contexto de revisão de código Clojure, que é uma linguagem de programação emergente. O Grande Modelo de Linguagem escolhido foi o Mistral-7B-Instruct-v0.2 e a técnica de otimização foi a Retrieval Augmented Generation (RAG), ambos os tópicos são discutidos nas seções seguintes deste trabalho. Nossos resultados mostram que o Mistral com e sem o uso da otimização com RAG pode revisar código como humanos, mas RAG não melhorou a revisão do modelo. |
| publishDate |
2024 |
| dc.date.issued.fl_str_mv |
2024-05-15 |
| dc.date.accessioned.fl_str_mv |
2024-10-08T14:47:50Z |
| dc.date.available.fl_str_mv |
2024-10-08 2024-10-08T14:47:50Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://dspace.sti.ufcg.edu.br/handle/riufcg/38351 |
| dc.identifier.citation.fl_str_mv |
ANDRADE, Victor Brandão de. Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/38351 |
| url |
https://dspace.sti.ufcg.edu.br/handle/riufcg/38351 |
| identifier_str_mv |
ANDRADE, Victor Brandão de. Evaluating the effect of retrieval augmented generation in Mistral-7b-Instruct-v0.2’s clojure’s code review. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: https://dspace.sti.ufcg.edu.br/handle/riufcg/38351 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Campina Grande |
| dc.publisher.program.fl_str_mv |
PÓS-GRADUAÇÃO EM LETRAS EM REDE PROFLETRAS (UFRN) |
| dc.publisher.initials.fl_str_mv |
UFCG |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Centro de Engenharia Elétrica e Informática - CEEI |
| publisher.none.fl_str_mv |
Universidade Federal de Campina Grande |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG |
| instname_str |
Universidade Federal de Campina Grande (UFCG) |
| instacron_str |
UFCG |
| institution |
UFCG |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
| collection |
Biblioteca Digital de Teses e Dissertações da UFCG |
| bitstream.url.fl_str_mv |
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/3/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdf.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/2/license.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/38351/1/VICTOR+BRAND%C3%83O+DE+ANDRADE-ARTIGO-CEEI-CI%C3%8ANCIA+DA+COMPUTA%C3%87%C3%83O+%282024%29.pdf |
| bitstream.checksum.fl_str_mv |
217946baf0cd1034c7d0c82932b364a9 8a4605be74aa9ea9d79846c1fba20a33 f3ddd0a99aaf0bc236f3ec74dcabb471 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG) |
| repository.mail.fl_str_mv |
bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br |
| _version_ |
1863363558295732224 |