One against many : exploring multi-task learning generalization in source-code tasks

Parraga, Otávio

One against many : exploring multi-task learning generalization in source-code tasks

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Parraga, Otávio
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	multi-task source-code transformers multi-tarefa código-fonte CIENCIA DA COMPUTACAO: TEORIA DA COMPUTACAO
Link de acesso:	https://tede2.pucrs.br/tede2/handle/tede/11401
Resumo:	Software engineering is a complex process that involves several steps, often requiring a significant investment of resources. As a result, many tools to support development have emerged, with machine learning models becoming increasingly popular for related tasks. Recently, Transformers, a class of models, has achieved tremendous success in natural language processing and has been adapted to work with source code, with models like CodeBERT trained on both text and code. CodeT5, one such model, employs a prompt multi-task approach during training to ensure better generalization capability for target tasks. First, however, it needs to be clarified what impact this multi-tasking approach has on a Big Code scenario. In this thesis, we studied the various advantages and disadvantages of this learning approach for source-code-related tasks. Using state-of-the-art pre-trained models, we compared task-specific and prompt multi-task methods, analyzing results on specific tasks to understand their influence on performance. We also experimented with different task combinations to determine which are most beneficial and whether they help the model better understand the context in which it is being used. This work sheds light on prompt multi-task learning for source-code tasks, highlighting how it can improve resource efficiency and advance research in multi-task learning for big code

Metadados do item

id	P_RS_27bc6aeacd7f5707a6710b607f25c1f4
oai_identifier_str	oai:tede2.pucrs.br:tede/11401
network_acronym_str	P_RS
network_name_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling	One against many : exploring multi-task learning generalization in source-code tasksUm contra muitos : explorando a generalização do aprendizado multi-tarefa em tarefas com código fontemulti-tasksource-codetransformersmulti-tarefacódigo-fontetransformersCIENCIA DA COMPUTACAO: TEORIA DA COMPUTACAOSoftware engineering is a complex process that involves several steps, often requiring a significant investment of resources. As a result, many tools to support development have emerged, with machine learning models becoming increasingly popular for related tasks. Recently, Transformers, a class of models, has achieved tremendous success in natural language processing and has been adapted to work with source code, with models like CodeBERT trained on both text and code. CodeT5, one such model, employs a prompt multi-task approach during training to ensure better generalization capability for target tasks. First, however, it needs to be clarified what impact this multi-tasking approach has on a Big Code scenario. In this thesis, we studied the various advantages and disadvantages of this learning approach for source-code-related tasks. Using state-of-the-art pre-trained models, we compared task-specific and prompt multi-task methods, analyzing results on specific tasks to understand their influence on performance. We also experimented with different task combinations to determine which are most beneficial and whether they help the model better understand the context in which it is being used. This work sheds light on prompt multi-task learning for source-code tasks, highlighting how it can improve resource efficiency and advance research in multi-task learning for big codeEngenharia de software é um processo complexo que envolve vários passos, muitas vezes requerendo um investimento significativo de recursos. Como resultado, muitas ferramentas para suportar o desenvolvimento surgiram, com modelos de aprendizado de máquina se tornando cada vez mais populares para tarefas relacionadas. Recentemente, Transformers, uma classe de modelos, obteve um tremendo sucesso no processamento de linguagem natural e foi adaptado para trabalhar com código-fonte, com modelos como o CodeBERT treinado em texto e código. CodeT5, um desses modelos, emprega uma abordagem prompt multi-task durante o treinamento para garantir melhor capacidade de generalização para tarefas-alvo. No entanto, primeiro, é necessário esclarecer qual é o impacto dessa abordagem de multitarefa em um cenário Big Code. Nesta dissertação, estudamos as várias vantagens e desvantagens dessa abordagem de aprendizado para tarefas relacionadas a código-fonte. Usando modelos prétreinados de ponta, comparamos métodos específicos de tarefas e de prompt multi-tarefa, analisando resultados de tarefas específicas para entender sua influência no desempenho. Também experimentamos diferentes combinações de tarefas para determinar quais são mais benéficas e se ajudam o modelo a entender melhor o contexto em que está sendo usado. Este trabalho lança luz sobre a aprendizagem de multitarefa prompt para tarefas de código-fonte, destacando como ela pode melhorar a eficiência de recursos e avançar a pesquisa em aprendizado multitarefa para Big Code.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoBarros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828Parraga, Otávio2024-10-24T19:23:45Z2023-03-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11401enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2024-10-24T23:00:19Zoai:tede2.pucrs.br:tede/11401Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br\|\|opendoar:2024-10-24T23:00:19Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv	One against many : exploring multi-task learning generalization in source-code tasks Um contra muitos : explorando a generalização do aprendizado multi-tarefa em tarefas com código fonte
title	One against many : exploring multi-task learning generalization in source-code tasks
spellingShingle	One against many : exploring multi-task learning generalization in source-code tasks Parraga, Otávio multi-task source-code transformers multi-tarefa código-fonte transformers CIENCIA DA COMPUTACAO: TEORIA DA COMPUTACAO
title_short	One against many : exploring multi-task learning generalization in source-code tasks
title_full	One against many : exploring multi-task learning generalization in source-code tasks
title_fullStr	One against many : exploring multi-task learning generalization in source-code tasks
title_full_unstemmed	One against many : exploring multi-task learning generalization in source-code tasks
title_sort	One against many : exploring multi-task learning generalization in source-code tasks
author	Parraga, Otávio
author_facet	Parraga, Otávio
author_role	author
dc.contributor.none.fl_str_mv	Barros, Rodrigo Coelho http://lattes.cnpq.br/8172124241767828
dc.contributor.author.fl_str_mv	Parraga, Otávio
dc.subject.por.fl_str_mv	multi-task source-code transformers multi-tarefa código-fonte transformers CIENCIA DA COMPUTACAO: TEORIA DA COMPUTACAO
topic	multi-task source-code transformers multi-tarefa código-fonte transformers CIENCIA DA COMPUTACAO: TEORIA DA COMPUTACAO
description	Software engineering is a complex process that involves several steps, often requiring a significant investment of resources. As a result, many tools to support development have emerged, with machine learning models becoming increasingly popular for related tasks. Recently, Transformers, a class of models, has achieved tremendous success in natural language processing and has been adapted to work with source code, with models like CodeBERT trained on both text and code. CodeT5, one such model, employs a prompt multi-task approach during training to ensure better generalization capability for target tasks. First, however, it needs to be clarified what impact this multi-tasking approach has on a Big Code scenario. In this thesis, we studied the various advantages and disadvantages of this learning approach for source-code-related tasks. Using state-of-the-art pre-trained models, we compared task-specific and prompt multi-task methods, analyzing results on specific tasks to understand their influence on performance. We also experimented with different task combinations to determine which are most beneficial and whether they help the model better understand the context in which it is being used. This work sheds light on prompt multi-task learning for source-code tasks, highlighting how it can improve resource efficiency and advance research in multi-task learning for big code
publishDate	2023
dc.date.none.fl_str_mv	2023-03-29 2024-10-24T19:23:45Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://tede2.pucrs.br/tede2/handle/tede/11401
url	https://tede2.pucrs.br/tede2/handle/tede/11401
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS
instname_str	Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str	PUC_RS
institution	PUC_RS
reponame_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
collection	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv	biblioteca.central@pucrs.br\|\|
_version_	1850041317513494528

One against many : exploring multi-task learning generalization in source-code tasks

Registros relacionados