Investigating an in-context learning approach for SPARQL query generation

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Ferreira, Carlos Eduardo Antonio
Orientador(a): Carbonera, Joel Luis
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/301166
Resumo: Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade.
id URGS_f0438d781bcf4d4d8c71592928c7aafc
oai_identifier_str oai:www.lume.ufrgs.br:10183/301166
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Ferreira, Carlos Eduardo AntonioCarbonera, Joel LuisGiese, Martin2026-02-11T08:03:00Z2025http://hdl.handle.net/10183/301166001301023Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade.Large Language Models (LLMs) have demonstrated strong performance across a wide range of natural language processing tasks. Among adaptation strategies, fine-tuning is effective but computationally expensive, while in-context learning (ICL) offers a cheaper and more flexible alternative, particularly appealing for enterprise settings where finetuning is often impractical. Knowledge Graph Question Answering (KGQA) aims to generate factual answers to natural language (NL) questions by querying structured data in knowledge graphs (KGs). A central challenge is translating NL questions into accurate SPARQL queries for a given KG, a task referred to as text-to-SPARQL. Despite the growing interest in ICL, its effectiveness for SPARQL query generation remains underexplored. This study investigates the viability of using ICL with an instruction-tuned LLM approach for text-to-SPARQL, focusing on how different prompt example selection strategies impact performance. We conducted experiments using the LC-QuAD 1.0 benchmark and a 70-billion-parameter LLM. We analyze results by running the generated queries, comparing answers using the Mean F1-score and BLEU metrics, and investigating the causes of errors. Additionally, we introduce RSE (Restricted Structural Equivalence), a metric designed to assess the equivalence of SPARQL queries under a set of structural and semantic criteria. Our results show that even a few prompt examples significantly improve performance, but gains saturate beyond 10 examples. Similarity-based example selection outperformed diversity-based selection, and supplying URIs from the target query’s entities produced the most substantial improvements. These findings highlight entity disambiguation as the main challenge for LLM-based SPARQL generation and reinforce the importance of example relevance over quantity.application/pdfengModelos de linguagem de grande escalaAprendizado por contextoGrafos de conhecimentoKnowledge graph question answeringLarge language modelsSPARQL generationInvestigating an in-context learning approach for SPARQL query generationInvestigando uma abordagem de aprendizado em contexto para geração de consultas SPARQL info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001301023.pdf.txt001301023.pdf.txtExtracted Texttext/plain185874http://www.lume.ufrgs.br/bitstream/10183/301166/2/001301023.pdf.txt385ca6f278671063076be9bb7dbdd8f8MD52ORIGINAL001301023.pdfTexto completo (inglês)application/pdf6543858http://www.lume.ufrgs.br/bitstream/10183/301166/1/001301023.pdf3e7232e425a13e015fc0f4f25a5fb9ceMD5110183/3011662026-02-12 08:55:59.796322oai:www.lume.ufrgs.br:10183/301166Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532026-02-12T10:55:59Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Investigating an in-context learning approach for SPARQL query generation
dc.title.alternative.en.fl_str_mv Investigando uma abordagem de aprendizado em contexto para geração de consultas SPARQL
title Investigating an in-context learning approach for SPARQL query generation
spellingShingle Investigating an in-context learning approach for SPARQL query generation
Ferreira, Carlos Eduardo Antonio
Modelos de linguagem de grande escala
Aprendizado por contexto
Grafos de conhecimento
Knowledge graph question answering
Large language models
SPARQL generation
title_short Investigating an in-context learning approach for SPARQL query generation
title_full Investigating an in-context learning approach for SPARQL query generation
title_fullStr Investigating an in-context learning approach for SPARQL query generation
title_full_unstemmed Investigating an in-context learning approach for SPARQL query generation
title_sort Investigating an in-context learning approach for SPARQL query generation
author Ferreira, Carlos Eduardo Antonio
author_facet Ferreira, Carlos Eduardo Antonio
author_role author
dc.contributor.author.fl_str_mv Ferreira, Carlos Eduardo Antonio
dc.contributor.advisor1.fl_str_mv Carbonera, Joel Luis
dc.contributor.advisor-co1.fl_str_mv Giese, Martin
contributor_str_mv Carbonera, Joel Luis
Giese, Martin
dc.subject.por.fl_str_mv Modelos de linguagem de grande escala
Aprendizado por contexto
Grafos de conhecimento
topic Modelos de linguagem de grande escala
Aprendizado por contexto
Grafos de conhecimento
Knowledge graph question answering
Large language models
SPARQL generation
dc.subject.eng.fl_str_mv Knowledge graph question answering
Large language models
SPARQL generation
description Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade.
publishDate 2025
dc.date.issued.fl_str_mv 2025
dc.date.accessioned.fl_str_mv 2026-02-11T08:03:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/301166
dc.identifier.nrb.pt_BR.fl_str_mv 001301023
url http://hdl.handle.net/10183/301166
identifier_str_mv 001301023
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/301166/2/001301023.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/301166/1/001301023.pdf
bitstream.checksum.fl_str_mv 385ca6f278671063076be9bb7dbdd8f8
3e7232e425a13e015fc0f4f25a5fb9ce
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br || lume@ufrgs.br
_version_ 1863628200025784320