Investigating an in-context learning approach for SPARQL query generation

Ferreira, Carlos Eduardo Antonio

Investigating an in-context learning approach for SPARQL query generation

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Ferreira, Carlos Eduardo Antonio
Orientador(a):	Carbonera, Joel Luis
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Modelos de linguagem de grande escala Aprendizado por contexto Grafos de conhecimento
Palavras-chave em Inglês:	Knowledge graph question answering Large language models SPARQL generation
Link de acesso:	http://hdl.handle.net/10183/301166
Resumo:	Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade.

Metadados do item

id	URGS_f0438d781bcf4d4d8c71592928c7aafc
oai_identifier_str	oai:www.lume.ufrgs.br:10183/301166
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Ferreira, Carlos Eduardo AntonioCarbonera, Joel LuisGiese, Martin2026-02-11T08:03:00Z2025http://hdl.handle.net/10183/301166001301023Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade.Large Language Models (LLMs) have demonstrated strong performance across a wide range of natural language processing tasks. Among adaptation strategies, fine-tuning is effective but computationally expensive, while in-context learning (ICL) offers a cheaper and more flexible alternative, particularly appealing for enterprise settings where finetuning is often impractical. Knowledge Graph Question Answering (KGQA) aims to generate factual answers to natural language (NL) questions by querying structured data in knowledge graphs (KGs). A central challenge is translating NL questions into accurate SPARQL queries for a given KG, a task referred to as text-to-SPARQL. Despite the growing interest in ICL, its effectiveness for SPARQL query generation remains underexplored. This study investigates the viability of using ICL with an instruction-tuned LLM approach for text-to-SPARQL, focusing on how different prompt example selection strategies impact performance. We conducted experiments using the LC-QuAD 1.0 benchmark and a 70-billion-parameter LLM. We analyze results by running the generated queries, comparing answers using the Mean F1-score and BLEU metrics, and investigating the causes of errors. Additionally, we introduce RSE (Restricted Structural Equivalence), a metric designed to assess the equivalence of SPARQL queries under a set of structural and semantic criteria. Our results show that even a few prompt examples significantly improve performance, but gains saturate beyond 10 examples. Similarity-based example selection outperformed diversity-based selection, and supplying URIs from the target query’s entities produced the most substantial improvements. These findings highlight entity disambiguation as the main challenge for LLM-based SPARQL generation and reinforce the importance of example relevance over quantity.application/pdfengModelos de linguagem de grande escalaAprendizado por contextoGrafos de conhecimentoKnowledge graph question answeringLarge language modelsSPARQL generationInvestigating an in-context learning approach for SPARQL query generationInvestigando uma abordagem de aprendizado em contexto para geração de consultas SPARQL info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001301023.pdf.txt001301023.pdf.txtExtracted Texttext/plain185874http://www.lume.ufrgs.br/bitstream/10183/301166/2/001301023.pdf.txt385ca6f278671063076be9bb7dbdd8f8MD52ORIGINAL001301023.pdfTexto completo (inglês)application/pdf6543858http://www.lume.ufrgs.br/bitstream/10183/301166/1/001301023.pdf3e7232e425a13e015fc0f4f25a5fb9ceMD5110183/3011662026-02-12 08:55:59.796322oai:www.lume.ufrgs.br:10183/301166Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br \|\| lume@ufrgs.bropendoar:18532026-02-12T10:55:59Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Investigating an in-context learning approach for SPARQL query generation
dc.title.alternative.en.fl_str_mv	Investigando uma abordagem de aprendizado em contexto para geração de consultas SPARQL
title	Investigating an in-context learning approach for SPARQL query generation
spellingShingle	Investigating an in-context learning approach for SPARQL query generation Ferreira, Carlos Eduardo Antonio Modelos de linguagem de grande escala Aprendizado por contexto Grafos de conhecimento Knowledge graph question answering Large language models SPARQL generation
title_short	Investigating an in-context learning approach for SPARQL query generation
title_full	Investigating an in-context learning approach for SPARQL query generation
title_fullStr	Investigating an in-context learning approach for SPARQL query generation
title_full_unstemmed	Investigating an in-context learning approach for SPARQL query generation
title_sort	Investigating an in-context learning approach for SPARQL query generation
author	Ferreira, Carlos Eduardo Antonio
author_facet	Ferreira, Carlos Eduardo Antonio
author_role	author
dc.contributor.author.fl_str_mv	Ferreira, Carlos Eduardo Antonio
dc.contributor.advisor1.fl_str_mv	Carbonera, Joel Luis
dc.contributor.advisor-co1.fl_str_mv	Giese, Martin
contributor_str_mv	Carbonera, Joel Luis Giese, Martin
dc.subject.por.fl_str_mv	Modelos de linguagem de grande escala Aprendizado por contexto Grafos de conhecimento
topic	Modelos de linguagem de grande escala Aprendizado por contexto Grafos de conhecimento Knowledge graph question answering Large language models SPARQL generation
dc.subject.eng.fl_str_mv	Knowledge graph question answering Large language models SPARQL generation
description	Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade.
publishDate	2025
dc.date.issued.fl_str_mv	2025
dc.date.accessioned.fl_str_mv	2026-02-11T08:03:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/301166
dc.identifier.nrb.pt_BR.fl_str_mv	001301023
url	http://hdl.handle.net/10183/301166
identifier_str_mv	001301023
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/301166/2/001301023.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/301166/1/001301023.pdf
bitstream.checksum.fl_str_mv	385ca6f278671063076be9bb7dbdd8f8 3e7232e425a13e015fc0f4f25a5fb9ce
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br \|\| lume@ufrgs.br
_version_	1863628200025784320

Investigating an in-context learning approach for SPARQL query generation

Registros relacionados