Investigating an in-context learning approach for SPARQL query generation
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/301166 |
Resumo: | Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade. |
| id |
URGS_f0438d781bcf4d4d8c71592928c7aafc |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/301166 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Ferreira, Carlos Eduardo AntonioCarbonera, Joel LuisGiese, Martin2026-02-11T08:03:00Z2025http://hdl.handle.net/10183/301166001301023Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade.Large Language Models (LLMs) have demonstrated strong performance across a wide range of natural language processing tasks. Among adaptation strategies, fine-tuning is effective but computationally expensive, while in-context learning (ICL) offers a cheaper and more flexible alternative, particularly appealing for enterprise settings where finetuning is often impractical. Knowledge Graph Question Answering (KGQA) aims to generate factual answers to natural language (NL) questions by querying structured data in knowledge graphs (KGs). A central challenge is translating NL questions into accurate SPARQL queries for a given KG, a task referred to as text-to-SPARQL. Despite the growing interest in ICL, its effectiveness for SPARQL query generation remains underexplored. This study investigates the viability of using ICL with an instruction-tuned LLM approach for text-to-SPARQL, focusing on how different prompt example selection strategies impact performance. We conducted experiments using the LC-QuAD 1.0 benchmark and a 70-billion-parameter LLM. We analyze results by running the generated queries, comparing answers using the Mean F1-score and BLEU metrics, and investigating the causes of errors. Additionally, we introduce RSE (Restricted Structural Equivalence), a metric designed to assess the equivalence of SPARQL queries under a set of structural and semantic criteria. Our results show that even a few prompt examples significantly improve performance, but gains saturate beyond 10 examples. Similarity-based example selection outperformed diversity-based selection, and supplying URIs from the target query’s entities produced the most substantial improvements. These findings highlight entity disambiguation as the main challenge for LLM-based SPARQL generation and reinforce the importance of example relevance over quantity.application/pdfengModelos de linguagem de grande escalaAprendizado por contextoGrafos de conhecimentoKnowledge graph question answeringLarge language modelsSPARQL generationInvestigating an in-context learning approach for SPARQL query generationInvestigando uma abordagem de aprendizado em contexto para geração de consultas SPARQL info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001301023.pdf.txt001301023.pdf.txtExtracted Texttext/plain185874http://www.lume.ufrgs.br/bitstream/10183/301166/2/001301023.pdf.txt385ca6f278671063076be9bb7dbdd8f8MD52ORIGINAL001301023.pdfTexto completo (inglês)application/pdf6543858http://www.lume.ufrgs.br/bitstream/10183/301166/1/001301023.pdf3e7232e425a13e015fc0f4f25a5fb9ceMD5110183/3011662026-02-12 08:55:59.796322oai:www.lume.ufrgs.br:10183/301166Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532026-02-12T10:55:59Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Investigating an in-context learning approach for SPARQL query generation |
| dc.title.alternative.en.fl_str_mv |
Investigando uma abordagem de aprendizado em contexto para geração de consultas SPARQL |
| title |
Investigating an in-context learning approach for SPARQL query generation |
| spellingShingle |
Investigating an in-context learning approach for SPARQL query generation Ferreira, Carlos Eduardo Antonio Modelos de linguagem de grande escala Aprendizado por contexto Grafos de conhecimento Knowledge graph question answering Large language models SPARQL generation |
| title_short |
Investigating an in-context learning approach for SPARQL query generation |
| title_full |
Investigating an in-context learning approach for SPARQL query generation |
| title_fullStr |
Investigating an in-context learning approach for SPARQL query generation |
| title_full_unstemmed |
Investigating an in-context learning approach for SPARQL query generation |
| title_sort |
Investigating an in-context learning approach for SPARQL query generation |
| author |
Ferreira, Carlos Eduardo Antonio |
| author_facet |
Ferreira, Carlos Eduardo Antonio |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Ferreira, Carlos Eduardo Antonio |
| dc.contributor.advisor1.fl_str_mv |
Carbonera, Joel Luis |
| dc.contributor.advisor-co1.fl_str_mv |
Giese, Martin |
| contributor_str_mv |
Carbonera, Joel Luis Giese, Martin |
| dc.subject.por.fl_str_mv |
Modelos de linguagem de grande escala Aprendizado por contexto Grafos de conhecimento |
| topic |
Modelos de linguagem de grande escala Aprendizado por contexto Grafos de conhecimento Knowledge graph question answering Large language models SPARQL generation |
| dc.subject.eng.fl_str_mv |
Knowledge graph question answering Large language models SPARQL generation |
| description |
Modelos de Linguagem de Grande Escala têm demonstrado um desempenho notável em ampla variedade de tarefas de processamento de linguagem natural. Entre as estratégias de adaptação a tarefas específicas, o ajuste fino é eficaz, porém computacionalmente custoso, enquanto o aprendizado por contexto oferece alternativa mais barata e flexível, especialmente atrativa em ambientes corporativos onde o ajuste fino geralmente é inviável. A área de KGQA (do inglês Knowledge Graph Question Answering) busca gerar respostas factuais para perguntas em linguagem natural, por meio de consultas a dados estruturados em grafos de conhecimento. Um dos principais desafios é traduzir perguntas em linguagem natural para consultas SPARQL precisas relacionadas a um KG específico, tarefa conhecida como text-to-SPARQL. Apesar do crescente interesse pela abordagem de aprendizado por contexto, sua eficácia para geração de consultas SPARQL permanece pouco explorada. Neste estudo, investigamos a viabilidade do uso de uma abordagem baseada em aprendizado por contexto para text-to-SPARQL utilizando LLMs previamente ajustados com instruções, com foco em como diferentes estratégias de seleção de exemplos nos prompts afetam o desempenho. Conduzimos experimentos utilizando o benchmark LC-QuAD 1.0 e um LLM com 70 bilhões de parâmetros. Analisamos os resultados executando as consultas geradas, comparando as respostas usando as métricas Mean F1-score e BLEU, e investigando as causas de erros. Ademais, introduzimos a RSE (Restricted Structural Equivalence), uma métrica projetada para avaliar a equivalência de consultas SPARQL sob um conjunto de critérios estruturais e semânticos. Nossos resultados mostram que mesmo poucos exemplos no prompt melhoram significativamente o desempenho, mas os ganhos se estabilizam após 10 exemplos. A seleção de exemplos baseada em similaridade superou a baseada em diversidade, enquanto a inclusão de URIs de referência resultou nas melhorias mais significativas. Esses achados destacam a desambiguação de entidades como o principal desafio para a geração de consultas SPARQL com LLMs e reforçam a importância da relevância dos exemplos em detrimento da quantidade. |
| publishDate |
2025 |
| dc.date.issued.fl_str_mv |
2025 |
| dc.date.accessioned.fl_str_mv |
2026-02-11T08:03:00Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/301166 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001301023 |
| url |
http://hdl.handle.net/10183/301166 |
| identifier_str_mv |
001301023 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/301166/2/001301023.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/301166/1/001301023.pdf |
| bitstream.checksum.fl_str_mv |
385ca6f278671063076be9bb7dbdd8f8 3e7232e425a13e015fc0f4f25a5fb9ce |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br || lume@ufrgs.br |
| _version_ |
1863628200025784320 |