Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Yamate, Bruno Yui
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/
Resumo: Permitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos.
id USP_ca8bdc8eb9f5704e246c9d8bdbbd495b
oai_identifier_str oai:teses.usp.br:tde-08082025-215605
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidadeEvaluation of text-to-SQL task in process mining context: feasibility and utilitylogs de eventosAprendizado profundoDeep learningEvent logsGrandes modelos de linguagemLarge language modelsMineração de processosNatural language processingProcess miningProcessamento de língua naturalText-to-SQLTexto-para-SQLPermitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos.Allowing information requests in a database to be performed through a natural language utterance has been a subject of research for several years. With the advancements of deep learning models and large language models, these technologies have been used in the generation of SQL statements from a natural language utterance, a task known as text-to-SQL. The text-to-SQL task has the potential to democratize information access for the lay user and enhance the productivity of programmers involved in the implementation of queries for a database management system. One domain that can benefit from the text-to-SQL task is the area of process mining. Through text-to-SQL implementations, information requests can be formulated using natural language and executed over event logs stored in databases. This research aims to enable the text-to-SQL task in the context of process mining for the formulation of information requests in event logs, focusing on evaluation of the feasibility and utility of the implementations that perform this task. To this end, two main stages were carried out. First, an annotated dataset named text 2SQL4PM was constructed, containing natural language utterances, in both portuguese and english, related to information requests in the context of process mining, along with their corresponding SQL statements. Thereafter, different implementations of the text-to-SQL task were evaluated using three large language models GPT-3.5 Turbo, Gemini-1.0 Pro and Llama3-8B Instruct together with prompt engineering techniques, with this dataset serving as reference. The evaluation of the results was conducted using standard metrics adopted in the literature, complemented by different perspective analysis based on the use of qualifiers and the categorization of SQL statements according to their complexity and standard templates. Consequently, the construction of the text 2SQL4PM dataset and the detailed documentation of the entire creation process, together with the results obtained and the analyses performed on the evaluated text-to-SQL implementations, made it possible to identify challenges and limitations, as well as to establish a initial point for assessing the feasibility of the text-to-SQL task when applied to the process mining domain. Furthermore, a significant utility conceptual was identified during the construction of the text 2SQL4PMdataset. This utility strengthens the understanding of the challenges involved, and provides a base for future advancements, and reinforces promising prospects for the evolution of the task within the context of process mining.Biblioteca Digitais de Teses e Dissertações da USPPeres, Sarajane MarquesYamate, Bruno Yui2025-06-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-29T16:43:02Zoai:teses.usp.br:tde-08082025-215605Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-29T16:43:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
Evaluation of text-to-SQL task in process mining context: feasibility and utility
title Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
spellingShingle Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
Yamate, Bruno Yui
logs de eventos
Aprendizado profundo
Deep learning
Event logs
Grandes modelos de linguagem
Large language models
Mineração de processos
Natural language processing
Process mining
Processamento de língua natural
Text-to-SQL
Texto-para-SQL
title_short Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_full Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_fullStr Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_full_unstemmed Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_sort Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
author Yamate, Bruno Yui
author_facet Yamate, Bruno Yui
author_role author
dc.contributor.none.fl_str_mv Peres, Sarajane Marques
dc.contributor.author.fl_str_mv Yamate, Bruno Yui
dc.subject.por.fl_str_mv logs de eventos
Aprendizado profundo
Deep learning
Event logs
Grandes modelos de linguagem
Large language models
Mineração de processos
Natural language processing
Process mining
Processamento de língua natural
Text-to-SQL
Texto-para-SQL
topic logs de eventos
Aprendizado profundo
Deep learning
Event logs
Grandes modelos de linguagem
Large language models
Mineração de processos
Natural language processing
Process mining
Processamento de língua natural
Text-to-SQL
Texto-para-SQL
description Permitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos.
publishDate 2025
dc.date.none.fl_str_mv 2025-06-18
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370481727537152