Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade

Yamate, Bruno Yui

Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Yamate, Bruno Yui
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	logs de eventos Aprendizado profundo Deep learning Event logs Grandes modelos de linguagem Large language models Mineração de processos Natural language processing Process mining Processamento de língua natural Text-to-SQL Texto-para-SQL
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/
Resumo:	Permitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos.

Metadados do item

id	USP_ca8bdc8eb9f5704e246c9d8bdbbd495b
oai_identifier_str	oai:teses.usp.br:tde-08082025-215605
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidadeEvaluation of text-to-SQL task in process mining context: feasibility and utilitylogs de eventosAprendizado profundoDeep learningEvent logsGrandes modelos de linguagemLarge language modelsMineração de processosNatural language processingProcess miningProcessamento de língua naturalText-to-SQLTexto-para-SQLPermitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos.Allowing information requests in a database to be performed through a natural language utterance has been a subject of research for several years. With the advancements of deep learning models and large language models, these technologies have been used in the generation of SQL statements from a natural language utterance, a task known as text-to-SQL. The text-to-SQL task has the potential to democratize information access for the lay user and enhance the productivity of programmers involved in the implementation of queries for a database management system. One domain that can benefit from the text-to-SQL task is the area of process mining. Through text-to-SQL implementations, information requests can be formulated using natural language and executed over event logs stored in databases. This research aims to enable the text-to-SQL task in the context of process mining for the formulation of information requests in event logs, focusing on evaluation of the feasibility and utility of the implementations that perform this task. To this end, two main stages were carried out. First, an annotated dataset named text 2SQL4PM was constructed, containing natural language utterances, in both portuguese and english, related to information requests in the context of process mining, along with their corresponding SQL statements. Thereafter, different implementations of the text-to-SQL task were evaluated using three large language models GPT-3.5 Turbo, Gemini-1.0 Pro and Llama3-8B Instruct together with prompt engineering techniques, with this dataset serving as reference. The evaluation of the results was conducted using standard metrics adopted in the literature, complemented by different perspective analysis based on the use of qualifiers and the categorization of SQL statements according to their complexity and standard templates. Consequently, the construction of the text 2SQL4PM dataset and the detailed documentation of the entire creation process, together with the results obtained and the analyses performed on the evaluated text-to-SQL implementations, made it possible to identify challenges and limitations, as well as to establish a initial point for assessing the feasibility of the text-to-SQL task when applied to the process mining domain. Furthermore, a significant utility conceptual was identified during the construction of the text 2SQL4PMdataset. This utility strengthens the understanding of the challenges involved, and provides a base for future advancements, and reinforces promising prospects for the evolution of the task within the context of process mining.Biblioteca Digitais de Teses e Dissertações da USPPeres, Sarajane MarquesYamate, Bruno Yui2025-06-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-29T16:43:02Zoai:teses.usp.br:tde-08082025-215605Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-08-29T16:43:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade Evaluation of text-to-SQL task in process mining context: feasibility and utility
title	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
spellingShingle	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade Yamate, Bruno Yui logs de eventos Aprendizado profundo Deep learning Event logs Grandes modelos de linguagem Large language models Mineração de processos Natural language processing Process mining Processamento de língua natural Text-to-SQL Texto-para-SQL
title_short	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_full	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_fullStr	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_full_unstemmed	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
title_sort	Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
author	Yamate, Bruno Yui
author_facet	Yamate, Bruno Yui
author_role	author
dc.contributor.none.fl_str_mv	Peres, Sarajane Marques
dc.contributor.author.fl_str_mv	Yamate, Bruno Yui
dc.subject.por.fl_str_mv	logs de eventos Aprendizado profundo Deep learning Event logs Grandes modelos de linguagem Large language models Mineração de processos Natural language processing Process mining Processamento de língua natural Text-to-SQL Texto-para-SQL
topic	logs de eventos Aprendizado profundo Deep learning Event logs Grandes modelos de linguagem Large language models Mineração de processos Natural language processing Process mining Processamento de língua natural Text-to-SQL Texto-para-SQL
description	Permitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos.
publishDate	2025
dc.date.none.fl_str_mv	2025-06-18
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/
url	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865492323040755712

Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade

Registros relacionados