Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/ |
Resumo: | Permitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos. |
| id |
USP_ca8bdc8eb9f5704e246c9d8bdbbd495b |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-08082025-215605 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidadeEvaluation of text-to-SQL task in process mining context: feasibility and utilitylogs de eventosAprendizado profundoDeep learningEvent logsGrandes modelos de linguagemLarge language modelsMineração de processosNatural language processingProcess miningProcessamento de língua naturalText-to-SQLTexto-para-SQLPermitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos.Allowing information requests in a database to be performed through a natural language utterance has been a subject of research for several years. With the advancements of deep learning models and large language models, these technologies have been used in the generation of SQL statements from a natural language utterance, a task known as text-to-SQL. The text-to-SQL task has the potential to democratize information access for the lay user and enhance the productivity of programmers involved in the implementation of queries for a database management system. One domain that can benefit from the text-to-SQL task is the area of process mining. Through text-to-SQL implementations, information requests can be formulated using natural language and executed over event logs stored in databases. This research aims to enable the text-to-SQL task in the context of process mining for the formulation of information requests in event logs, focusing on evaluation of the feasibility and utility of the implementations that perform this task. To this end, two main stages were carried out. First, an annotated dataset named text 2SQL4PM was constructed, containing natural language utterances, in both portuguese and english, related to information requests in the context of process mining, along with their corresponding SQL statements. Thereafter, different implementations of the text-to-SQL task were evaluated using three large language models GPT-3.5 Turbo, Gemini-1.0 Pro and Llama3-8B Instruct together with prompt engineering techniques, with this dataset serving as reference. The evaluation of the results was conducted using standard metrics adopted in the literature, complemented by different perspective analysis based on the use of qualifiers and the categorization of SQL statements according to their complexity and standard templates. Consequently, the construction of the text 2SQL4PM dataset and the detailed documentation of the entire creation process, together with the results obtained and the analyses performed on the evaluated text-to-SQL implementations, made it possible to identify challenges and limitations, as well as to establish a initial point for assessing the feasibility of the text-to-SQL task when applied to the process mining domain. Furthermore, a significant utility conceptual was identified during the construction of the text 2SQL4PMdataset. This utility strengthens the understanding of the challenges involved, and provides a base for future advancements, and reinforces promising prospects for the evolution of the task within the context of process mining.Biblioteca Digitais de Teses e Dissertações da USPPeres, Sarajane MarquesYamate, Bruno Yui2025-06-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-08-29T16:43:02Zoai:teses.usp.br:tde-08082025-215605Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-08-29T16:43:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade Evaluation of text-to-SQL task in process mining context: feasibility and utility |
| title |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade |
| spellingShingle |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade Yamate, Bruno Yui logs de eventos Aprendizado profundo Deep learning Event logs Grandes modelos de linguagem Large language models Mineração de processos Natural language processing Process mining Processamento de língua natural Text-to-SQL Texto-para-SQL |
| title_short |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade |
| title_full |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade |
| title_fullStr |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade |
| title_full_unstemmed |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade |
| title_sort |
Exploração da tarefa texto-para-SQL no contexto de mineração de processos: viabilidade e utilidade |
| author |
Yamate, Bruno Yui |
| author_facet |
Yamate, Bruno Yui |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Peres, Sarajane Marques |
| dc.contributor.author.fl_str_mv |
Yamate, Bruno Yui |
| dc.subject.por.fl_str_mv |
logs de eventos Aprendizado profundo Deep learning Event logs Grandes modelos de linguagem Large language models Mineração de processos Natural language processing Process mining Processamento de língua natural Text-to-SQL Texto-para-SQL |
| topic |
logs de eventos Aprendizado profundo Deep learning Event logs Grandes modelos de linguagem Large language models Mineração de processos Natural language processing Process mining Processamento de língua natural Text-to-SQL Texto-para-SQL |
| description |
Permitir que requisições de informação em um banco de dados sejam realizadas por meio de enunciados em língua natural tem sido uma tarefa explorada já há alguns anos. Com os avanços dos modelos de aprendizado profundo e dos grandes modelos de linguagem, esses modelos passaram a ser explorados na geração de declarações em SQL a partir de enunciados em língua natural, tarefa conhecida como texto-para-SQL. A tarefa texto-para-SQL tem o potencial para democratizar o acesso à informação para um usuário comum e ajudar na produtividade de programadores na implementação de consultas para um sistema gerenciador de banco de dados. Uma área que pode se beneficiar da tarefa texto-para-SQL é a área de mineração de processos. Por meio de implementações texto-para-SQL, requisições de informação podem ser formuladas utilizando enunciados em língua natural e executadas sobre os logs de eventos armazenados em bases de dados. Este trabalho tem o objetivo de habilitar a tarefa texto-para-SQL no contexto de mineração de processos para elaboração de requisições de informação em logs de eventos, com foco na avaliação da viabilidade e utilidade das implementações que realizam essa tarefa. Para isso, duas principais etapas foram desenvolvidas. Primeiramente, foi construído um conjunto de dados anotado, denominado text2SQL4PM, contendo enunciados em língua natural, em português e em inglês, relacionados `a requisição de informação no contexto da mineração de processos, acompanhados de suas respectivas declarações em SQL. Em seguida, diferentes implementações da tarefa texto-para-SQL foram avaliadas com o uso de três grandes modelos de linguagem - GPT-3.5 Turbo, Gemini-1.0 Pro e Llama3-8B Instruct - juntamente com técnicas de engenharia de prompt, utilizando esse conjunto como referência. A avaliação dos resultados foi conduzida por meio de medidas padrão adotadas na literatura, complementada por uma análise sob diferentes perspectivas, por meio de qualificadores e uma categorização das declarações em SQL por complexidade e templates padrão. Com isso, a construção do conjunto de dados text2SQL4PM e a documentação detalhada de todo processo de criação, juntamente com os resultados obtidos e as análises realizadas com as implementações texto-para-SQL avaliadas, permitiram identificar desafios e limitações, além de estabelecer um ponto de partida para avaliação da viabilidade da tarefa texto-para-SQL quando aplicada ao domínio de mineração de processos. Além disso, identificou-se uma utilidade de ordem conceitual, evidenciada durante o processo de construção do conjunto text2SQL4PM. Essa utilidade amplia a compreensão dos desafios envolvidos, e oferece uma base para avanços futuros e reforça perspectivas promissoras para a evolução da tarefa no contexto de mineração de processos. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-06-18 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/ |
| url |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-08082025-215605/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370481727537152 |