Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: BRASILEIRO, Natacha Targino Rodrigues Simões
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/67233
Resumo: Com o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo de explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de AM. Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência capturados durante a execução de um pipeline de AM podem ser utilizados para registrar e viabilizar a reexecução consistente de atividades específicas em momentos futuros, e (2) como as informações obtidas a partir dos dados de proveniência de execuções anteriores de pipelines de AM podem auxiliar na realização de ajustes na seleção de atributos, de forma a contribuir para a melhoria da avaliação dos modelos de AM. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines e a estruturação semântica desses dados usando uma extensão da Ontologia PROV (W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza esse processo. Em experimentos com diferentes tarefas de treinamento de modelos de AM, foi observado que os ajustes baseados em dados de proveniência resultaram em melhorias nas métricas de acurácia e F1-score dos modelos de AM gerados. Os resultados indicam que o uso de dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e o ajuste das atividades. As principais contribuições deste trabalho incluem a definição da ontologia PROVX, a qual permite modelar e gerenciar os dados de proveniência dos pipelines de AM, e a proposta de uma estratégia de seleção de atributos que facilita o aprimoramento dos modelos com base nesses dados.
id UFPE_e3daa4117c05e7c6a8b429c6bb0c890f
oai_identifier_str oai:repositorio.ufpe.br:123456789/67233
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributosAprendizado de máquinaDados de proveniênciaSeleção de atributosOntologiasCom o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo de explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de AM. Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência capturados durante a execução de um pipeline de AM podem ser utilizados para registrar e viabilizar a reexecução consistente de atividades específicas em momentos futuros, e (2) como as informações obtidas a partir dos dados de proveniência de execuções anteriores de pipelines de AM podem auxiliar na realização de ajustes na seleção de atributos, de forma a contribuir para a melhoria da avaliação dos modelos de AM. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines e a estruturação semântica desses dados usando uma extensão da Ontologia PROV (W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza esse processo. Em experimentos com diferentes tarefas de treinamento de modelos de AM, foi observado que os ajustes baseados em dados de proveniência resultaram em melhorias nas métricas de acurácia e F1-score dos modelos de AM gerados. Os resultados indicam que o uso de dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e o ajuste das atividades. As principais contribuições deste trabalho incluem a definição da ontologia PROVX, a qual permite modelar e gerenciar os dados de proveniência dos pipelines de AM, e a proposta de uma estratégia de seleção de atributos que facilita o aprimoramento dos modelos com base nesses dados.With the exponential growth of data and the development of intelligent systems based on Machine Learning (ML), new opportunities and challenges have emerged. The effectiveness of these systems depends on a comprehensive understanding of ML principles, particularly the use of supervised algorithms that learn from labeled data to perform predictive tasks. In this context, provenance data offers a valuable opportunity to trace and understand decisions made during previous executions of ML pipelines, thereby promoting transparency and traceability in these processes. Although the literature explores the use of provenance data in ML, its application to feature selection activities remains underexplored, despite its potential to automate tuning processes and improve model evaluation. This study proposes an approach focused on provenance data derived from ML pipeline executions, aiming to investigate the role of such data in the reexecution and adjustment of feature selection activities within ML pipelines. Specifically, two research questions are addressed: (1) how provenance data captured during the execution of an ML pipeline can be used to record and enable the consistent re-execution of specific activities at later stages, and (2) how information obtained from provenance data of previous ML pipeline executions can support adjustments to feature selection in order to enhance ML model evaluation. The proposed solution involves the capture of provenance data during pipeline executions and the semantic structuring of this data using an extension of the PROV Ontology (W3C). This structuring aims to optimize the reuse of information to refine and improve ML model evaluation. The approach enables feature selection adjustments based on prior executions, thereby supporting the continuous enhancement of the model. To evaluate the proposal, a prototype was developed to automate the process. In experiments involving different ML model training tasks, it was observed that adjustments based on provenance data led to improvements in accuracy and F1-score metrics of the resulting models. The results indicate that the use of provenance data contributes to the optimization of the training process, particularly when considering the re-execution and adjustment of specific activities. The main contributions of this work include the definition of the PROVX ontology, which enables the modeling and management of provenance data from ML pipelines, and the proposal of a feature selection strategy that facilitates model enhancement based on such data.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoSALGADO, Ana Carolina BrandãoFERNANDES, Damires Yluska de Souzahttp://lattes.cnpq.br/0335852124621004http://lattes.cnpq.br/1095193209251351http://lattes.cnpq.br/9411293540915384BRASILEIRO, Natacha Targino Rodrigues Simões2025-12-17T14:23:38Z2025-12-17T14:23:38Z2025-02-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfBRASILEIRO, Natacha Targino Rodrigues Simões. Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.https://repositorio.ufpe.br/handle/123456789/67233porhttps://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2025-12-21T19:45:11Zoai:repositorio.ufpe.br:123456789/67233Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212025-12-21T19:45:11Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
title Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
spellingShingle Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
BRASILEIRO, Natacha Targino Rodrigues Simões
Aprendizado de máquina
Dados de proveniência
Seleção de atributos
Ontologias
title_short Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
title_full Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
title_fullStr Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
title_full_unstemmed Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
title_sort Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
author BRASILEIRO, Natacha Targino Rodrigues Simões
author_facet BRASILEIRO, Natacha Targino Rodrigues Simões
author_role author
dc.contributor.none.fl_str_mv SALGADO, Ana Carolina Brandão
FERNANDES, Damires Yluska de Souza
http://lattes.cnpq.br/0335852124621004
http://lattes.cnpq.br/1095193209251351
http://lattes.cnpq.br/9411293540915384
dc.contributor.author.fl_str_mv BRASILEIRO, Natacha Targino Rodrigues Simões
dc.subject.por.fl_str_mv Aprendizado de máquina
Dados de proveniência
Seleção de atributos
Ontologias
topic Aprendizado de máquina
Dados de proveniência
Seleção de atributos
Ontologias
description Com o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo de explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de AM. Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência capturados durante a execução de um pipeline de AM podem ser utilizados para registrar e viabilizar a reexecução consistente de atividades específicas em momentos futuros, e (2) como as informações obtidas a partir dos dados de proveniência de execuções anteriores de pipelines de AM podem auxiliar na realização de ajustes na seleção de atributos, de forma a contribuir para a melhoria da avaliação dos modelos de AM. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines e a estruturação semântica desses dados usando uma extensão da Ontologia PROV (W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza esse processo. Em experimentos com diferentes tarefas de treinamento de modelos de AM, foi observado que os ajustes baseados em dados de proveniência resultaram em melhorias nas métricas de acurácia e F1-score dos modelos de AM gerados. Os resultados indicam que o uso de dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e o ajuste das atividades. As principais contribuições deste trabalho incluem a definição da ontologia PROVX, a qual permite modelar e gerenciar os dados de proveniência dos pipelines de AM, e a proposta de uma estratégia de seleção de atributos que facilita o aprimoramento dos modelos com base nesses dados.
publishDate 2025
dc.date.none.fl_str_mv 2025-12-17T14:23:38Z
2025-12-17T14:23:38Z
2025-02-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv BRASILEIRO, Natacha Targino Rodrigues Simões. Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.
https://repositorio.ufpe.br/handle/123456789/67233
identifier_str_mv BRASILEIRO, Natacha Targino Rodrigues Simões. Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.
url https://repositorio.ufpe.br/handle/123456789/67233
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856042018667495424