Heimdall: an architecture for online machine learning through imbalanced data

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Vargas, Vitor Werner de
Orientador(a): Barbosa, Jorge Luis Victória
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação Aplicada
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.jesuita.org.br/handle/UNISINOS/13844
Resumo: Algoritmos de aprendizado de máquina têm sido crescentemente utilizado em áreas de aplicação que possuem dados disponíveis para automação de processos. No entanto, no caso de aplicações com dados desbalanceados, o processo de treinamento é desafiador, visto que algoritmos de aprendizado de máquina são desenvolvidos para aprender, intrinsicamente, de distribuições balanceadas. Esta pesquisa propõe Heimdall, uma arquitetura com diversos recursos para aprendizagem de máquina ativa através de dados desbalanceados. Projetado como um serviço para atendimento de requisições de previsões e análises, Heimdall serve aplicações existentes de sistemas externos, estendendo recursos de inteligência artificial e automatização de processos a aplicações tradicionais supervisionadas por especialistas. A arquitetura soluciona o desbalanceamento através de uma série de boas práticas compiladas em mapeamentos de trabalhos relacionados – como otimização do limiar de probabilidade, amostragem de alto desempenho e aprendizado em conjunto. Adicionalmente, Heimdall propõe e avalia a eficiência de funcionalidades inovadoras. Primeiramente, uma nova métrica de performance corrige o equilíbrio entre precision-recall de acordo com as necessidades da aplicação, aprimorando a otimização do limiar de probabilidade. Segundamente, a arquitetura automatiza processos de gerenciamento de dados e aprendizado de máquina, de forma independente, através de dois agentes reativos baseados em regras, os quais monitoram constantemente as mudanças de dados e degradação de performance do modelo para acionar processos. Esses agentes reativos compõem uma estratégia para eficiência adaptativa, habilitando uma performance melhor e mais estável ao sacrificar eficiência em condições iniciais de implantação, e mantendo excelentes performance e eficiência em condições normais da aplicação. Para avaliar a arquitetura de forma adequada, o presente estudo implementou um protótipo para uma aplicação conhecida contendo dados severamente desbalanceados – detecção de fraudes em cartões de crédito. Isolando a melhoria de cada funcionalidade proposta, a análise avaliou a performance no decorrer do tempo e performance global versus trabalhos relacionados através de cinco cenários. Especificamente, os resultados indicam que o protótipo alcançou performance excelente mesmo com poucas anomalias e melhorou a eficiência sistêmica no decorrer do tempo. Por fim, a performance global obteve resultados similares aos melhores resultados em trabalhos relacionados.
id USIN_4dec5de0d450502a6cafd6fa560d2e6b
oai_identifier_str oai:www.repositorio.jesuita.org.br:UNISINOS/13844
network_acronym_str USIN
network_name_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling 2025-10-29T17:37:32Z2025-10-29T17:37:32Z2023-09-26Submitted by Jeferson Carlos da Veiga Rodrigues (jveigar@unisinos.br) on 2025-10-29T17:37:32Z No. of bitstreams: 1 Vitor Werner de Vargas_PROTEGIDO.pdf: 4750854 bytes, checksum: 92ea6cc833963cd51029a96b2a91f427 (MD5)Made available in DSpace on 2025-10-29T17:37:32Z (GMT). No. of bitstreams: 1 Vitor Werner de Vargas_PROTEGIDO.pdf: 4750854 bytes, checksum: 92ea6cc833963cd51029a96b2a91f427 (MD5) Previous issue date: 2023-09-26Algoritmos de aprendizado de máquina têm sido crescentemente utilizado em áreas de aplicação que possuem dados disponíveis para automação de processos. No entanto, no caso de aplicações com dados desbalanceados, o processo de treinamento é desafiador, visto que algoritmos de aprendizado de máquina são desenvolvidos para aprender, intrinsicamente, de distribuições balanceadas. Esta pesquisa propõe Heimdall, uma arquitetura com diversos recursos para aprendizagem de máquina ativa através de dados desbalanceados. Projetado como um serviço para atendimento de requisições de previsões e análises, Heimdall serve aplicações existentes de sistemas externos, estendendo recursos de inteligência artificial e automatização de processos a aplicações tradicionais supervisionadas por especialistas. A arquitetura soluciona o desbalanceamento através de uma série de boas práticas compiladas em mapeamentos de trabalhos relacionados – como otimização do limiar de probabilidade, amostragem de alto desempenho e aprendizado em conjunto. Adicionalmente, Heimdall propõe e avalia a eficiência de funcionalidades inovadoras. Primeiramente, uma nova métrica de performance corrige o equilíbrio entre precision-recall de acordo com as necessidades da aplicação, aprimorando a otimização do limiar de probabilidade. Segundamente, a arquitetura automatiza processos de gerenciamento de dados e aprendizado de máquina, de forma independente, através de dois agentes reativos baseados em regras, os quais monitoram constantemente as mudanças de dados e degradação de performance do modelo para acionar processos. Esses agentes reativos compõem uma estratégia para eficiência adaptativa, habilitando uma performance melhor e mais estável ao sacrificar eficiência em condições iniciais de implantação, e mantendo excelentes performance e eficiência em condições normais da aplicação. Para avaliar a arquitetura de forma adequada, o presente estudo implementou um protótipo para uma aplicação conhecida contendo dados severamente desbalanceados – detecção de fraudes em cartões de crédito. Isolando a melhoria de cada funcionalidade proposta, a análise avaliou a performance no decorrer do tempo e performance global versus trabalhos relacionados através de cinco cenários. Especificamente, os resultados indicam que o protótipo alcançou performance excelente mesmo com poucas anomalias e melhorou a eficiência sistêmica no decorrer do tempo. Por fim, a performance global obteve resultados similares aos melhores resultados em trabalhos relacionados.Machine Learning (ML) algorithms have been increasingly applied to domain areas where data is available for process automation. However, in the case of imbalanced data applications, the training process is challenging since ML algorithms intrinsically learn from balanced distributions. This research proposes Heimdall, a resourceful architecture for online ML through imbalanced data. Designed as a service for prediction and analysis requests, Heimdall serves existing applications from external systems, extending artificial intelligence capabilities and automated processes to traditional applications supervised by experts. The architecture focuses on efficiently solving imbalance and improving performance through a set of good practices compiled from mapped studies – such as probability threshold optimization, high-performance sampling, and ensemble learning. Furthermore, Heimdall proposes and evaluates the efficiency of novel functionalities. Firstly, a new performance metric corrects precision-recall balance according to the application’s needs, enhancing probability threshold optimization. Secondly, the architecture independently automates data management and training pipelines through two rule-based reactive agents constantly monitoring data changes and model degradation to trigger processes. These reactive agents compose a strategy for adaptive efficiency, enabling better and more stable performance by sacrificing efficiency in warm-up conditions, and maintaining excellent performance and efficiency in hot conditions. To adequately evaluate the architecture, this study implemented a prototype for one well-studied and severely imbalanced application – Credit Card Fraud Detection (CCFD). Isolating the improvement of each proposed functionality, the analysis evaluated performance over time and overall performance against related works through five scenarios. Namely, the results indicated that the prototype achieved excellent performance even with few anomalies, and improved systemic efficiency over time. Finally, the overall performance achieved comparable results to the best-performing related works.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorVargas, Vitor Werner dehttp://lattes.cnpq.br/4358876704972743http://lattes.cnpq.br/6754464380129137Pereira, Paulo Ricardo da Silvahttp://lattes.cnpq.br/1997755245309923Barbosa, Jorge Luis VictóriaUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaHeimdall: an architecture for online machine learning through imbalanced dataACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoDados desbalanceadosPré-processamentoAmostragemAprendizado de máquinaArquitetura de softwareAgentes reativosImbalanced dataPreprocessingSamplingMachine learningSoftware architectureReactive agentsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://repositorio.jesuita.org.br/handle/UNISINOS/13844info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSLICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/13844/2/license.txt320e21f23402402ac4988605e1edd177MD52ORIGINALVitor Werner de Vargas_PROTEGIDO.pdfVitor Werner de Vargas_PROTEGIDO.pdfapplication/pdf4750854http://repositorio.jesuita.org.br/bitstream/UNISINOS/13844/1/Vitor+Werner+de+Vargas_PROTEGIDO.pdf92ea6cc833963cd51029a96b2a91f427MD51UNISINOS/138442025-10-29 14:38:49.364oai:www.repositorio.jesuita.org.br:UNISINOS/13844Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e DissertaçõesPRIhttp://www.repositorio.jesuita.org.br/oai/requestmaicons@unisinos.br ||dspace@unisinos.bropendoar:2025-10-29T17:38:49Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv Heimdall: an architecture for online machine learning through imbalanced data
title Heimdall: an architecture for online machine learning through imbalanced data
spellingShingle Heimdall: an architecture for online machine learning through imbalanced data
Vargas, Vitor Werner de
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Dados desbalanceados
Pré-processamento
Amostragem
Aprendizado de máquina
Arquitetura de software
Agentes reativos
Imbalanced data
Preprocessing
Sampling
Machine learning
Software architecture
Reactive agents
title_short Heimdall: an architecture for online machine learning through imbalanced data
title_full Heimdall: an architecture for online machine learning through imbalanced data
title_fullStr Heimdall: an architecture for online machine learning through imbalanced data
title_full_unstemmed Heimdall: an architecture for online machine learning through imbalanced data
title_sort Heimdall: an architecture for online machine learning through imbalanced data
author Vargas, Vitor Werner de
author_facet Vargas, Vitor Werner de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4358876704972743
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6754464380129137
dc.contributor.author.fl_str_mv Vargas, Vitor Werner de
dc.contributor.advisor-co1.fl_str_mv Pereira, Paulo Ricardo da Silva
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/1997755245309923
dc.contributor.advisor1.fl_str_mv Barbosa, Jorge Luis Victória
contributor_str_mv Pereira, Paulo Ricardo da Silva
Barbosa, Jorge Luis Victória
dc.subject.cnpq.fl_str_mv ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Dados desbalanceados
Pré-processamento
Amostragem
Aprendizado de máquina
Arquitetura de software
Agentes reativos
Imbalanced data
Preprocessing
Sampling
Machine learning
Software architecture
Reactive agents
dc.subject.por.fl_str_mv Dados desbalanceados
Pré-processamento
Amostragem
Aprendizado de máquina
Arquitetura de software
Agentes reativos
dc.subject.eng.fl_str_mv Imbalanced data
Preprocessing
Sampling
Machine learning
Software architecture
Reactive agents
description Algoritmos de aprendizado de máquina têm sido crescentemente utilizado em áreas de aplicação que possuem dados disponíveis para automação de processos. No entanto, no caso de aplicações com dados desbalanceados, o processo de treinamento é desafiador, visto que algoritmos de aprendizado de máquina são desenvolvidos para aprender, intrinsicamente, de distribuições balanceadas. Esta pesquisa propõe Heimdall, uma arquitetura com diversos recursos para aprendizagem de máquina ativa através de dados desbalanceados. Projetado como um serviço para atendimento de requisições de previsões e análises, Heimdall serve aplicações existentes de sistemas externos, estendendo recursos de inteligência artificial e automatização de processos a aplicações tradicionais supervisionadas por especialistas. A arquitetura soluciona o desbalanceamento através de uma série de boas práticas compiladas em mapeamentos de trabalhos relacionados – como otimização do limiar de probabilidade, amostragem de alto desempenho e aprendizado em conjunto. Adicionalmente, Heimdall propõe e avalia a eficiência de funcionalidades inovadoras. Primeiramente, uma nova métrica de performance corrige o equilíbrio entre precision-recall de acordo com as necessidades da aplicação, aprimorando a otimização do limiar de probabilidade. Segundamente, a arquitetura automatiza processos de gerenciamento de dados e aprendizado de máquina, de forma independente, através de dois agentes reativos baseados em regras, os quais monitoram constantemente as mudanças de dados e degradação de performance do modelo para acionar processos. Esses agentes reativos compõem uma estratégia para eficiência adaptativa, habilitando uma performance melhor e mais estável ao sacrificar eficiência em condições iniciais de implantação, e mantendo excelentes performance e eficiência em condições normais da aplicação. Para avaliar a arquitetura de forma adequada, o presente estudo implementou um protótipo para uma aplicação conhecida contendo dados severamente desbalanceados – detecção de fraudes em cartões de crédito. Isolando a melhoria de cada funcionalidade proposta, a análise avaliou a performance no decorrer do tempo e performance global versus trabalhos relacionados através de cinco cenários. Especificamente, os resultados indicam que o protótipo alcançou performance excelente mesmo com poucas anomalias e melhorou a eficiência sistêmica no decorrer do tempo. Por fim, a performance global obteve resultados similares aos melhores resultados em trabalhos relacionados.
publishDate 2023
dc.date.issued.fl_str_mv 2023-09-26
dc.date.accessioned.fl_str_mv 2025-10-29T17:37:32Z
dc.date.available.fl_str_mv 2025-10-29T17:37:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.jesuita.org.br/handle/UNISINOS/13844
url http://repositorio.jesuita.org.br/handle/UNISINOS/13844
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv Unisinos
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
instname:Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron:UNISINOS
instname_str Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str UNISINOS
institution UNISINOS
reponame_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv http://repositorio.jesuita.org.br/bitstream/UNISINOS/13844/2/license.txt
http://repositorio.jesuita.org.br/bitstream/UNISINOS/13844/1/Vitor+Werner+de+Vargas_PROTEGIDO.pdf
bitstream.checksum.fl_str_mv 320e21f23402402ac4988605e1edd177
92ea6cc833963cd51029a96b2a91f427
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv maicons@unisinos.br ||dspace@unisinos.br
_version_ 1853242108623716352