Gerenciando blocos de entidades em memória no contexto de streaming.

Detalhes bibliográficos
Ano de defesa: 2026
Autor(a) principal: PEREIRA, Igor de Sousa. lattes
Orientador(a): PIRES, Carlos Eduardo Santos. lattes, ARAÚJO, Tiago Brasileiro. lattes
Banca de defesa: MESTRE, Demetrio Gomes., SILVA, Diego Marconi Pinheiro Ferreira.
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Programa de Pós-Graduação: PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Departamento: Centro de Engenharia Elétrica e Informática - CEEI
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://dspace.sti.ufcg.edu.br/handle/riufcg/45747
Resumo: Com a expansão dos serviços online, o grande volume de dados gerado dificulta a identificação de registros que representam a mesma entidade do mundo real, especialmente em cenários de streaming. Nesse contexto, tarefas de Resolução de Entidades (RE) passaram a adotar técnicas de blocagem para reduzir comparações desnecessárias, facilitar a detecção de duplicatas e gerar conjuntos de entidades potencialmente similares. Este trabalho propõe três técnicas para melhorar o desempenho da tarefa de RE em ambientes de fluxo contínuo, com foco no gerenciamento eficiente de blocos de entidades em memória. A técnica de Descarte de Entidades realiza a remoção seletiva de registros antigos dentro dos blocos com base em critérios temporais. A técnica de Descarte de Blocos adota uma estratégia mais agressiva, eliminando integralmente blocos que atingem sua capacidade máxima. Por fim, a técnica de Descarte Global de Entidades remove entidades obsoletas de todos os blocos aos quais pertencem com base em uma visão temporal global do sistema. A avaliação experimental foi conduzida sobre três conjuntos de dados reais (SCD, NCVR e MusicBrainz), considerando métricas de eficiência e qualidade, como tempo de blocagem, tempo de matching, número de comparações, Recall e Precision. Os resultados demonstram que o Descarte de Blocos reduz o número de pares comparados e o tempo de matching, alcançando ganhos de até 38% em tempo de execução e até 26% em Precision, com impacto limitado sobre o Recall. A técnica de Descarte Global apresentou ganhos de qualidade em cenários ruidosos e heterogêneos, atingindo valores próximos a 1.0 de Recall e incrementos de Precision. Adicionalmente, experimentos com offsets progressivos indicam que a escolha do volume de dados processados influencia diretamente o equilíbrio entre Recall e Precision, sendo esse efeito dependente das características estruturais de cada conjunto de dados. Em conjunto, os resultados evidenciam que técnicas estruturais de descarte dinâmico são fundamentais para tornar sistemas de RE mais escaláveis, eficientes e robustos em ambientes de streaming.
id UFCG_59b23cc6f2107038cfc93186b4d9f29a
oai_identifier_str oai:dspace.sti.ufcg.edu.br:riufcg/45747
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling PIRES, Carlos Eduardo Santos.PIRES, C. E. S.https://lattes.cnpq.br/4986021622366786ARAÚJO, Tiago Brasileiro.Araújo, T. B.https://lattes.cnpq.br/1503278831971137MESTRE, Demetrio Gomes.SILVA, Diego Marconi Pinheiro Ferreira.PEREIRA, I. S.https://lattes.cnpq.br/4984574616776730PEREIRA, Igor de Sousa.Com a expansão dos serviços online, o grande volume de dados gerado dificulta a identificação de registros que representam a mesma entidade do mundo real, especialmente em cenários de streaming. Nesse contexto, tarefas de Resolução de Entidades (RE) passaram a adotar técnicas de blocagem para reduzir comparações desnecessárias, facilitar a detecção de duplicatas e gerar conjuntos de entidades potencialmente similares. Este trabalho propõe três técnicas para melhorar o desempenho da tarefa de RE em ambientes de fluxo contínuo, com foco no gerenciamento eficiente de blocos de entidades em memória. A técnica de Descarte de Entidades realiza a remoção seletiva de registros antigos dentro dos blocos com base em critérios temporais. A técnica de Descarte de Blocos adota uma estratégia mais agressiva, eliminando integralmente blocos que atingem sua capacidade máxima. Por fim, a técnica de Descarte Global de Entidades remove entidades obsoletas de todos os blocos aos quais pertencem com base em uma visão temporal global do sistema. A avaliação experimental foi conduzida sobre três conjuntos de dados reais (SCD, NCVR e MusicBrainz), considerando métricas de eficiência e qualidade, como tempo de blocagem, tempo de matching, número de comparações, Recall e Precision. Os resultados demonstram que o Descarte de Blocos reduz o número de pares comparados e o tempo de matching, alcançando ganhos de até 38% em tempo de execução e até 26% em Precision, com impacto limitado sobre o Recall. A técnica de Descarte Global apresentou ganhos de qualidade em cenários ruidosos e heterogêneos, atingindo valores próximos a 1.0 de Recall e incrementos de Precision. Adicionalmente, experimentos com offsets progressivos indicam que a escolha do volume de dados processados influencia diretamente o equilíbrio entre Recall e Precision, sendo esse efeito dependente das características estruturais de cada conjunto de dados. Em conjunto, os resultados evidenciam que técnicas estruturais de descarte dinâmico são fundamentais para tornar sistemas de RE mais escaláveis, eficientes e robustos em ambientes de streaming.With the expansion of online Services, the large volume of generated data makes it in- creasingly difficult to identify records that represent the same real-world entity, especially in streaming scenarios. In this context, Entity Resolution (ER) tasks have adopted block- ing techniques to reduce unnecessary comparisons, facilitate duplicate detection, and gener- ate sets of potentially similar entities. This work proposes three techniques to improve the performance of ER in continuous data stream environments, focusing on the efficient man- agement of entity blocks in memory. The Entity Discarding technique performs selective removal of outdated records within blocks based on temporal criteria. The Block Discarding technique adopts a more aggressive strategy by entirely eliminating blocks that reach their maximum capacity. Finally, the Global Entity Discarding technique removes obsolete entities from all blocks to which they belong based on a global temporal view of the system. The experimental evaluation was conducted on three real-world datasets (SCD, NCVR, and Mu- sicBrainz), considering both efficiency and quality metrics, such as blocking time, matching time, number of comparisons, recall, and precision. The results show that Block Discard- ing significantly reduces the number of compared pairs and the matching time, achieving gains of up to 38% in execution time and up to 26% in precision, with limited impact on recall. The Global Discarding technique yields substantial quality improvements in noisy and heterogeneous scenarios, reaching recall values close to 1.0 and notable gains in precision. Additionally, experiments with progressive offsets indicate that the amount of processed data directly influences the balance between recall and precision, with this effect depending on the structural characteristics of each dataset. Overall, the results demonstrate that structural dynamic discarding techniques are fundamental for making ER systems more scalable, effi- cient, and robust in streaming environments.Submitted by Helder Soares Dantas (helder-dantas@hotmail.com) on 2026-03-11T13:35:06Z No. of bitstreams: 1 IGOR DE SOUSA PEREIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf: 2379176 bytes, checksum: 08acffccfaca94e3ebfd53460b4ef931 (MD5)Made available in DSpace on 2026-03-11T13:35:06Z (GMT). No. of bitstreams: 1 IGOR DE SOUSA PEREIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf: 2379176 bytes, checksum: 08acffccfaca94e3ebfd53460b4ef931 (MD5) Previous issue date: 2026-02-02Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoBlocagemProcessamento incrementalStreamingResolução de entidadesBlockingIncrementalStreamingEntity resolution,Gerenciando blocos de entidades em memória no contexto de streaming.Managing In-Memory Entity Blocks in a Streaming Context.2026-02-022026-03-11T13:35:06Z2026-03-112026-03-11T13:35:06Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/45747PEREIRA, Igor de Sousa. Gerenciando Blocos de Entidades em Memória no Contexto de Streaming. 2026. 83 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTIGOR DE SOUSA PEREIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf.txtIGOR DE SOUSA PEREIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf.txttext/plain155477https://dspace.sti.ufcg.edu.br/bitstream/riufcg/45747/3/IGOR+DE+SOUSA+PEREIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf.txt4feb3102cf1a0a22aeacf90a5fc94f84MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/45747/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALIGOR DE SOUSA PEREIRA - DISSERTAÇÃO - (PPGCC) 2026.pdfIGOR DE SOUSA PEREIRA - DISSERTAÇÃO - (PPGCC) 2026.pdfapplication/pdf2379176https://dspace.sti.ufcg.edu.br/bitstream/riufcg/45747/1/IGOR+DE+SOUSA+PEREIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf08acffccfaca94e3ebfd53460b4ef931MD51riufcg/457472026-03-12 03:00:41.811oai:dspace.sti.ufcg.edu.br:riufcg/45747Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512026-03-12T06:00:41Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Gerenciando blocos de entidades em memória no contexto de streaming.
dc.title.alternative.pt_BR.fl_str_mv Managing In-Memory Entity Blocks in a Streaming Context.
title Gerenciando blocos de entidades em memória no contexto de streaming.
spellingShingle Gerenciando blocos de entidades em memória no contexto de streaming.
PEREIRA, Igor de Sousa.
Ciência da Computação
Blocagem
Processamento incremental
Streaming
Resolução de entidades
Blocking
Incremental
Streaming
Entity resolution,
title_short Gerenciando blocos de entidades em memória no contexto de streaming.
title_full Gerenciando blocos de entidades em memória no contexto de streaming.
title_fullStr Gerenciando blocos de entidades em memória no contexto de streaming.
title_full_unstemmed Gerenciando blocos de entidades em memória no contexto de streaming.
title_sort Gerenciando blocos de entidades em memória no contexto de streaming.
author PEREIRA, Igor de Sousa.
author_facet PEREIRA, Igor de Sousa.
author_role author
dc.contributor.advisor2ID.pt_BR.fl_str_mv Araújo, T. B.
dc.contributor.advisor1.fl_str_mv PIRES, Carlos Eduardo Santos.
dc.contributor.advisor1ID.fl_str_mv PIRES, C. E. S.
dc.contributor.advisor1Lattes.fl_str_mv https://lattes.cnpq.br/4986021622366786
dc.contributor.advisor2.fl_str_mv ARAÚJO, Tiago Brasileiro.
dc.contributor.advisor2Lattes.fl_str_mv https://lattes.cnpq.br/1503278831971137
dc.contributor.referee1.fl_str_mv MESTRE, Demetrio Gomes.
dc.contributor.referee2.fl_str_mv SILVA, Diego Marconi Pinheiro Ferreira.
dc.contributor.authorID.fl_str_mv PEREIRA, I. S.
dc.contributor.authorLattes.fl_str_mv https://lattes.cnpq.br/4984574616776730
dc.contributor.author.fl_str_mv PEREIRA, Igor de Sousa.
contributor_str_mv PIRES, Carlos Eduardo Santos.
ARAÚJO, Tiago Brasileiro.
MESTRE, Demetrio Gomes.
SILVA, Diego Marconi Pinheiro Ferreira.
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Blocagem
Processamento incremental
Streaming
Resolução de entidades
Blocking
Incremental
Streaming
Entity resolution,
dc.subject.por.fl_str_mv Blocagem
Processamento incremental
Streaming
Resolução de entidades
Blocking
Incremental
Streaming
Entity resolution,
description Com a expansão dos serviços online, o grande volume de dados gerado dificulta a identificação de registros que representam a mesma entidade do mundo real, especialmente em cenários de streaming. Nesse contexto, tarefas de Resolução de Entidades (RE) passaram a adotar técnicas de blocagem para reduzir comparações desnecessárias, facilitar a detecção de duplicatas e gerar conjuntos de entidades potencialmente similares. Este trabalho propõe três técnicas para melhorar o desempenho da tarefa de RE em ambientes de fluxo contínuo, com foco no gerenciamento eficiente de blocos de entidades em memória. A técnica de Descarte de Entidades realiza a remoção seletiva de registros antigos dentro dos blocos com base em critérios temporais. A técnica de Descarte de Blocos adota uma estratégia mais agressiva, eliminando integralmente blocos que atingem sua capacidade máxima. Por fim, a técnica de Descarte Global de Entidades remove entidades obsoletas de todos os blocos aos quais pertencem com base em uma visão temporal global do sistema. A avaliação experimental foi conduzida sobre três conjuntos de dados reais (SCD, NCVR e MusicBrainz), considerando métricas de eficiência e qualidade, como tempo de blocagem, tempo de matching, número de comparações, Recall e Precision. Os resultados demonstram que o Descarte de Blocos reduz o número de pares comparados e o tempo de matching, alcançando ganhos de até 38% em tempo de execução e até 26% em Precision, com impacto limitado sobre o Recall. A técnica de Descarte Global apresentou ganhos de qualidade em cenários ruidosos e heterogêneos, atingindo valores próximos a 1.0 de Recall e incrementos de Precision. Adicionalmente, experimentos com offsets progressivos indicam que a escolha do volume de dados processados influencia diretamente o equilíbrio entre Recall e Precision, sendo esse efeito dependente das características estruturais de cada conjunto de dados. Em conjunto, os resultados evidenciam que técnicas estruturais de descarte dinâmico são fundamentais para tornar sistemas de RE mais escaláveis, eficientes e robustos em ambientes de streaming.
publishDate 2026
dc.date.issued.fl_str_mv 2026-02-02
dc.date.accessioned.fl_str_mv 2026-03-11T13:35:06Z
dc.date.available.fl_str_mv 2026-03-11
2026-03-11T13:35:06Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.sti.ufcg.edu.br/handle/riufcg/45747
dc.identifier.citation.fl_str_mv PEREIRA, Igor de Sousa. Gerenciando Blocos de Entidades em Memória no Contexto de Streaming. 2026. 83 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026.
url https://dspace.sti.ufcg.edu.br/handle/riufcg/45747
identifier_str_mv PEREIRA, Igor de Sousa. Gerenciando Blocos de Entidades em Memória no Contexto de Streaming. 2026. 83 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026.
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv https://dspace.sti.ufcg.edu.br/bitstream/riufcg/45747/3/IGOR+DE+SOUSA+PEREIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/45747/2/license.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/45747/1/IGOR+DE+SOUSA+PEREIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf
bitstream.checksum.fl_str_mv 4feb3102cf1a0a22aeacf90a5fc94f84
8a4605be74aa9ea9d79846c1fba20a33
08acffccfaca94e3ebfd53460b4ef931
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1863363583050514432