Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.

Detalhes bibliográficos
Ano de defesa: 2026
Autor(a) principal: LIRA , Anna Beatriz Lucena. lattes
Orientador(a): SILVA, Thiago Emmanuel Pereira da Cunha. lattes, BRASILEIRO, Francisco Vilar. lattes
Banca de defesa: SILVA, Giovanni Farias da., LOPES, Raquel Vigolvino.
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Programa de Pós-Graduação: PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Departamento: Centro de Engenharia Elétrica e Informática - CEEI
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://dspace.sti.ufcg.edu.br/handle/riufcg/46343
Resumo: A análise de cargas de trabalho é necessária para o projeto e a otimização de sistemas de cache, orientando decisões como o planejamento de capacidade, seleção de políticas de substituição de itens, seleção de políticas de controle de admissão, entre outras. Em geral, essa análise baseia-se em rastros (traces) de sistemas em produção. Embora o ideal seja analisar a totalidade das requisições recebidas pelo sistema, a sobrecarga computacional imposta pela coleta de dados muitas vezes torna a amostragem uma necessidade prática. Apesar de seu uso generalizado, o impacto da amostragem na representatividade da carga de trabalho tem sido negligenciado. Este trabalho evidencia esses problemas de representatividade ao mostrar que a amostragem sistemática, uma técnica simples, pode distorcer significativamente as características da carga de trabalho, levando a decisões equivocadas. Especificamente, nossos resultados revelam que os rastros amostrados podem causar erros expressivos na estimativa de métricas importantes, como a frequência de acesso a itens, produzindo resultados que divergem daqueles baseados em rastros completos. Por outro lado, descobrimos que, para algumas cargas de trabalho, outra técnica, a amostragem em bloco, embora imperfeita, pode melhorar a representatividade das amostras, preservando características importantes da carga de trabalho. Essas descobertas servem como um alerta para pesquisadores e profissionais que dependem de rastros amostrados, destacando os riscos de aplicar a amostragem de forma acrítica na análise de sistemas de cache.
id UFCG_da0dad992df360a8f266734fe709eb53
oai_identifier_str oai:dspace.sti.ufcg.edu.br:riufcg/46343
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str
spelling SILVA, Thiago Emmanuel Pereira da Cunha.http://lattes.cnpq.br/3273998433544268PEREIRA, Thiago EmmanuelBRASILEIRO, Francisco Vilar.BRASILEIRO, F.http://lattes.cnpq.br/5957855817378897SILVA, Giovanni Farias da.LOPES, Raquel Vigolvino.Lira, A.http://lattes.cnpq.br/9315775432767228LIRA , Anna Beatriz Lucena.A análise de cargas de trabalho é necessária para o projeto e a otimização de sistemas de cache, orientando decisões como o planejamento de capacidade, seleção de políticas de substituição de itens, seleção de políticas de controle de admissão, entre outras. Em geral, essa análise baseia-se em rastros (traces) de sistemas em produção. Embora o ideal seja analisar a totalidade das requisições recebidas pelo sistema, a sobrecarga computacional imposta pela coleta de dados muitas vezes torna a amostragem uma necessidade prática. Apesar de seu uso generalizado, o impacto da amostragem na representatividade da carga de trabalho tem sido negligenciado. Este trabalho evidencia esses problemas de representatividade ao mostrar que a amostragem sistemática, uma técnica simples, pode distorcer significativamente as características da carga de trabalho, levando a decisões equivocadas. Especificamente, nossos resultados revelam que os rastros amostrados podem causar erros expressivos na estimativa de métricas importantes, como a frequência de acesso a itens, produzindo resultados que divergem daqueles baseados em rastros completos. Por outro lado, descobrimos que, para algumas cargas de trabalho, outra técnica, a amostragem em bloco, embora imperfeita, pode melhorar a representatividade das amostras, preservando características importantes da carga de trabalho. Essas descobertas servem como um alerta para pesquisadores e profissionais que dependem de rastros amostrados, destacando os riscos de aplicar a amostragem de forma acrítica na análise de sistemas de cache.Workload analysis is essential for the design and optimization of caching systems, guiding decisions such as capacity planning, the selection of replacement policies, and admission control policies, among others. This analysis is frequently based on traces from production systems. While it is ideal to analyze the entirety of requests received by a system, the computational overhead imposed by data collection often makes sampling a practical necessity. Despite its widespread use, the impact of sampling on workload representativeness has been largely overlooked. This work highlights these representativeness issues by showing that systematic sampling, a simple technique, can significantly distort workload characteristics, leading to misguided decisions. Specifically, our results reveal that sampled traces can cause substantial errors in estimating key metrics, such as item access frequency, producing results that diverge from those based on full traces. On the other hand, we found that for some workloads, another technique, block sampling, while imperfect, can improve sample representativeness by preserving important workload characteristics. These findings serve as a warning to researchers and practitioners who rely on sampled traces, highlighting the risks of applying sampling uncritically in the analysis of caching systems.Submitted by Helder Soares Dantas (helder-dantas@hotmail.com) on 2026-04-22T19:35:53Z No. of bitstreams: 1 ANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf: 1477235 bytes, checksum: bb2584b6f0ac553b740a34375865ebe9 (MD5)Made available in DSpace on 2026-04-22T19:35:53Z (GMT). No. of bitstreams: 1 ANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf: 1477235 bytes, checksum: bb2584b6f0ac553b740a34375865ebe9 (MD5) Previous issue date: 2026-02-02Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoTrace-drivenAmostragem de rastrosSistemas de cacheTrace-drivenTrace samplingCaching systemsSobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.On the Reliability of Data Sampling to Support Decision-Making in Cache System Management.2026-02-022026-04-22T19:35:53Z2026-04-222026-04-22T19:35:53Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/46343LIRA, Anna Beatriz Lucena. Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. 2026. 67 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf.txtANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf.txttext/plain116213https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/3/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf.txt91d705f2368fb9157ef7c3a80c5af6b9MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdfANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdfapplication/pdf1477235https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/1/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdfbb2584b6f0ac553b740a34375865ebe9MD51riufcg/463432026-04-23 03:00:39.12oai:dspace.sti.ufcg.edu.br:riufcg/46343Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512026-04-23T06:00:39Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
dc.title.alternative.pt_BR.fl_str_mv On the Reliability of Data Sampling to Support Decision-Making in Cache System Management.
title Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
spellingShingle Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
LIRA , Anna Beatriz Lucena.
Ciência da Computação
Trace-driven
Amostragem de rastros
Sistemas de cache
Trace-driven
Trace sampling
Caching systems
title_short Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
title_full Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
title_fullStr Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
title_full_unstemmed Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
title_sort Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
author LIRA , Anna Beatriz Lucena.
author_facet LIRA , Anna Beatriz Lucena.
author_role author
dc.contributor.advisor2ID.pt_BR.fl_str_mv BRASILEIRO, F.
dc.contributor.advisor1.fl_str_mv SILVA, Thiago Emmanuel Pereira da Cunha.
dc.contributor.advisor1ID.fl_str_mv http://lattes.cnpq.br/3273998433544268
dc.contributor.advisor1Lattes.fl_str_mv PEREIRA, Thiago Emmanuel
dc.contributor.advisor2.fl_str_mv BRASILEIRO, Francisco Vilar.
dc.contributor.advisor2Lattes.fl_str_mv http://lattes.cnpq.br/5957855817378897
dc.contributor.referee1.fl_str_mv SILVA, Giovanni Farias da.
dc.contributor.referee2.fl_str_mv LOPES, Raquel Vigolvino.
dc.contributor.authorID.fl_str_mv Lira, A.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9315775432767228
dc.contributor.author.fl_str_mv LIRA , Anna Beatriz Lucena.
contributor_str_mv SILVA, Thiago Emmanuel Pereira da Cunha.
BRASILEIRO, Francisco Vilar.
SILVA, Giovanni Farias da.
LOPES, Raquel Vigolvino.
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Trace-driven
Amostragem de rastros
Sistemas de cache
Trace-driven
Trace sampling
Caching systems
dc.subject.por.fl_str_mv Trace-driven
Amostragem de rastros
Sistemas de cache
Trace-driven
Trace sampling
Caching systems
description A análise de cargas de trabalho é necessária para o projeto e a otimização de sistemas de cache, orientando decisões como o planejamento de capacidade, seleção de políticas de substituição de itens, seleção de políticas de controle de admissão, entre outras. Em geral, essa análise baseia-se em rastros (traces) de sistemas em produção. Embora o ideal seja analisar a totalidade das requisições recebidas pelo sistema, a sobrecarga computacional imposta pela coleta de dados muitas vezes torna a amostragem uma necessidade prática. Apesar de seu uso generalizado, o impacto da amostragem na representatividade da carga de trabalho tem sido negligenciado. Este trabalho evidencia esses problemas de representatividade ao mostrar que a amostragem sistemática, uma técnica simples, pode distorcer significativamente as características da carga de trabalho, levando a decisões equivocadas. Especificamente, nossos resultados revelam que os rastros amostrados podem causar erros expressivos na estimativa de métricas importantes, como a frequência de acesso a itens, produzindo resultados que divergem daqueles baseados em rastros completos. Por outro lado, descobrimos que, para algumas cargas de trabalho, outra técnica, a amostragem em bloco, embora imperfeita, pode melhorar a representatividade das amostras, preservando características importantes da carga de trabalho. Essas descobertas servem como um alerta para pesquisadores e profissionais que dependem de rastros amostrados, destacando os riscos de aplicar a amostragem de forma acrítica na análise de sistemas de cache.
publishDate 2026
dc.date.issued.fl_str_mv 2026-02-02
dc.date.accessioned.fl_str_mv 2026-04-22T19:35:53Z
dc.date.available.fl_str_mv 2026-04-22
2026-04-22T19:35:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.sti.ufcg.edu.br/handle/riufcg/46343
dc.identifier.citation.fl_str_mv LIRA, Anna Beatriz Lucena. Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. 2026. 67 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026.
url https://dspace.sti.ufcg.edu.br/handle/riufcg/46343
identifier_str_mv LIRA, Anna Beatriz Lucena. Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. 2026. 67 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026.
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/3/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/2/license.txt
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/1/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf
bitstream.checksum.fl_str_mv 91d705f2368fb9157ef7c3a80c5af6b9
8a4605be74aa9ea9d79846c1fba20a33
bb2584b6f0ac553b740a34375865ebe9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1863363584403177472