Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.
| Ano de defesa: | 2026 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | , |
| Banca de defesa: | , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Campina Grande
|
| Programa de Pós-Graduação: |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
|
| Departamento: |
Centro de Engenharia Elétrica e Informática - CEEI
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://dspace.sti.ufcg.edu.br/handle/riufcg/46343 |
Resumo: | A análise de cargas de trabalho é necessária para o projeto e a otimização de sistemas de cache, orientando decisões como o planejamento de capacidade, seleção de políticas de substituição de itens, seleção de políticas de controle de admissão, entre outras. Em geral, essa análise baseia-se em rastros (traces) de sistemas em produção. Embora o ideal seja analisar a totalidade das requisições recebidas pelo sistema, a sobrecarga computacional imposta pela coleta de dados muitas vezes torna a amostragem uma necessidade prática. Apesar de seu uso generalizado, o impacto da amostragem na representatividade da carga de trabalho tem sido negligenciado. Este trabalho evidencia esses problemas de representatividade ao mostrar que a amostragem sistemática, uma técnica simples, pode distorcer significativamente as características da carga de trabalho, levando a decisões equivocadas. Especificamente, nossos resultados revelam que os rastros amostrados podem causar erros expressivos na estimativa de métricas importantes, como a frequência de acesso a itens, produzindo resultados que divergem daqueles baseados em rastros completos. Por outro lado, descobrimos que, para algumas cargas de trabalho, outra técnica, a amostragem em bloco, embora imperfeita, pode melhorar a representatividade das amostras, preservando características importantes da carga de trabalho. Essas descobertas servem como um alerta para pesquisadores e profissionais que dependem de rastros amostrados, destacando os riscos de aplicar a amostragem de forma acrítica na análise de sistemas de cache. |
| id |
UFCG_da0dad992df360a8f266734fe709eb53 |
|---|---|
| oai_identifier_str |
oai:dspace.sti.ufcg.edu.br:riufcg/46343 |
| network_acronym_str |
UFCG |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
| repository_id_str |
|
| spelling |
SILVA, Thiago Emmanuel Pereira da Cunha.http://lattes.cnpq.br/3273998433544268PEREIRA, Thiago EmmanuelBRASILEIRO, Francisco Vilar.BRASILEIRO, F.http://lattes.cnpq.br/5957855817378897SILVA, Giovanni Farias da.LOPES, Raquel Vigolvino.Lira, A.http://lattes.cnpq.br/9315775432767228LIRA , Anna Beatriz Lucena.A análise de cargas de trabalho é necessária para o projeto e a otimização de sistemas de cache, orientando decisões como o planejamento de capacidade, seleção de políticas de substituição de itens, seleção de políticas de controle de admissão, entre outras. Em geral, essa análise baseia-se em rastros (traces) de sistemas em produção. Embora o ideal seja analisar a totalidade das requisições recebidas pelo sistema, a sobrecarga computacional imposta pela coleta de dados muitas vezes torna a amostragem uma necessidade prática. Apesar de seu uso generalizado, o impacto da amostragem na representatividade da carga de trabalho tem sido negligenciado. Este trabalho evidencia esses problemas de representatividade ao mostrar que a amostragem sistemática, uma técnica simples, pode distorcer significativamente as características da carga de trabalho, levando a decisões equivocadas. Especificamente, nossos resultados revelam que os rastros amostrados podem causar erros expressivos na estimativa de métricas importantes, como a frequência de acesso a itens, produzindo resultados que divergem daqueles baseados em rastros completos. Por outro lado, descobrimos que, para algumas cargas de trabalho, outra técnica, a amostragem em bloco, embora imperfeita, pode melhorar a representatividade das amostras, preservando características importantes da carga de trabalho. Essas descobertas servem como um alerta para pesquisadores e profissionais que dependem de rastros amostrados, destacando os riscos de aplicar a amostragem de forma acrítica na análise de sistemas de cache.Workload analysis is essential for the design and optimization of caching systems, guiding decisions such as capacity planning, the selection of replacement policies, and admission control policies, among others. This analysis is frequently based on traces from production systems. While it is ideal to analyze the entirety of requests received by a system, the computational overhead imposed by data collection often makes sampling a practical necessity. Despite its widespread use, the impact of sampling on workload representativeness has been largely overlooked. This work highlights these representativeness issues by showing that systematic sampling, a simple technique, can significantly distort workload characteristics, leading to misguided decisions. Specifically, our results reveal that sampled traces can cause substantial errors in estimating key metrics, such as item access frequency, producing results that diverge from those based on full traces. On the other hand, we found that for some workloads, another technique, block sampling, while imperfect, can improve sample representativeness by preserving important workload characteristics. These findings serve as a warning to researchers and practitioners who rely on sampled traces, highlighting the risks of applying sampling uncritically in the analysis of caching systems.Submitted by Helder Soares Dantas (helder-dantas@hotmail.com) on 2026-04-22T19:35:53Z No. of bitstreams: 1 ANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf: 1477235 bytes, checksum: bb2584b6f0ac553b740a34375865ebe9 (MD5)Made available in DSpace on 2026-04-22T19:35:53Z (GMT). No. of bitstreams: 1 ANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf: 1477235 bytes, checksum: bb2584b6f0ac553b740a34375865ebe9 (MD5) Previous issue date: 2026-02-02Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEICiência da ComputaçãoTrace-drivenAmostragem de rastrosSistemas de cacheTrace-drivenTrace samplingCaching systemsSobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache.On the Reliability of Data Sampling to Support Decision-Making in Cache System Management.2026-02-022026-04-22T19:35:53Z2026-04-222026-04-22T19:35:53Zhttps://dspace.sti.ufcg.edu.br/handle/riufcg/46343LIRA, Anna Beatriz Lucena. Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. 2026. 67 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGTEXTANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf.txtANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdf.txttext/plain116213https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/3/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf.txt91d705f2368fb9157ef7c3a80c5af6b9MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdfANNA BEATRIZ LUCENA LIRA - DISSERTAÇÃO - (PPGCC) 2026.pdfapplication/pdf1477235https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/1/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdfbb2584b6f0ac553b740a34375865ebe9MD51riufcg/463432026-04-23 03:00:39.12oai:dspace.sti.ufcg.edu.br:riufcg/46343Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512026-04-23T06:00:39Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false |
| dc.title.pt_BR.fl_str_mv |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. |
| dc.title.alternative.pt_BR.fl_str_mv |
On the Reliability of Data Sampling to Support Decision-Making in Cache System Management. |
| title |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. |
| spellingShingle |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. LIRA , Anna Beatriz Lucena. Ciência da Computação Trace-driven Amostragem de rastros Sistemas de cache Trace-driven Trace sampling Caching systems |
| title_short |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. |
| title_full |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. |
| title_fullStr |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. |
| title_full_unstemmed |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. |
| title_sort |
Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. |
| author |
LIRA , Anna Beatriz Lucena. |
| author_facet |
LIRA , Anna Beatriz Lucena. |
| author_role |
author |
| dc.contributor.advisor2ID.pt_BR.fl_str_mv |
BRASILEIRO, F. |
| dc.contributor.advisor1.fl_str_mv |
SILVA, Thiago Emmanuel Pereira da Cunha. |
| dc.contributor.advisor1ID.fl_str_mv |
http://lattes.cnpq.br/3273998433544268 |
| dc.contributor.advisor1Lattes.fl_str_mv |
PEREIRA, Thiago Emmanuel |
| dc.contributor.advisor2.fl_str_mv |
BRASILEIRO, Francisco Vilar. |
| dc.contributor.advisor2Lattes.fl_str_mv |
http://lattes.cnpq.br/5957855817378897 |
| dc.contributor.referee1.fl_str_mv |
SILVA, Giovanni Farias da. |
| dc.contributor.referee2.fl_str_mv |
LOPES, Raquel Vigolvino. |
| dc.contributor.authorID.fl_str_mv |
Lira, A. |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9315775432767228 |
| dc.contributor.author.fl_str_mv |
LIRA , Anna Beatriz Lucena. |
| contributor_str_mv |
SILVA, Thiago Emmanuel Pereira da Cunha. BRASILEIRO, Francisco Vilar. SILVA, Giovanni Farias da. LOPES, Raquel Vigolvino. |
| dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
| topic |
Ciência da Computação Trace-driven Amostragem de rastros Sistemas de cache Trace-driven Trace sampling Caching systems |
| dc.subject.por.fl_str_mv |
Trace-driven Amostragem de rastros Sistemas de cache Trace-driven Trace sampling Caching systems |
| description |
A análise de cargas de trabalho é necessária para o projeto e a otimização de sistemas de cache, orientando decisões como o planejamento de capacidade, seleção de políticas de substituição de itens, seleção de políticas de controle de admissão, entre outras. Em geral, essa análise baseia-se em rastros (traces) de sistemas em produção. Embora o ideal seja analisar a totalidade das requisições recebidas pelo sistema, a sobrecarga computacional imposta pela coleta de dados muitas vezes torna a amostragem uma necessidade prática. Apesar de seu uso generalizado, o impacto da amostragem na representatividade da carga de trabalho tem sido negligenciado. Este trabalho evidencia esses problemas de representatividade ao mostrar que a amostragem sistemática, uma técnica simples, pode distorcer significativamente as características da carga de trabalho, levando a decisões equivocadas. Especificamente, nossos resultados revelam que os rastros amostrados podem causar erros expressivos na estimativa de métricas importantes, como a frequência de acesso a itens, produzindo resultados que divergem daqueles baseados em rastros completos. Por outro lado, descobrimos que, para algumas cargas de trabalho, outra técnica, a amostragem em bloco, embora imperfeita, pode melhorar a representatividade das amostras, preservando características importantes da carga de trabalho. Essas descobertas servem como um alerta para pesquisadores e profissionais que dependem de rastros amostrados, destacando os riscos de aplicar a amostragem de forma acrítica na análise de sistemas de cache. |
| publishDate |
2026 |
| dc.date.issued.fl_str_mv |
2026-02-02 |
| dc.date.accessioned.fl_str_mv |
2026-04-22T19:35:53Z |
| dc.date.available.fl_str_mv |
2026-04-22 2026-04-22T19:35:53Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://dspace.sti.ufcg.edu.br/handle/riufcg/46343 |
| dc.identifier.citation.fl_str_mv |
LIRA, Anna Beatriz Lucena. Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. 2026. 67 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026. |
| url |
https://dspace.sti.ufcg.edu.br/handle/riufcg/46343 |
| identifier_str_mv |
LIRA, Anna Beatriz Lucena. Sobre a confiabilidade da amostragem de dados para apoio à tomada de decisões de gerenciamento de sistemas de cache. 2026. 67 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2026. |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Campina Grande |
| dc.publisher.program.fl_str_mv |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
| dc.publisher.initials.fl_str_mv |
UFCG |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Centro de Engenharia Elétrica e Informática - CEEI |
| publisher.none.fl_str_mv |
Universidade Federal de Campina Grande |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG |
| instname_str |
Universidade Federal de Campina Grande (UFCG) |
| instacron_str |
UFCG |
| institution |
UFCG |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
| collection |
Biblioteca Digital de Teses e Dissertações da UFCG |
| bitstream.url.fl_str_mv |
https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/3/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/2/license.txt https://dspace.sti.ufcg.edu.br/bitstream/riufcg/46343/1/ANNA+BEATRIZ+LUCENA+LIRA+-+DISSERTA%C3%87%C3%83O+-+%28PPGCC%29+2026.pdf |
| bitstream.checksum.fl_str_mv |
91d705f2368fb9157ef7c3a80c5af6b9 8a4605be74aa9ea9d79846c1fba20a33 bb2584b6f0ac553b740a34375865ebe9 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG) |
| repository.mail.fl_str_mv |
bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br |
| _version_ |
1863363584403177472 |