Avaliação de bandits contextuais para recomendação: temporalidade e limitações
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://hdl.handle.net/20.500.14289/22952 |
Resumo: | In a digital environment where users are daily exposed to a massive volume of content, recommender systems play an essential role in filtering and personalizing information. These systems, however, face the classic dilemma between exploration (introducing new items) and exploitation (reinforcing known preferences). Finding the ideal balance between these two behaviors remains one of the major challenges in the field, especially in adaptive approaches such as contextual Multi-Armed Bandits (MAB), which learn continuously from user interactions over time. This work began with the investigation of different linear MAB algorithms in recommendation and offline evaluation scenarios. During these experiments, a systematic bias was observed in traditional metrics, favoring purely greedy methods (without exploration) and compromising both the analysis of exploratory strategies and the fair comparison between policies. To overcome these limitations, a new online evaluation methodology was proposed and implemented in a simulated environment. The KuaiSim simulator, based on the KuaiRand dataset, was extensively adapted to support multi-session interactions, contextual modeling, and temporal dependency. This infrastructure enabled a more realistic investigation of how temporal factors influence recommendation behavior. Building upon this new environment, the temporal method Time-Aware LinBoltzmann was developed. It combines linear models with Boltzmann exploration and dynamically adjusts the temperature parameter according to the time interval between user interactions. The underlying intuition is that users who return quickly tend to prefer recommendations aligned with their previous interests, while longer return intervals may indicate a greater willingness to explore new options. Experiments conducted in the simulator show that incorporating temporal information improves diversity and coverage metrics compared to baseline methods, suggesting that time is a relevant signal for modulating the balance between exploration and exploitation. These findings open new perspectives for recommender systems that are sensitive to users’ temporal behavior. The main contributions of this work include: (i) the identification and analysis of bias in offline evaluation protocols for linear MABs; (ii) the development of an online simulation framework based on temporal sessions; (iii) the proposal of the Time-Aware LinBoltzmann algorithm, which introduces temporal awareness into the exploration process; and (iv) the discussion of implications, limitations, and future opportunities for incorporating temporal information into recommender systems. |
| id |
SCAR_2189e36f6ec08703bc385c24c86fe70e |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/22952 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Campos, Pietro Lo PrestiAlmeida, Tiago Agostinho dehttp://lattes.cnpq.br/5368680512020633http://lattes.cnpq.br/5560317474713964Valejo, Alan Demétrius BariaManzato, Marcelo Garciahttp://lattes.cnpq.br/9546164790189830http://lattes.cnpq.br/85982626416685202025-10-23T12:29:24Z2025-10-01CAMPOS, Pietro Lo Presti. Avaliação de bandits contextuais para recomendação: temporalidade e limitações. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22952.https://hdl.handle.net/20.500.14289/22952In a digital environment where users are daily exposed to a massive volume of content, recommender systems play an essential role in filtering and personalizing information. These systems, however, face the classic dilemma between exploration (introducing new items) and exploitation (reinforcing known preferences). Finding the ideal balance between these two behaviors remains one of the major challenges in the field, especially in adaptive approaches such as contextual Multi-Armed Bandits (MAB), which learn continuously from user interactions over time. This work began with the investigation of different linear MAB algorithms in recommendation and offline evaluation scenarios. During these experiments, a systematic bias was observed in traditional metrics, favoring purely greedy methods (without exploration) and compromising both the analysis of exploratory strategies and the fair comparison between policies. To overcome these limitations, a new online evaluation methodology was proposed and implemented in a simulated environment. The KuaiSim simulator, based on the KuaiRand dataset, was extensively adapted to support multi-session interactions, contextual modeling, and temporal dependency. This infrastructure enabled a more realistic investigation of how temporal factors influence recommendation behavior. Building upon this new environment, the temporal method Time-Aware LinBoltzmann was developed. It combines linear models with Boltzmann exploration and dynamically adjusts the temperature parameter according to the time interval between user interactions. The underlying intuition is that users who return quickly tend to prefer recommendations aligned with their previous interests, while longer return intervals may indicate a greater willingness to explore new options. Experiments conducted in the simulator show that incorporating temporal information improves diversity and coverage metrics compared to baseline methods, suggesting that time is a relevant signal for modulating the balance between exploration and exploitation. These findings open new perspectives for recommender systems that are sensitive to users’ temporal behavior. The main contributions of this work include: (i) the identification and analysis of bias in offline evaluation protocols for linear MABs; (ii) the development of an online simulation framework based on temporal sessions; (iii) the proposal of the Time-Aware LinBoltzmann algorithm, which introduces temporal awareness into the exploration process; and (iv) the discussion of implications, limitations, and future opportunities for incorporating temporal information into recommender systems.Em um cenário digital em que usuários são expostos diariamente a um volume massivo de conteúdos, os sistemas de recomendação desempenham um papel essencial ao filtrar e personalizar informações. Esses sistemas, no entanto, enfrentam o dilema clássico entre exploração (apresentar novos itens) e aprofundamento (reforçar preferências já conhecidas). Encontrar o equilíbrio ideal entre esses dois comportamentos é um dos maiores desafios da área, especialmente em abordagens adaptativas como os Multi-Armed Bandits (MAB) contextuais, que aprendem continuamente a partir das interações de cada usuário. Este trabalho teve início com a investigação de diferentes algoritmos lineares de MAB em cenários de recomendação e avaliação offline. Durante esses experimentos, observou-se um viés sistemático nas métricas tradicionais, que favoreciam métodos puramente gulosos (sem exploração), comprometendo a análise de estratégias exploratórias e a comparação justa entre políticas. Para contornar essas limitações, foi proposta e implementada uma nova metodologia de avaliação online em ambiente simulado. O simulador KuaiSim, baseado na base de dados KuaiRand, foi extensivamente adaptado para suportar interações multi-sessão, modelagem contextual e dependência temporal. Essa infraestrutura possibilitou investigar, de forma mais realista, como fatores temporais influenciam o comportamento de recomendação. Com base nesse novo ambiente, foi desenvolvido o método temporal Time-Aware LinBoltzmann, que combina modelos lineares com exploração Boltzmann e ajusta dinamicamente o parâmetro de temperatura de acordo com o intervalo de tempo entre interações. A intuição é que usuários que retornam rapidamente tendem a preferir recomendações mais alinhadas a seus interesses prévios, enquanto retornos mais longos podem indicar maior disposição para explorar novas opções. Os experimentos realizados no simulador indicam que o uso do tempo melhora métricas de diversidade e cobertura em relação aos métodos de referência, sugerindo que a informação temporal é um sinal relevante para modular o equilíbrio entre exploração e aprofundamento. Esses resultados abrem novas perspectivas para sistemas de recomendação sensíveis ao comportamento temporal do usuário. As principais contribuições deste trabalho incluem: (i) a identificação e análise do viés em protocolos offline de avaliação de MAB lineares; (ii) o desenvolvimento de uma estrutura de simulação online baseada em sessões temporais; (iii) a proposição do algoritmo Time-Aware LinBoltzmann, que introduz consciência temporal no processo de exploração; e (iv) a discussão de implicações, limitações e oportunidades futuras para o uso de informação temporal em sistemas de recomendação.porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessSistemas de recomendaçãoConsciência temporalAvaliação onlineMulti-Armed BanditsRecommender systemsTemporal awarenessOnline evaluationCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAvaliação de bandits contextuais para recomendação: temporalidade e limitaçõesEvaluation of contextual bandits for recommendation: temporality and limitationsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALmestrado_pietro_campos_2025.pdfmestrado_pietro_campos_2025.pdfapplication/pdf1176356https://repositorio.ufscar.br/bitstreams/3e3f4444-81a6-4fe4-b71b-feb275050e75/downloadc1c3210c508f0d057074fad2610c2dbcMD51trueAnonymousREADTEXTmestrado_pietro_campos_2025.pdf.txtmestrado_pietro_campos_2025.pdf.txtExtracted texttext/plain103486https://repositorio.ufscar.br/bitstreams/69ef289b-bfe6-46e5-bcc1-7fda8d65570c/download96f08f88d4bbdc752bea18e2db923f4aMD53falseAnonymousREADTHUMBNAILmestrado_pietro_campos_2025.pdf.jpgmestrado_pietro_campos_2025.pdf.jpgGenerated Thumbnailimage/jpeg4016https://repositorio.ufscar.br/bitstreams/939a72ca-09c0-4af5-9bec-5fb829853974/download481d901ae3e152cc828e08d537640ab4MD54falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81026https://repositorio.ufscar.br/bitstreams/8270ca23-b219-4a96-9149-4943fb2046db/download8b1d7be50365a944321ad7a1789f6ebfMD52falseAnonymousREAD20.500.14289/229522025-10-24T03:03:08.003125Zhttp://creativecommons.org/licenses/by/3.0/br/Attribution 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22952https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-10-24T03:03:08Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações |
| dc.title.alternative.eng.fl_str_mv |
Evaluation of contextual bandits for recommendation: temporality and limitations |
| title |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações |
| spellingShingle |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações Campos, Pietro Lo Presti Sistemas de recomendação Consciência temporal Avaliação online Multi-Armed Bandits Recommender systems Temporal awareness Online evaluation CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| title_short |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações |
| title_full |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações |
| title_fullStr |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações |
| title_full_unstemmed |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações |
| title_sort |
Avaliação de bandits contextuais para recomendação: temporalidade e limitações |
| author |
Campos, Pietro Lo Presti |
| author_facet |
Campos, Pietro Lo Presti |
| author_role |
author |
| dc.contributor.authorlattes.none.fl_str_mv |
http://lattes.cnpq.br/5560317474713964 |
| dc.contributor.referee.none.fl_str_mv |
Valejo, Alan Demétrius Baria Manzato, Marcelo Garcia |
| dc.contributor.refereeLattes.none.fl_str_mv |
http://lattes.cnpq.br/9546164790189830 http://lattes.cnpq.br/8598262641668520 |
| dc.contributor.author.fl_str_mv |
Campos, Pietro Lo Presti |
| dc.contributor.advisor1.fl_str_mv |
Almeida, Tiago Agostinho de |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/5368680512020633 |
| contributor_str_mv |
Almeida, Tiago Agostinho de |
| dc.subject.por.fl_str_mv |
Sistemas de recomendação Consciência temporal Avaliação online |
| topic |
Sistemas de recomendação Consciência temporal Avaliação online Multi-Armed Bandits Recommender systems Temporal awareness Online evaluation CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Multi-Armed Bandits Recommender systems Temporal awareness Online evaluation |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| description |
In a digital environment where users are daily exposed to a massive volume of content, recommender systems play an essential role in filtering and personalizing information. These systems, however, face the classic dilemma between exploration (introducing new items) and exploitation (reinforcing known preferences). Finding the ideal balance between these two behaviors remains one of the major challenges in the field, especially in adaptive approaches such as contextual Multi-Armed Bandits (MAB), which learn continuously from user interactions over time. This work began with the investigation of different linear MAB algorithms in recommendation and offline evaluation scenarios. During these experiments, a systematic bias was observed in traditional metrics, favoring purely greedy methods (without exploration) and compromising both the analysis of exploratory strategies and the fair comparison between policies. To overcome these limitations, a new online evaluation methodology was proposed and implemented in a simulated environment. The KuaiSim simulator, based on the KuaiRand dataset, was extensively adapted to support multi-session interactions, contextual modeling, and temporal dependency. This infrastructure enabled a more realistic investigation of how temporal factors influence recommendation behavior. Building upon this new environment, the temporal method Time-Aware LinBoltzmann was developed. It combines linear models with Boltzmann exploration and dynamically adjusts the temperature parameter according to the time interval between user interactions. The underlying intuition is that users who return quickly tend to prefer recommendations aligned with their previous interests, while longer return intervals may indicate a greater willingness to explore new options. Experiments conducted in the simulator show that incorporating temporal information improves diversity and coverage metrics compared to baseline methods, suggesting that time is a relevant signal for modulating the balance between exploration and exploitation. These findings open new perspectives for recommender systems that are sensitive to users’ temporal behavior. The main contributions of this work include: (i) the identification and analysis of bias in offline evaluation protocols for linear MABs; (ii) the development of an online simulation framework based on temporal sessions; (iii) the proposal of the Time-Aware LinBoltzmann algorithm, which introduces temporal awareness into the exploration process; and (iv) the discussion of implications, limitations, and future opportunities for incorporating temporal information into recommender systems. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-10-23T12:29:24Z |
| dc.date.issued.fl_str_mv |
2025-10-01 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CAMPOS, Pietro Lo Presti. Avaliação de bandits contextuais para recomendação: temporalidade e limitações. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22952. |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.14289/22952 |
| identifier_str_mv |
CAMPOS, Pietro Lo Presti. Avaliação de bandits contextuais para recomendação: temporalidade e limitações. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22952. |
| url |
https://hdl.handle.net/20.500.14289/22952 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/3e3f4444-81a6-4fe4-b71b-feb275050e75/download https://repositorio.ufscar.br/bitstreams/69ef289b-bfe6-46e5-bcc1-7fda8d65570c/download https://repositorio.ufscar.br/bitstreams/939a72ca-09c0-4af5-9bec-5fb829853974/download https://repositorio.ufscar.br/bitstreams/8270ca23-b219-4a96-9149-4943fb2046db/download |
| bitstream.checksum.fl_str_mv |
c1c3210c508f0d057074fad2610c2dbc 96f08f88d4bbdc752bea18e2db923f4a 481d901ae3e152cc828e08d537640ab4 8b1d7be50365a944321ad7a1789f6ebf |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688869809881088 |