Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Nicollas de Campos Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1843/62090
Resumo: Atualmente, Sistemas de Recomendação (SsR) têm se preocupado com o ambiente online de aplicações do mundo real, onde o sistema deve continuamente aprender e prever novas recomendações. Trabalhos atuais têm abordado essa tarefa como um problema de MultiArmed Bandit (MAB) ao propor modelos de Contextual Bandit (CB). A ideia é aplicar técnicas de recomendação usuais para explorar as preferências do usuário, enquanto o sistema também tenta aprender novas informações sobre seus gostos. Contudo, o nível de personalização desses modelos ainda está diretamente relacionado às informações previamente disponíveis sobre os usuários. Após uma extensa revisão da literatura sobre o assunto, observamos que os algoritmos atuais têm negligenciado o impacto de cenários de incerteza sobre as preferências do usuário. Assumindo que o modelo bandit pode aprender independentemente do item recomendado, tais modelos estão perdendo uma oportunidade de obter mais informações sobre os usuários. Nesse sentido, esta dissertação aborda o desafio de lidar com cenários de incerteza em modelos de Contextual Bandit. Em particular, investigamos dois cenários comuns em sistemas interativos: (1) quando o usuário entra pela primeira vez e (2) quando o sistema continua fazendo recomendações incorretas devido a suposições enganosas anteriores. Em ambos os cenários, propomos introduzir conceitos de Reinforcement Learning para representar o trade-off entre exploitation e exploration nos modelos bandit. Nossa solução consiste em recomendar itens não personalizados com base na entropia e na popularidade para obter mais informações sobre o usuário sem diminuir a precisão do modelo quando um cenário de incerteza é observado. Essa solução é então instanciada em três algoritmos bandit tradicionais, criando novas versões de cada um deles. Experimentos em domínios de recomendação distintos mostram que essas versões modificadas superam suas versões originais e todas as demais linhas de base, aumentando a acurácia a longo prazo. Além disso, uma avaliação contrafactual valida que tais melhorias não foram simplesmente alcançadas devido ao viés de conjuntos de dados offline.
id UFMG_a80596f914740b5b87eeb70ee047618a
oai_identifier_str oai:repositorio.ufmg.br:1843/62090
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systemsActive learning em modelos bandit contextuais: lidando com a incerteza sobre a preferência dos usuários em sistemas de recomendação interativosComputação – TesesSistemas de Recomendação, Multi-Armed BanditsRecommendation SystemsMulti-Armed BanditsAtualmente, Sistemas de Recomendação (SsR) têm se preocupado com o ambiente online de aplicações do mundo real, onde o sistema deve continuamente aprender e prever novas recomendações. Trabalhos atuais têm abordado essa tarefa como um problema de MultiArmed Bandit (MAB) ao propor modelos de Contextual Bandit (CB). A ideia é aplicar técnicas de recomendação usuais para explorar as preferências do usuário, enquanto o sistema também tenta aprender novas informações sobre seus gostos. Contudo, o nível de personalização desses modelos ainda está diretamente relacionado às informações previamente disponíveis sobre os usuários. Após uma extensa revisão da literatura sobre o assunto, observamos que os algoritmos atuais têm negligenciado o impacto de cenários de incerteza sobre as preferências do usuário. Assumindo que o modelo bandit pode aprender independentemente do item recomendado, tais modelos estão perdendo uma oportunidade de obter mais informações sobre os usuários. Nesse sentido, esta dissertação aborda o desafio de lidar com cenários de incerteza em modelos de Contextual Bandit. Em particular, investigamos dois cenários comuns em sistemas interativos: (1) quando o usuário entra pela primeira vez e (2) quando o sistema continua fazendo recomendações incorretas devido a suposições enganosas anteriores. Em ambos os cenários, propomos introduzir conceitos de Reinforcement Learning para representar o trade-off entre exploitation e exploration nos modelos bandit. Nossa solução consiste em recomendar itens não personalizados com base na entropia e na popularidade para obter mais informações sobre o usuário sem diminuir a precisão do modelo quando um cenário de incerteza é observado. Essa solução é então instanciada em três algoritmos bandit tradicionais, criando novas versões de cada um deles. Experimentos em domínios de recomendação distintos mostram que essas versões modificadas superam suas versões originais e todas as demais linhas de base, aumentando a acurácia a longo prazo. Além disso, uma avaliação contrafactual valida que tais melhorias não foram simplesmente alcançadas devido ao viés de conjuntos de dados offline.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de Minas Gerais2023-12-19T19:51:02Z2025-09-08T23:03:00Z2023-12-19T19:51:02Z2023-07-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://hdl.handle.net/1843/62090engNicollas de Campos Silvainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2025-09-08T23:03:00Zoai:repositorio.ufmg.br:1843/62090Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-08T23:03Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
Active learning em modelos bandit contextuais: lidando com a incerteza sobre a preferência dos usuários em sistemas de recomendação interativos
title Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
spellingShingle Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
Nicollas de Campos Silva
Computação – Teses
Sistemas de Recomendação, Multi-Armed Bandits
Recommendation Systems
Multi-Armed Bandits
title_short Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
title_full Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
title_fullStr Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
title_full_unstemmed Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
title_sort Active learning in contextual bandits: handling the uncertainty about the user's preferences in interactive recommendation systems
author Nicollas de Campos Silva
author_facet Nicollas de Campos Silva
author_role author
dc.contributor.author.fl_str_mv Nicollas de Campos Silva
dc.subject.por.fl_str_mv Computação – Teses
Sistemas de Recomendação, Multi-Armed Bandits
Recommendation Systems
Multi-Armed Bandits
topic Computação – Teses
Sistemas de Recomendação, Multi-Armed Bandits
Recommendation Systems
Multi-Armed Bandits
description Atualmente, Sistemas de Recomendação (SsR) têm se preocupado com o ambiente online de aplicações do mundo real, onde o sistema deve continuamente aprender e prever novas recomendações. Trabalhos atuais têm abordado essa tarefa como um problema de MultiArmed Bandit (MAB) ao propor modelos de Contextual Bandit (CB). A ideia é aplicar técnicas de recomendação usuais para explorar as preferências do usuário, enquanto o sistema também tenta aprender novas informações sobre seus gostos. Contudo, o nível de personalização desses modelos ainda está diretamente relacionado às informações previamente disponíveis sobre os usuários. Após uma extensa revisão da literatura sobre o assunto, observamos que os algoritmos atuais têm negligenciado o impacto de cenários de incerteza sobre as preferências do usuário. Assumindo que o modelo bandit pode aprender independentemente do item recomendado, tais modelos estão perdendo uma oportunidade de obter mais informações sobre os usuários. Nesse sentido, esta dissertação aborda o desafio de lidar com cenários de incerteza em modelos de Contextual Bandit. Em particular, investigamos dois cenários comuns em sistemas interativos: (1) quando o usuário entra pela primeira vez e (2) quando o sistema continua fazendo recomendações incorretas devido a suposições enganosas anteriores. Em ambos os cenários, propomos introduzir conceitos de Reinforcement Learning para representar o trade-off entre exploitation e exploration nos modelos bandit. Nossa solução consiste em recomendar itens não personalizados com base na entropia e na popularidade para obter mais informações sobre o usuário sem diminuir a precisão do modelo quando um cenário de incerteza é observado. Essa solução é então instanciada em três algoritmos bandit tradicionais, criando novas versões de cada um deles. Experimentos em domínios de recomendação distintos mostram que essas versões modificadas superam suas versões originais e todas as demais linhas de base, aumentando a acurácia a longo prazo. Além disso, uma avaliação contrafactual valida que tais melhorias não foram simplesmente alcançadas devido ao viés de conjuntos de dados offline.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-19T19:51:02Z
2023-12-19T19:51:02Z
2023-07-03
2025-09-08T23:03:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1843/62090
url https://hdl.handle.net/1843/62090
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1856414131626704896