Métodos para seleção de palavras-chave em sistemas de publicidade contextual

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Berlt, Klessius Renato
Outros Autores: http://lattes.cnpq.br/3621225869028936
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede.ufam.edu.br/handle/tede/4150
Resumo: Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação.
id UFAM_46506a764a6cbf438cab0e9e4e54cfb2
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/4150
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling Métodos para seleção de palavras-chave em sistemas de publicidade contextualSeleção de palavras-chaveAprendizado de máquinaPublicidade contextualizadaKeyword selectionContextual advertisingCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃONeste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação.In this work we address the problem of selecting keywords for contextual advertising systems in two di erent scenarios: web pages and short texts. We deal with the problem of selecting keywords from web pages using machine learning. While traditional machine learning approaches usually have the goal of selecting keywords considered as good by humans. The new machine learning strategy proposed drives the selection by the expected impact of the keyword in the nal quality of the ad placement system, which we name here as ad collection aware keyword selection (also referred in this work as ACAKS). This new approach relies on the judgement of the users about the ads each keyword can retrieve. Although this strategy requires a higher e ort to build the training set than previous approaches, we believe the gain obtained in recall is worth enough to make the ad collection aware approach a better choice. In experiments we performed with an ad collection and considering features proposed in a previous work, we found that the new ad collection aware approach led to a gain of 62% in recall over the baseline without dropping the precision values. Besides the new alternative to select keywords, we also study the use of features extracted from the ad collection in the task of selecting keywords. We also present three new methods to extract keywords from web pages which require no learning process and use Wikipedia as an external source of information to support the keyword selection. The information used from Wikipedia includes the titles of articles, co-occurrence of keywords and categories associated with each Wikipedia de nition. Experimental results show that our methods are quite competitive solutions for the task of selecting good keywords to represent target web pages, albeit being simple, e ective and time e cient. Besides selecting keywords from web pages we also study methods for selecting keywords from short texts. Short texts have became a very popular way users adopt for publishing content on the web. Every day, millions of users post their thoughts, needs and feelings on the Web through systems, such as social networks like Facebook and Twitter, or spaces for comments on news web sites. Much of these systems' revenue is from contextual advertising systems, thus selecting keywords in this new scenario raise as a new challenge. We propose and study a novel family of methods which uses the connectivity information present on Wikipedia to discover the most related concepts on each short textual unit. We also used the proposed methods as a new set of features on a Machine Learning Framework to boost the quality of the results obtained. We show that this approach presents a good performance and outperforms the best baselines by more than 35%. Finally, we apply the ACAKS approach on short texts and it yielded good results, outperforming a traditional machine learning approach by more than 80% in precision and 80% in recall.CNPQ - Conselho Nacional de Desenvolvimento Científico e TecnológicoUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaMoura, Edleno Silva dehttp://lattes.cnpq.br/4737852130924504Berlt, Klessius Renatohttp://lattes.cnpq.br/36212258690289362015-06-24T14:44:22Z2012-12-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfBERLT, Klessius Renato. Métodos para seleção de palavras-chave em sistemas de publicidade contextual. 2012. 99 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2012.http://tede.ufam.edu.br/handle/tede/4150porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2016-05-11T14:35:46Zoai:https://tede.ufam.edu.br/handle/:tede/4150Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922016-05-11T14:35:46Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title Métodos para seleção de palavras-chave em sistemas de publicidade contextual
spellingShingle Métodos para seleção de palavras-chave em sistemas de publicidade contextual
Berlt, Klessius Renato
Seleção de palavras-chave
Aprendizado de máquina
Publicidade contextualizada
Keyword selection
Contextual advertising
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
title_short Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_full Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_fullStr Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_full_unstemmed Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_sort Métodos para seleção de palavras-chave em sistemas de publicidade contextual
author Berlt, Klessius Renato
author_facet Berlt, Klessius Renato
http://lattes.cnpq.br/3621225869028936
author_role author
author2 http://lattes.cnpq.br/3621225869028936
author2_role author
dc.contributor.none.fl_str_mv Moura, Edleno Silva de
http://lattes.cnpq.br/4737852130924504
dc.contributor.author.fl_str_mv Berlt, Klessius Renato
http://lattes.cnpq.br/3621225869028936
dc.subject.por.fl_str_mv Seleção de palavras-chave
Aprendizado de máquina
Publicidade contextualizada
Keyword selection
Contextual advertising
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
topic Seleção de palavras-chave
Aprendizado de máquina
Publicidade contextualizada
Keyword selection
Contextual advertising
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação.
publishDate 2012
dc.date.none.fl_str_mv 2012-12-19
2015-06-24T14:44:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv BERLT, Klessius Renato. Métodos para seleção de palavras-chave em sistemas de publicidade contextual. 2012. 99 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2012.
http://tede.ufam.edu.br/handle/tede/4150
identifier_str_mv BERLT, Klessius Renato. Métodos para seleção de palavras-chave em sistemas de publicidade contextual. 2012. 99 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2012.
url http://tede.ufam.edu.br/handle/tede/4150
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1851781271538106368