Métodos para seleção de palavras-chave em sistemas de publicidade contextual

Berlt, Klessius Renato; http://lattes.cnpq.br/3621225869028936

Métodos para seleção de palavras-chave em sistemas de publicidade contextual

Detalhes bibliográficos
Ano de defesa:	2012
Autor(a) principal:	Berlt, Klessius Renato
Outros Autores:	http://lattes.cnpq.br/3621225869028936
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Seleção de palavras-chave Aprendizado de máquina Publicidade contextualizada Keyword selection Contextual advertising CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Link de acesso:	http://tede.ufam.edu.br/handle/tede/4150
Resumo:	Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação.

Metadados do item

id	UFAM_46506a764a6cbf438cab0e9e4e54cfb2
oai_identifier_str	oai:https://tede.ufam.edu.br/handle/:tede/4150
network_acronym_str	UFAM
network_name_str	Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str
spelling	Métodos para seleção de palavras-chave em sistemas de publicidade contextualSeleção de palavras-chaveAprendizado de máquinaPublicidade contextualizadaKeyword selectionContextual advertisingCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃONeste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação.In this work we address the problem of selecting keywords for contextual advertising systems in two di erent scenarios: web pages and short texts. We deal with the problem of selecting keywords from web pages using machine learning. While traditional machine learning approaches usually have the goal of selecting keywords considered as good by humans. The new machine learning strategy proposed drives the selection by the expected impact of the keyword in the nal quality of the ad placement system, which we name here as ad collection aware keyword selection (also referred in this work as ACAKS). This new approach relies on the judgement of the users about the ads each keyword can retrieve. Although this strategy requires a higher e ort to build the training set than previous approaches, we believe the gain obtained in recall is worth enough to make the ad collection aware approach a better choice. In experiments we performed with an ad collection and considering features proposed in a previous work, we found that the new ad collection aware approach led to a gain of 62% in recall over the baseline without dropping the precision values. Besides the new alternative to select keywords, we also study the use of features extracted from the ad collection in the task of selecting keywords. We also present three new methods to extract keywords from web pages which require no learning process and use Wikipedia as an external source of information to support the keyword selection. The information used from Wikipedia includes the titles of articles, co-occurrence of keywords and categories associated with each Wikipedia de nition. Experimental results show that our methods are quite competitive solutions for the task of selecting good keywords to represent target web pages, albeit being simple, e ective and time e cient. Besides selecting keywords from web pages we also study methods for selecting keywords from short texts. Short texts have became a very popular way users adopt for publishing content on the web. Every day, millions of users post their thoughts, needs and feelings on the Web through systems, such as social networks like Facebook and Twitter, or spaces for comments on news web sites. Much of these systems' revenue is from contextual advertising systems, thus selecting keywords in this new scenario raise as a new challenge. We propose and study a novel family of methods which uses the connectivity information present on Wikipedia to discover the most related concepts on each short textual unit. We also used the proposed methods as a new set of features on a Machine Learning Framework to boost the quality of the results obtained. We show that this approach presents a good performance and outperforms the best baselines by more than 35%. Finally, we apply the ACAKS approach on short texts and it yielded good results, outperforming a traditional machine learning approach by more than 80% in precision and 80% in recall.CNPQ - Conselho Nacional de Desenvolvimento Científico e TecnológicoUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaMoura, Edleno Silva dehttp://lattes.cnpq.br/4737852130924504Berlt, Klessius Renatohttp://lattes.cnpq.br/36212258690289362015-06-24T14:44:22Z2012-12-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfBERLT, Klessius Renato. Métodos para seleção de palavras-chave em sistemas de publicidade contextual. 2012. 99 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2012.http://tede.ufam.edu.br/handle/tede/4150porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2016-05-11T14:35:46Zoai:https://tede.ufam.edu.br/handle/:tede/4150Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br\|\|ddbc@ufam.edu.bropendoar:65922016-05-11T14:35:46Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv	Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title	Métodos para seleção de palavras-chave em sistemas de publicidade contextual
spellingShingle	Métodos para seleção de palavras-chave em sistemas de publicidade contextual Berlt, Klessius Renato Seleção de palavras-chave Aprendizado de máquina Publicidade contextualizada Keyword selection Contextual advertising CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
title_short	Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_full	Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_fullStr	Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_full_unstemmed	Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_sort	Métodos para seleção de palavras-chave em sistemas de publicidade contextual
author	Berlt, Klessius Renato
author_facet	Berlt, Klessius Renato http://lattes.cnpq.br/3621225869028936
author_role	author
author2	http://lattes.cnpq.br/3621225869028936
author2_role	author
dc.contributor.none.fl_str_mv	Moura, Edleno Silva de http://lattes.cnpq.br/4737852130924504
dc.contributor.author.fl_str_mv	Berlt, Klessius Renato http://lattes.cnpq.br/3621225869028936
dc.subject.por.fl_str_mv	Seleção de palavras-chave Aprendizado de máquina Publicidade contextualizada Keyword selection Contextual advertising CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
topic	Seleção de palavras-chave Aprendizado de máquina Publicidade contextualizada Keyword selection Contextual advertising CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description	Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação.
publishDate	2012
dc.date.none.fl_str_mv	2012-12-19 2015-06-24T14:44:22Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	BERLT, Klessius Renato. Métodos para seleção de palavras-chave em sistemas de publicidade contextual. 2012. 99 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2012. http://tede.ufam.edu.br/handle/tede/4150
identifier_str_mv	BERLT, Klessius Renato. Métodos para seleção de palavras-chave em sistemas de publicidade contextual. 2012. 99 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2012.
url	http://tede.ufam.edu.br/handle/tede/4150
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM
instname_str	Universidade Federal do Amazonas (UFAM)
instacron_str	UFAM
institution	UFAM
reponame_str	Biblioteca Digital de Teses e Dissertações da UFAM
collection	Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv	ddbc@ufam.edu.br\|\|ddbc@ufam.edu.br
_version_	1851781271538106368

Métodos para seleção de palavras-chave em sistemas de publicidade contextual

Registros relacionados