Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: Gouvêa, Cleber
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Catolica de Pelotas
Informática
BR
Ucpel
Mestrado em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede.ucpel.edu.br:8080/jspui/handle/tede/98
Resumo: Com o advento da Internet e o crescente número de informações disponíveis torna-se necessária a definição de estratégias especiais que permitam aos usuários o acesso rápido a informações relevantes. Como a Web possui grande volume de informações principalmente com o foco geográfico torna-se necessário recuperar e estruturar essas informações de forma a poder relacioná-las com o contexto e realidade das pessoas através de métodos e sistemas automáticos. Para isso uma das necessidades é possibilitar o georreferenciamento dos textos, ou seja, identificar as entidades geográficas presentes e associá-las com sua correta localização espacial. Nesse sentido, os topônimos (ex: nomes de localidades como cidades, países, etc.), devido à possibilidade de identificar de forma precisa determinada região espacial, apresentam-se como ideais para a identificação do contexto geográfico dos textos. Essa tarefa, denominada de Resolução de Topônimos apresenta, no entanto, desafios importantes principalmente do ponto de vista lingüístico, já que uma localidade pode possuir variados tipos de ambigüidade. Com relação a isso a principal estratégia para superar estes problemas compreende a identificação de evidências que auxiliem na identificação e desambiguação das localidades nos textos. Para essa verificação são utilizados geralmente os serviços de um ou mais dicionários toponímicos (Gazetteers). Como são criados de forma manual eles apresentam, no entanto deficiência de informações relacionadas principalmente a entidades que podem identificar, embora de forma indireta, determinados tipos de lugares como ruas, praças, universidades etc., as quais são definidas como Indicadores de Localidade. O presente trabalho propõe uma abordagem para a recuperação dessas entidades aproveitando para isso o caráter geográfico das informações jornalísticas. Para ilustrar a viabilidade do processo diferentes tipos de corpora de notícias foram testados e comparados pela habilidade de criação de Gazetteers com os Indicadores recuperados, sendo os Gazetteers avaliados então pela capacidade de identificação das cidades relacionadas às notícias testadas. Os resultados demonstram a utilidade da abordagem para o enriquecimento de Gazetteers e consequentemente para a recuperação de Indicadores de Localidade com maior simplicidade e extensibilidade que os trabalhos atuais
id UCPe_94f527312d7cbcecb82eae1645574ff4
oai_identifier_str oai:tede.ucpel.edu.br:tede/98
network_acronym_str UCPe
network_name_str Biblioteca Digital de Teses e Dissertações do UCpel
repository_id_str
spelling Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na WebENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEBRecuperação de Informações Geográficasresolução de Topônimosgeorreferenciamento de textosGazetteersgeographical Information Retrievaltoponym resolutiongeoreferencing of textsGazetteersCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCom o advento da Internet e o crescente número de informações disponíveis torna-se necessária a definição de estratégias especiais que permitam aos usuários o acesso rápido a informações relevantes. Como a Web possui grande volume de informações principalmente com o foco geográfico torna-se necessário recuperar e estruturar essas informações de forma a poder relacioná-las com o contexto e realidade das pessoas através de métodos e sistemas automáticos. Para isso uma das necessidades é possibilitar o georreferenciamento dos textos, ou seja, identificar as entidades geográficas presentes e associá-las com sua correta localização espacial. Nesse sentido, os topônimos (ex: nomes de localidades como cidades, países, etc.), devido à possibilidade de identificar de forma precisa determinada região espacial, apresentam-se como ideais para a identificação do contexto geográfico dos textos. Essa tarefa, denominada de Resolução de Topônimos apresenta, no entanto, desafios importantes principalmente do ponto de vista lingüístico, já que uma localidade pode possuir variados tipos de ambigüidade. Com relação a isso a principal estratégia para superar estes problemas compreende a identificação de evidências que auxiliem na identificação e desambiguação das localidades nos textos. Para essa verificação são utilizados geralmente os serviços de um ou mais dicionários toponímicos (Gazetteers). Como são criados de forma manual eles apresentam, no entanto deficiência de informações relacionadas principalmente a entidades que podem identificar, embora de forma indireta, determinados tipos de lugares como ruas, praças, universidades etc., as quais são definidas como Indicadores de Localidade. O presente trabalho propõe uma abordagem para a recuperação dessas entidades aproveitando para isso o caráter geográfico das informações jornalísticas. Para ilustrar a viabilidade do processo diferentes tipos de corpora de notícias foram testados e comparados pela habilidade de criação de Gazetteers com os Indicadores recuperados, sendo os Gazetteers avaliados então pela capacidade de identificação das cidades relacionadas às notícias testadas. Os resultados demonstram a utilidade da abordagem para o enriquecimento de Gazetteers e consequentemente para a recuperação de Indicadores de Localidade com maior simplicidade e extensibilidade que os trabalhos atuaisGeoreferencing of texts, that is, the identification of the geographical context of texts is becoming popular in the Web due to the high demand for geographical information and due to the raising of services for query and retrieval like Google Earth (geobrowsers). The main challenge is to relate texts to geographical locations. These associations are stored in structures called gazetteers. Although there are gazetteers like Geonames and TGN, they fail in coverage, lacking information about some countries, and they also fail by weak specialization, lacking detailed references to locations (fine granularity) as for example names of streets, squares, monuments, rivers, neighborhoods, etc. This kind of information that acts as indirect references to geographical locations is defined as Location Indicators . This dissertation presents an approach that identifies Location Indicators related to geographical locations, by analyzing texts of news published in the Web. The goal is to enrich create gazetteers with the identified relations and then perform geo-referencing of news. Location Indicators include non-geographical entities that are dynamic and may change along the time. The use of news published in the Web is a useful way to discover Location Indicators, covering a great number of locations and maintaining detailed information about each location. Different training news corpora are compared for the creation of gazetteers and evaluated by their ability to correctly identify cities in texts of news Georeferencing of texts, that is, the identification of the geographical context of texts is becoming popular in the Web due to the high demand for geographical information and due to the raising of services for query and retrieval like Google Earth (geobrowsers). The main challenge is to relate texts to geographical locations. These associations are stored in structures called gazetteers. Although there are gazetteers like Geonames and TGN, they fail in coverage, lacking information about some countries, and they also fail by weak specialization, lacking detailed references to locations (fine granularity) as for example names of streets, squares, monuments, rivers, neighborhoods, etc. This kind of information that acts as indirect references to geographical locations is defined as Location Indicators . This dissertation presents an approach that identifies Location Indicators related to geographical locations, by analyzing texts of news published in the Web. The goal is to enrich create gazetteers with the identified relations and then perform geo-referencing of news. Location Indicators include non-geographical entities that are dynamic and may change along the time. The use of news published in the Web is a useful way to discover Location Indicators, covering a great number of locations and maintaining detailed information about each location. Different training news corpora are compared for the creation of gazetteers and evaluated by their ability to correctly identify cities in texts of newsUniversidade Catolica de PelotasInformáticaBRUcpelMestrado em Ciência da ComputaçãoLoh, StanleyCPF:50073206091http://lattes.cnpq.br/4749039276717947Gouvêa, Cleber2016-03-22T17:26:21Z2010-06-222009-03-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfGOUVÊA, Cleber. ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEB. 2009. 88 f. Dissertação (Mestrado em Informática) - Universidade Catolica de Pelotas, Pelotas, 2009.http://tede.ucpel.edu.br:8080/jspui/handle/tede/98porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do UCpelinstname:Universidade Católica de Pelotas (UCPEL)instacron:UCPEL2020-09-29T21:40:08Zoai:tede.ucpel.edu.br:tede/98Biblioteca Digital de Teses e Dissertaçõeshttp://www2.ufpel.edu.br/tede/http://tede.ucpel.edu.br:8080/oai/requestbiblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.bropendoar:2020-09-29T21:40:08Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)false
dc.title.none.fl_str_mv Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEB
title Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
spellingShingle Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
Gouvêa, Cleber
Recuperação de Informações Geográficas
resolução de Topônimos
georreferenciamento de textos
Gazetteers
geographical Information Retrieval
toponym resolution
georeferencing of texts
Gazetteers
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
title_full Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
title_fullStr Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
title_full_unstemmed Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
title_sort Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web
author Gouvêa, Cleber
author_facet Gouvêa, Cleber
author_role author
dc.contributor.none.fl_str_mv Loh, Stanley
CPF:50073206091
http://lattes.cnpq.br/4749039276717947
dc.contributor.author.fl_str_mv Gouvêa, Cleber
dc.subject.por.fl_str_mv Recuperação de Informações Geográficas
resolução de Topônimos
georreferenciamento de textos
Gazetteers
geographical Information Retrieval
toponym resolution
georeferencing of texts
Gazetteers
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Recuperação de Informações Geográficas
resolução de Topônimos
georreferenciamento de textos
Gazetteers
geographical Information Retrieval
toponym resolution
georeferencing of texts
Gazetteers
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Com o advento da Internet e o crescente número de informações disponíveis torna-se necessária a definição de estratégias especiais que permitam aos usuários o acesso rápido a informações relevantes. Como a Web possui grande volume de informações principalmente com o foco geográfico torna-se necessário recuperar e estruturar essas informações de forma a poder relacioná-las com o contexto e realidade das pessoas através de métodos e sistemas automáticos. Para isso uma das necessidades é possibilitar o georreferenciamento dos textos, ou seja, identificar as entidades geográficas presentes e associá-las com sua correta localização espacial. Nesse sentido, os topônimos (ex: nomes de localidades como cidades, países, etc.), devido à possibilidade de identificar de forma precisa determinada região espacial, apresentam-se como ideais para a identificação do contexto geográfico dos textos. Essa tarefa, denominada de Resolução de Topônimos apresenta, no entanto, desafios importantes principalmente do ponto de vista lingüístico, já que uma localidade pode possuir variados tipos de ambigüidade. Com relação a isso a principal estratégia para superar estes problemas compreende a identificação de evidências que auxiliem na identificação e desambiguação das localidades nos textos. Para essa verificação são utilizados geralmente os serviços de um ou mais dicionários toponímicos (Gazetteers). Como são criados de forma manual eles apresentam, no entanto deficiência de informações relacionadas principalmente a entidades que podem identificar, embora de forma indireta, determinados tipos de lugares como ruas, praças, universidades etc., as quais são definidas como Indicadores de Localidade. O presente trabalho propõe uma abordagem para a recuperação dessas entidades aproveitando para isso o caráter geográfico das informações jornalísticas. Para ilustrar a viabilidade do processo diferentes tipos de corpora de notícias foram testados e comparados pela habilidade de criação de Gazetteers com os Indicadores recuperados, sendo os Gazetteers avaliados então pela capacidade de identificação das cidades relacionadas às notícias testadas. Os resultados demonstram a utilidade da abordagem para o enriquecimento de Gazetteers e consequentemente para a recuperação de Indicadores de Localidade com maior simplicidade e extensibilidade que os trabalhos atuais
publishDate 2009
dc.date.none.fl_str_mv 2009-03-23
2010-06-22
2016-03-22T17:26:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GOUVÊA, Cleber. ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEB. 2009. 88 f. Dissertação (Mestrado em Informática) - Universidade Catolica de Pelotas, Pelotas, 2009.
http://tede.ucpel.edu.br:8080/jspui/handle/tede/98
identifier_str_mv GOUVÊA, Cleber. ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEB. 2009. 88 f. Dissertação (Mestrado em Informática) - Universidade Catolica de Pelotas, Pelotas, 2009.
url http://tede.ucpel.edu.br:8080/jspui/handle/tede/98
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Catolica de Pelotas
Informática
BR
Ucpel
Mestrado em Ciência da Computação
publisher.none.fl_str_mv Universidade Catolica de Pelotas
Informática
BR
Ucpel
Mestrado em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do UCpel
instname:Universidade Católica de Pelotas (UCPEL)
instacron:UCPEL
instname_str Universidade Católica de Pelotas (UCPEL)
instacron_str UCPEL
institution UCPEL
reponame_str Biblioteca Digital de Teses e Dissertações do UCpel
collection Biblioteca Digital de Teses e Dissertações do UCpel
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)
repository.mail.fl_str_mv biblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.br
_version_ 1797958365872128000