Resolução de topônimos em textos não estruturados baseada em heurísticas

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Sá, Breno Alef Dourado
Orientador(a): Macêdo, José Antonio Fernandes de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.ufc.br/handle/riufc/69874
Resumo: Everyday, people use place names and spatial relationships to give directions and inform the location of events. Mentions of places, also called toponyms, are present in the most varied types of documents with geographic content, such as articles, blogs, reports and criminal reports. The geographic information extracted from these documents can be used in emergency response applications, epidemic monitoring, news gathering, tourism planning, among others. However, due to the absence of metadata, extracting this information from unstructured texts is not a trivial task. One of the challenges in this process is the mapping of toponyms to geographic coordinates due to the ambiguity of the names of the places, which commonly have homonyms. The process of solving toponyms to their coordinates, obtaining candidates and disambiguating them, is called geocoding. The present work proposes and evaluates two heuristics for geocoding: normalization of adjectival toponyms and geometric optimization by toponym type. Initially, the baseline is defined through experiments with heuristics. Then, two geocoders are created by modifying the baseline to use each of the heuristics proposed in this work. Finally, a third geocoder is similarly created to use the combination of the two heuristics. The results indicate an improvement in the performance of geocoding using these heuristics compared to the baseline, even surpassing state-of-the-art geocoders in the databases evaluated.
id UFC-7_91ca40eb7bdafcc98036e9ff3c2a9aac
oai_identifier_str oai:repositorio.ufc.br:riufc/69874
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Sá, Breno Alef DouradoSilva, Ticiana Linhares Coelho daMacêdo, José Antonio Fernandes de2022-12-23T12:29:15Z2022-12-23T12:29:15Z2022SÁ, Breno Alef Dourado. Resolução de topônimos em textos não estruturados baseada em heurísticas. 2022. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2022.http://www.repositorio.ufc.br/handle/riufc/69874Everyday, people use place names and spatial relationships to give directions and inform the location of events. Mentions of places, also called toponyms, are present in the most varied types of documents with geographic content, such as articles, blogs, reports and criminal reports. The geographic information extracted from these documents can be used in emergency response applications, epidemic monitoring, news gathering, tourism planning, among others. However, due to the absence of metadata, extracting this information from unstructured texts is not a trivial task. One of the challenges in this process is the mapping of toponyms to geographic coordinates due to the ambiguity of the names of the places, which commonly have homonyms. The process of solving toponyms to their coordinates, obtaining candidates and disambiguating them, is called geocoding. The present work proposes and evaluates two heuristics for geocoding: normalization of adjectival toponyms and geometric optimization by toponym type. Initially, the baseline is defined through experiments with heuristics. Then, two geocoders are created by modifying the baseline to use each of the heuristics proposed in this work. Finally, a third geocoder is similarly created to use the combination of the two heuristics. The results indicate an improvement in the performance of geocoding using these heuristics compared to the baseline, even surpassing state-of-the-art geocoders in the databases evaluated.Cotidianamente, pessoas utilizam nomes de lugares e relações espaciais para dar direções e informar o local de eventos. Menções a locais, também chamadas de topônimos, estão presentes nos mais variados tipos de documentos com conteúdo geográfico, como artigos, blogs, relatórios e relatos criminais. As informações geográficas extraídas desses documentos podem ser utilizada em aplicações de resposta à emergências, monitoramento de epidemias, agrupamento de notícias, planejamento turístico, entre outros. No entanto, devido a ausência de metadados, a extração dessas informações a partir de textos não estruturados não é uma tarefa trivial. Um dos desafios nesse processo é o mapeamento dos topônimos para coordenadas geográficas devido a ambiguidade dos nomes dos locais, que comumente possuem homônimos. O processo de resolução de topônimos para suas coordenadas, obtendo candidatos e os desambiguando, chama-se geocoding. O presente trabalho propõe e avalia duas heurísticas para geocoding: normalização de topônimos adjetivos e otimização geométrica por tipo de topônimo. Inicialmente, o baseline é definido através de experimentações com heurísticas. Em seguida, são criados dois geocoders modificando o baseline para utilizar cada uma das heurística proposta neste trabalho. Por fim, um terceiro geocoder é criado de forma semelhante para utilizar a combinação das duas heurísticas. Os resultados indicam uma melhora de desempenho do geocoding utilizando essas heurísticas em comparação com o baseline, chegando a superar geocoders do estado da arte nas bases de dados avaliadas.GeocodingResolução de topônimosDesambiguação baseada em heurísticaTopônimos adjetivosTipos de topônimoResolução de topônimos em textos não estruturados baseada em heurísticasToponym resolution in unstructured texts based on heuristicsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccessLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/69874/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD54ORIGINAL2022_dis_badsa.pdf2022_dis_badsa.pdfapplication/pdf1041551http://repositorio.ufc.br/bitstream/riufc/69874/3/2022_dis_badsa.pdfdcae64d9b77cfde601de2e99b071049aMD53riufc/698742022-12-23 09:29:16.019oai:repositorio.ufc.br:riufc/69874Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2022-12-23T12:29:16Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Resolução de topônimos em textos não estruturados baseada em heurísticas
dc.title.en.pt_BR.fl_str_mv Toponym resolution in unstructured texts based on heuristics
title Resolução de topônimos em textos não estruturados baseada em heurísticas
spellingShingle Resolução de topônimos em textos não estruturados baseada em heurísticas
Sá, Breno Alef Dourado
Geocoding
Resolução de topônimos
Desambiguação baseada em heurística
Topônimos adjetivos
Tipos de topônimo
title_short Resolução de topônimos em textos não estruturados baseada em heurísticas
title_full Resolução de topônimos em textos não estruturados baseada em heurísticas
title_fullStr Resolução de topônimos em textos não estruturados baseada em heurísticas
title_full_unstemmed Resolução de topônimos em textos não estruturados baseada em heurísticas
title_sort Resolução de topônimos em textos não estruturados baseada em heurísticas
author Sá, Breno Alef Dourado
author_facet Sá, Breno Alef Dourado
author_role author
dc.contributor.co-advisor.none.fl_str_mv Silva, Ticiana Linhares Coelho da
dc.contributor.author.fl_str_mv Sá, Breno Alef Dourado
dc.contributor.advisor1.fl_str_mv Macêdo, José Antonio Fernandes de
contributor_str_mv Macêdo, José Antonio Fernandes de
dc.subject.por.fl_str_mv Geocoding
Resolução de topônimos
Desambiguação baseada em heurística
Topônimos adjetivos
Tipos de topônimo
topic Geocoding
Resolução de topônimos
Desambiguação baseada em heurística
Topônimos adjetivos
Tipos de topônimo
description Everyday, people use place names and spatial relationships to give directions and inform the location of events. Mentions of places, also called toponyms, are present in the most varied types of documents with geographic content, such as articles, blogs, reports and criminal reports. The geographic information extracted from these documents can be used in emergency response applications, epidemic monitoring, news gathering, tourism planning, among others. However, due to the absence of metadata, extracting this information from unstructured texts is not a trivial task. One of the challenges in this process is the mapping of toponyms to geographic coordinates due to the ambiguity of the names of the places, which commonly have homonyms. The process of solving toponyms to their coordinates, obtaining candidates and disambiguating them, is called geocoding. The present work proposes and evaluates two heuristics for geocoding: normalization of adjectival toponyms and geometric optimization by toponym type. Initially, the baseline is defined through experiments with heuristics. Then, two geocoders are created by modifying the baseline to use each of the heuristics proposed in this work. Finally, a third geocoder is similarly created to use the combination of the two heuristics. The results indicate an improvement in the performance of geocoding using these heuristics compared to the baseline, even surpassing state-of-the-art geocoders in the databases evaluated.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-12-23T12:29:15Z
dc.date.available.fl_str_mv 2022-12-23T12:29:15Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SÁ, Breno Alef Dourado. Resolução de topônimos em textos não estruturados baseada em heurísticas. 2022. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2022.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufc.br/handle/riufc/69874
identifier_str_mv SÁ, Breno Alef Dourado. Resolução de topônimos em textos não estruturados baseada em heurísticas. 2022. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2022.
url http://www.repositorio.ufc.br/handle/riufc/69874
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/69874/4/license.txt
http://repositorio.ufc.br/bitstream/riufc/69874/3/2022_dis_badsa.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
dcae64d9b77cfde601de2e99b071049a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793251978838016