Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Área do conhecimento CNPq: | |
| Link de acesso: | http://repositorio.ufc.br/handle/riufc/76829 |
Resumo: | The proliferation of electronic devices capable of providing geospatial information, such as cell phones, automobiles, personal devices, among others, has led to an unprecedented increase in trajectory data generation. This data is crucial for various machine learning domains, especially mobility analysis. The present work focuses on an inherent problem in this domain, the evaluation of trajectory similarity. Recent research seeks to transform trajectories into embeddings, compact vector representations that can efficiently capture the characteristics of paths. The fundamental idea is that similar trajectories have close embeddings in their vector space. Although there are several deep learning methods that generate trajectory embeddings, this work focuses on those that first discretize trajectories, using a uniform grid, and then generate the embeddings. In this context, the t2vec approach was considered as a reference. A parallel field is Natural Language Processing (NLP), which involves converting vast textual corpora into numerical vectors that can capture a variety of semantic contexts. Advances in more robust language models, such as BERT and GPT, demonstrate their remarkable ability to mimic human reasoning: this suggests a potential alternative for capturing spatiotemporal mobility patterns, a relatively unexplored research direction. The present work investigates whether language models can be repurposed to produce high-quality embeddings for trajectories. In particular, it is argued that adequately discretized trajectories can be treated as words or sentences, thus allowing language models to identify patterns and relationships in this data. In the experimental evaluation, two public trajectory datasets (Porto and T-drive) were considered. Then, the performance of four well-established language models (Word2Vec, Doc2Vec, BERT, and SBERT) was compared with t2vec. Additionally, classical similarity methods were also considered to provide a more comprehensive comparison. The results indicate that language models, when trained on datasets with dense trajectories, can generate higher-quality embeddings than t2vec, thus highlighting the strong potential of these approaches. |
| id |
UFC-7_a9c18dfcfcb0fc1c945d46f7e491d32c |
|---|---|
| oai_identifier_str |
oai:repositorio.ufc.br:riufc/76829 |
| network_acronym_str |
UFC-7 |
| network_name_str |
Repositório Institucional da Universidade Federal do Ceará (UFC) |
| repository_id_str |
|
| spelling |
Melo, Wilken Charles Dantas deCruz, Lívia AlmadaMagalhães, Regis Pires2024-04-24T13:37:52Z2024-04-24T13:37:52Z2024MELO, Wilken Charles Dantas de. Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias. 2024. 89 f. Dissertação (mestrado) – Universidade Federal do Ceará, Campus de Quixadá, Programa de Pós-Graduação em Computação, Quixadá, 2024.http://repositorio.ufc.br/handle/riufc/76829The proliferation of electronic devices capable of providing geospatial information, such as cell phones, automobiles, personal devices, among others, has led to an unprecedented increase in trajectory data generation. This data is crucial for various machine learning domains, especially mobility analysis. The present work focuses on an inherent problem in this domain, the evaluation of trajectory similarity. Recent research seeks to transform trajectories into embeddings, compact vector representations that can efficiently capture the characteristics of paths. The fundamental idea is that similar trajectories have close embeddings in their vector space. Although there are several deep learning methods that generate trajectory embeddings, this work focuses on those that first discretize trajectories, using a uniform grid, and then generate the embeddings. In this context, the t2vec approach was considered as a reference. A parallel field is Natural Language Processing (NLP), which involves converting vast textual corpora into numerical vectors that can capture a variety of semantic contexts. Advances in more robust language models, such as BERT and GPT, demonstrate their remarkable ability to mimic human reasoning: this suggests a potential alternative for capturing spatiotemporal mobility patterns, a relatively unexplored research direction. The present work investigates whether language models can be repurposed to produce high-quality embeddings for trajectories. In particular, it is argued that adequately discretized trajectories can be treated as words or sentences, thus allowing language models to identify patterns and relationships in this data. In the experimental evaluation, two public trajectory datasets (Porto and T-drive) were considered. Then, the performance of four well-established language models (Word2Vec, Doc2Vec, BERT, and SBERT) was compared with t2vec. Additionally, classical similarity methods were also considered to provide a more comprehensive comparison. The results indicate that language models, when trained on datasets with dense trajectories, can generate higher-quality embeddings than t2vec, thus highlighting the strong potential of these approaches.A proliferação de dispositivos eletrônicos capazes de fornecer informações geoespaciais, tais como celulares, automóveis, dispositivos pessoais, dentre outros, tem levado a um aumento sem precedente na geração de dados de trajetórias. Esses dados são cruciais para vários domínios do aprendizado de máquina, especialmente a análise de mobilidade. O presente trabalho tem como foco um problema inerente deste domínio, a avaliação de similaridade entre trajetórias. Pesquisas recentes buscam transformar trajetórias em embeddings, representação vetorial compacta que consegue capturar eficientemente as características dos trajetos. A ideia fundamental é que trajetórias similares tenham embeddings próximos em seu espaço vetorial. Embora existam vários métodos de aprendizado profundo que geram embeddings de trajetórias, este trabalho se concentra naqueles que primeiro discretizam as trajetórias, usando uma grade uniforme, e depois geram as incorporações. Neste contexto, considerou-se como referência a abordagem t2vec. Um campo em paralelo é o Processamento de Linguagem Natural (PLN), o qual envolve a conversão de imensos corpus textuais em vetores numéricos que conseguem capturar uma variedade de contextos semânticos. Os avanços em modelos de linguagem mais robustos, Large Language Models (LLMs), tais como BERT e GPT, demonstram sua notável capacidade de imitar o raciocínio humano: isto sugere uma alternativa potencial para capturar padrões espaço-temporais de mobilidade, uma direção de investigação relativamente inexplorada. O presente trabalho investiga se modelos de linguagem podem ser reutilizados para produzir embeddings de alta qualidade para trajetórias. Em particular, argumenta-se que trajetórias adequadamente discretizadas podem ser tratadas como palavras ou sentenças, permitindo, assim, que os modelos de linguagem identifiquem padrões e relações nesses dados. Na avaliação experimental, considerou-se dois conjuntos públicos de dados de trajetórias (Porto e T-drive). Em seguida, o desempenho de quatro modelos de linguagem bem estabelecidos (Word2Vec, Doc2Vec, BERT e SBERT) foi comparado com o t2vec. Além disso, também foram considerados métodos clássicos de similaridade para fornecer uma comparação mais abrangente. Os resultados obtidos indicam que os modelos de linguagem, quando treinados em conjuntos de dados com trajetórias densas, podem gerar embeddings de maior qualidade do que t2vec, destacando assim o forte potencial dessas abordagens.Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetóriasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrajetórias espaciaisModelos de linguagemSimilaridade entre trajetóriasEmbeddings de trajetóriasProcessamento de linguagem naturalCNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFChttp://lattes.cnpq.br/7195981513707548http://lattes.cnpq.br/8972397134674530ORIGINAL2024_dis_wcdmelo.pdf2024_dis_wcdmelo.pdfapplication/pdf4404715http://repositorio.ufc.br/bitstream/riufc/76829/1/2024_dis_wcdmelo.pdfd1f7ceaff4b8ce4f1d704aef54246cccMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/76829/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52riufc/768292024-04-24 10:37:53.684oai:repositorio.ufc.br:riufc/76829Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2024-04-24T13:37:53Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false |
| dc.title.pt_BR.fl_str_mv |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias |
| title |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias |
| spellingShingle |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias Melo, Wilken Charles Dantas de CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Trajetórias espaciais Modelos de linguagem Similaridade entre trajetórias Embeddings de trajetórias Processamento de linguagem natural |
| title_short |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias |
| title_full |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias |
| title_fullStr |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias |
| title_full_unstemmed |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias |
| title_sort |
Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias |
| author |
Melo, Wilken Charles Dantas de |
| author_facet |
Melo, Wilken Charles Dantas de |
| author_role |
author |
| dc.contributor.co-advisor.none.fl_str_mv |
Cruz, Lívia Almada |
| dc.contributor.author.fl_str_mv |
Melo, Wilken Charles Dantas de |
| dc.contributor.advisor1.fl_str_mv |
Magalhães, Regis Pires |
| contributor_str_mv |
Magalhães, Regis Pires |
| dc.subject.cnpq.fl_str_mv |
CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
| topic |
CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Trajetórias espaciais Modelos de linguagem Similaridade entre trajetórias Embeddings de trajetórias Processamento de linguagem natural |
| dc.subject.ptbr.pt_BR.fl_str_mv |
Trajetórias espaciais Modelos de linguagem Similaridade entre trajetórias Embeddings de trajetórias Processamento de linguagem natural |
| description |
The proliferation of electronic devices capable of providing geospatial information, such as cell phones, automobiles, personal devices, among others, has led to an unprecedented increase in trajectory data generation. This data is crucial for various machine learning domains, especially mobility analysis. The present work focuses on an inherent problem in this domain, the evaluation of trajectory similarity. Recent research seeks to transform trajectories into embeddings, compact vector representations that can efficiently capture the characteristics of paths. The fundamental idea is that similar trajectories have close embeddings in their vector space. Although there are several deep learning methods that generate trajectory embeddings, this work focuses on those that first discretize trajectories, using a uniform grid, and then generate the embeddings. In this context, the t2vec approach was considered as a reference. A parallel field is Natural Language Processing (NLP), which involves converting vast textual corpora into numerical vectors that can capture a variety of semantic contexts. Advances in more robust language models, such as BERT and GPT, demonstrate their remarkable ability to mimic human reasoning: this suggests a potential alternative for capturing spatiotemporal mobility patterns, a relatively unexplored research direction. The present work investigates whether language models can be repurposed to produce high-quality embeddings for trajectories. In particular, it is argued that adequately discretized trajectories can be treated as words or sentences, thus allowing language models to identify patterns and relationships in this data. In the experimental evaluation, two public trajectory datasets (Porto and T-drive) were considered. Then, the performance of four well-established language models (Word2Vec, Doc2Vec, BERT, and SBERT) was compared with t2vec. Additionally, classical similarity methods were also considered to provide a more comprehensive comparison. The results indicate that language models, when trained on datasets with dense trajectories, can generate higher-quality embeddings than t2vec, thus highlighting the strong potential of these approaches. |
| publishDate |
2024 |
| dc.date.accessioned.fl_str_mv |
2024-04-24T13:37:52Z |
| dc.date.available.fl_str_mv |
2024-04-24T13:37:52Z |
| dc.date.issued.fl_str_mv |
2024 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
MELO, Wilken Charles Dantas de. Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias. 2024. 89 f. Dissertação (mestrado) – Universidade Federal do Ceará, Campus de Quixadá, Programa de Pós-Graduação em Computação, Quixadá, 2024. |
| dc.identifier.uri.fl_str_mv |
http://repositorio.ufc.br/handle/riufc/76829 |
| identifier_str_mv |
MELO, Wilken Charles Dantas de. Uso de modelos de linguagem para a avaliação de similaridade espacial entre trajetórias. 2024. 89 f. Dissertação (mestrado) – Universidade Federal do Ceará, Campus de Quixadá, Programa de Pós-Graduação em Computação, Quixadá, 2024. |
| url |
http://repositorio.ufc.br/handle/riufc/76829 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Ceará (UFC) instname:Universidade Federal do Ceará (UFC) instacron:UFC |
| instname_str |
Universidade Federal do Ceará (UFC) |
| instacron_str |
UFC |
| institution |
UFC |
| reponame_str |
Repositório Institucional da Universidade Federal do Ceará (UFC) |
| collection |
Repositório Institucional da Universidade Federal do Ceará (UFC) |
| bitstream.url.fl_str_mv |
http://repositorio.ufc.br/bitstream/riufc/76829/1/2024_dis_wcdmelo.pdf http://repositorio.ufc.br/bitstream/riufc/76829/2/license.txt |
| bitstream.checksum.fl_str_mv |
d1f7ceaff4b8ce4f1d704aef54246ccc 8a4605be74aa9ea9d79846c1fba20a33 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC) |
| repository.mail.fl_str_mv |
bu@ufc.br || repositorio@ufc.br |
| _version_ |
1847793366142550016 |