Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/18/18153/tde-13102025-161242/ |
Resumo: | Nos últimos anos, os veículos autônomos vêm ganhando destaque por seu potencial de revolucionar o transporte, oferecendo maior segurança, eficiência e comodidade. Para que esses sistemas operem de forma segura e confiável, é essencial que percebam o ambiente ao redor com precisão, detectando, classificando e acompanhando objetos dinâmicos como pedestres, veículos e ciclistas. Uma das tarefas fundamentais nesse processo é o rastreamento de objetos, que permite ao veículo manter a continuidade da informação sobre cada objeto ao longo do tempo. No entanto, em cenários complexos, com oclusões, mudanças de perspectiva ou perda temporária de detecção, apenas o rastreamento pode não ser suficiente. Nesse contexto, a reidentificação de objetos (ReID) representa uma etapa complementar fundamental no rastreamento, permitindo que o sistema reconheça e associe corretamente objetos previamente observados, mesmo após interrupções, reforçando a robustez e a continuidade do rastreamento. Apesar de promissora quanto ao aumento na robustez do rastreamento, essa etapa apresenta grandes desafios quando baseada exclusivamente em imagens, evidenciando a necessidade da fusão de sensores em espaços comuns como o Birds Eye View (BEV) para melhorar a identificação em condições adversas. Este trabalho propõe um algoritmo de ReID que realiza a transformação de imagens para o espaço BEV, permitindo a reidentificação diretamente nessa representação sem perder as características visuais dos objetos. O desenvolvimento do método foi estruturado em três fases: criação de um algoritmo de conversão de imagens para BEV utilizando como base o Lift-Splat-Shoot (LSS), com modificações para garantir a preservação das features; extração de um conjunto de dados de ReID em BEV a partir do Nuscenes por meio desse algoritmo; e implementação de um modelo de ReID baseado no Deep Cosine Metric Learning, treinado com os dados gerados. Os resultados demonstram que a abordagem proposta supera modelos convencionais baseados em imagens treinados para pedestres, considerando a métrica mAP (mediana das médias de precisão), e apresenta um desempenho equivalente para veículos, tanto em mAP quanto nas métricas de precisão Rank 1 e Rank 5. |
| id |
USP_7735263cb1ea024099318c897a3a8ca8 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-13102025-161242 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learningObject re-identification in BEV space: a deep cosine metric learning approachadverse conditionsautonomous vehiclesbirds-eye viewcondições adversasconvolutional neural networksre-identificationredes neurais convolucionaisreidentificaçãoveículos autônomosNos últimos anos, os veículos autônomos vêm ganhando destaque por seu potencial de revolucionar o transporte, oferecendo maior segurança, eficiência e comodidade. Para que esses sistemas operem de forma segura e confiável, é essencial que percebam o ambiente ao redor com precisão, detectando, classificando e acompanhando objetos dinâmicos como pedestres, veículos e ciclistas. Uma das tarefas fundamentais nesse processo é o rastreamento de objetos, que permite ao veículo manter a continuidade da informação sobre cada objeto ao longo do tempo. No entanto, em cenários complexos, com oclusões, mudanças de perspectiva ou perda temporária de detecção, apenas o rastreamento pode não ser suficiente. Nesse contexto, a reidentificação de objetos (ReID) representa uma etapa complementar fundamental no rastreamento, permitindo que o sistema reconheça e associe corretamente objetos previamente observados, mesmo após interrupções, reforçando a robustez e a continuidade do rastreamento. Apesar de promissora quanto ao aumento na robustez do rastreamento, essa etapa apresenta grandes desafios quando baseada exclusivamente em imagens, evidenciando a necessidade da fusão de sensores em espaços comuns como o Birds Eye View (BEV) para melhorar a identificação em condições adversas. Este trabalho propõe um algoritmo de ReID que realiza a transformação de imagens para o espaço BEV, permitindo a reidentificação diretamente nessa representação sem perder as características visuais dos objetos. O desenvolvimento do método foi estruturado em três fases: criação de um algoritmo de conversão de imagens para BEV utilizando como base o Lift-Splat-Shoot (LSS), com modificações para garantir a preservação das features; extração de um conjunto de dados de ReID em BEV a partir do Nuscenes por meio desse algoritmo; e implementação de um modelo de ReID baseado no Deep Cosine Metric Learning, treinado com os dados gerados. Os resultados demonstram que a abordagem proposta supera modelos convencionais baseados em imagens treinados para pedestres, considerando a métrica mAP (mediana das médias de precisão), e apresenta um desempenho equivalente para veículos, tanto em mAP quanto nas métricas de precisão Rank 1 e Rank 5.In recent years, autonomous vehicles have been highlighted due to their potential to revolutionize transportation, offering greater safety, efficiency, and convenience. In order to these systems could operate safely and reliably, it is essential that they accurately perceive their surroundings, detecting, classifying, and tracking dynamic objects such as pedestrians, vehicles, and cyclists. A fundamental task in this process is object tracking, which enables the vehicle to maintain continuity of information about each object over time. However, in complex scenarios involving occlusions, changes in perspective, or temporary loss of detection, tracking alone may be insufficient. In this context, object re-identification (ReID) serves as a critical complementary step, allowing the system to correctly recognize and associate previously observed objects even after interruptions, thereby enhancing the robustness and continuity of tracking. While promising for improving tracking robustness, ReID based solely on images presents significant challenges, highlighting the need for sensor fusion in common spaces, such as Birds Eye View (BEV), to enhance identification under adverse conditions. This work proposes a ReID algorithm that performs image transformation into BEV space, enabling re-identification directly in this representation without losing the visual characteristics of objects. The method was developed in three stages: (1) creation of an image-to-BEV conversion algorithm based on Lift-Splat-Shoot (LSS) with modifications to preserve features; (2) extraction of a ReID dataset in BEV from Nuscenes using this algorithm; and (3) implementation of a ReID model based on Deep Cosine Metric Learning, trained with the generated data. The results show that the proposed approach outperforms conventional image-based models trained for pedestrians, considering the mAP (median average precision) metric, and achieves equivalent performance for vehicles in both mAP and precision metrics Rank 1 and Rank 5.Biblioteca Digitais de Teses e Dissertações da USPGrassi Junior, ValdirOliveira, Bruno Borges de2025-09-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/18/18153/tde-13102025-161242/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-14T13:18:02Zoai:teses.usp.br:tde-13102025-161242Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-14T13:18:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning Object re-identification in BEV space: a deep cosine metric learning approach |
| title |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning |
| spellingShingle |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning Oliveira, Bruno Borges de adverse conditions autonomous vehicles birds-eye view condições adversas convolutional neural networks re-identification redes neurais convolucionais reidentificação veículos autônomos |
| title_short |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning |
| title_full |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning |
| title_fullStr |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning |
| title_full_unstemmed |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning |
| title_sort |
Reidentificação de objetos no espaço BEV: uma abordagem baseada em deep cosine metric learning |
| author |
Oliveira, Bruno Borges de |
| author_facet |
Oliveira, Bruno Borges de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Grassi Junior, Valdir |
| dc.contributor.author.fl_str_mv |
Oliveira, Bruno Borges de |
| dc.subject.por.fl_str_mv |
adverse conditions autonomous vehicles birds-eye view condições adversas convolutional neural networks re-identification redes neurais convolucionais reidentificação veículos autônomos |
| topic |
adverse conditions autonomous vehicles birds-eye view condições adversas convolutional neural networks re-identification redes neurais convolucionais reidentificação veículos autônomos |
| description |
Nos últimos anos, os veículos autônomos vêm ganhando destaque por seu potencial de revolucionar o transporte, oferecendo maior segurança, eficiência e comodidade. Para que esses sistemas operem de forma segura e confiável, é essencial que percebam o ambiente ao redor com precisão, detectando, classificando e acompanhando objetos dinâmicos como pedestres, veículos e ciclistas. Uma das tarefas fundamentais nesse processo é o rastreamento de objetos, que permite ao veículo manter a continuidade da informação sobre cada objeto ao longo do tempo. No entanto, em cenários complexos, com oclusões, mudanças de perspectiva ou perda temporária de detecção, apenas o rastreamento pode não ser suficiente. Nesse contexto, a reidentificação de objetos (ReID) representa uma etapa complementar fundamental no rastreamento, permitindo que o sistema reconheça e associe corretamente objetos previamente observados, mesmo após interrupções, reforçando a robustez e a continuidade do rastreamento. Apesar de promissora quanto ao aumento na robustez do rastreamento, essa etapa apresenta grandes desafios quando baseada exclusivamente em imagens, evidenciando a necessidade da fusão de sensores em espaços comuns como o Birds Eye View (BEV) para melhorar a identificação em condições adversas. Este trabalho propõe um algoritmo de ReID que realiza a transformação de imagens para o espaço BEV, permitindo a reidentificação diretamente nessa representação sem perder as características visuais dos objetos. O desenvolvimento do método foi estruturado em três fases: criação de um algoritmo de conversão de imagens para BEV utilizando como base o Lift-Splat-Shoot (LSS), com modificações para garantir a preservação das features; extração de um conjunto de dados de ReID em BEV a partir do Nuscenes por meio desse algoritmo; e implementação de um modelo de ReID baseado no Deep Cosine Metric Learning, treinado com os dados gerados. Os resultados demonstram que a abordagem proposta supera modelos convencionais baseados em imagens treinados para pedestres, considerando a métrica mAP (mediana das médias de precisão), e apresenta um desempenho equivalente para veículos, tanto em mAP quanto nas métricas de precisão Rank 1 e Rank 5. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-09-09 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/18/18153/tde-13102025-161242/ |
| url |
https://www.teses.usp.br/teses/disponiveis/18/18153/tde-13102025-161242/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370473748922368 |