Detecting and retrieving actions in still images

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Barbosa, Flávio Gabriel Oliveira
Orientador(a): Stemmer, Marcelo Ricardo
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/251228
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.
id UFSC_7032400cdfea7a07656164e5cb607a8f
oai_identifier_str oai:repositorio.ufsc.br:123456789/251228
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaBarbosa, Flávio Gabriel OliveiraStemmer, Marcelo Ricardo2023-09-25T23:12:52Z2023-09-25T23:12:52Z2023383680https://repositorio.ufsc.br/handle/123456789/251228Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.O rápido crescimento do mercado de dispositivos móveis aliado ao crescente uso de redes sociais resultou em um aumento significativo no volume de imagens geradas e consumidas. Consequentemente, a busca por imagens em um grande banco de dados torna-se uma necessidade cada vez maior. Apesar de todos os avanços dos últimos anos, quando deseja-se buscar por imagens utilizando conceitos semânticos (recuperação semântica) ainda é um desafio na visão computacional. Os humanos são capazes de observar semelhanças abstratas e complexas em imagens. Na recuperação semântica, o objetivo da pesquisa raramente pode ser determinado com base unicamente na própria imagem da consulta, e traduzir esse conhecimento em processamento digital não é uma tarefa trivial. Esta tese propõe dois frameworks de recuperação de imagens baseados em ações para imagens estáticas. O primeiro, Act-CBIR, é um framework de duas fases composto por uma fase de Criação de Dicionário e outra fase de Recuperação de Imagem. Essas etapas são compostas por um módulo de Detecção de ações para detectar regiões de interesse (ROIs) e extrair características de cada respectiva ROI; um módulo de codificação e indexação de ações para representar cada ROI de maneira concisa; um banco de dados de índice para armazenar todas as ROIs em uma forma indexada; e um modelo de similaridade para recuperar imagens dadas uma imagem de consulta. Dado o aumento exponencial na quantidade de imagens sendo gerados o que traduz-se em bancos de dados cada vez maiores, propomos uma alternativa de codificação capaz de binarizar os códigos para usar a eficiente distância de hamming. Essa abordagem é comparada com dois outros pipelines de indexação de codificação: utilizar os códigos diretamente da camada totalmente conectada introduzida para esse fim e utilizar distância euclidiana, e também Local Sensitive Hashing (LSH) para recuperar imagens. Finalmente, o modelo de similaridade busca imagens por meio de uma classificação indireta usando o algoritmo Quicksort. Apesar de suas vantagens, esse primeiro framework não considera nenhuma informação adicional além da região de interesse de ação, tornando difícil até mesmo para nós, humanos, descrever algumas ações. A segunda abordagem, Act-Retrieval, é baseada em múltiplas entradas, detecção de ação, aprendizado por dicas e um módulo de atenção para superar esse problema. Para validar experimentalmente os dois conceitos, uma análise quantitativa é realizada utilizando as métricas de mean Average Precision (mAP) e AP@10, que leva em consideração somente as dez primeiras imagens retornadas, uma vez que muitas vezes estamos interessados apenas nos primeiros resultados de nossa consulta. Uma análise qualitativa também foi realizada, observando os mapas de características gerados e o resultado correspondente de cada estratégia para melhor ilustrar as diferentes informações absorvidas pelo segundo framework. Comparamos nossos resultados com trabalhos de referência e no estado-da-arte na área de recuperação de imagens, superando-os por larga margem. Portanto, esta tese contribui para reduzir a lacuna semântica considerando imagens estáticas e ações de recuperação de imagens.Abstract: The rapid growth of the mobile device market combined with social media resulted in a significant increase in the volume of images being generated and consumed. Consequently, searching for still images in a large database that matches a query becomes an increasing necessity. Despite all the advances in the last years, semantic image retrieval is still a challenge in computer vision. Humans are capable of observing complex abstract similarities given single or multiple images. In semantic retrieval, the search objective can rarely be determined based on the query image by itself, and translating this knowledge into digital processing is not a trivial task. This thesis proposes two action-based CBIR frameworks that only consider still images. The first framework, Act-CBIR, is a two-staged framework composed of a Dictionary Creation stage and another stage of Image Retrieval. These stages are composed of an Action Detection module to detect regions of interest (ROIs) and extract features from each respective ROI; an Action Encoding and Indexing module to represent each ROI concisely; an Index database to store all ROIs in an indexed form, and a Similarity Model to retrieve images given a query image. Given the exponential increase in the size of the databases, this thesis proposes an encoding alternative able to binarize the codes to use the efficient hamming distance and compare with two other encoding indexing pipelines: computing codes directly from our introduced fully-connected feature layer and using cosine distance, and Locality Sensitive Hashing (LSH) to retrieve images. Finally, the similarity model retrieves results using an indirect sort using the Quicksort algorithm. Despite its advantages, the framework does not consider any additional information beyond the region of interest of action, making it difficult even for us humans to describe some actions. The second framework, Act-Retrieval, is based on multiple inputs, action detection, hint-learning, and an attention module to overcome this issue. To experimentally validate both concepts, a quantitative analysis is performed using the standard mean Average Precision (mAP), and the AP@10, since we are often interested only in the first results of our query. A qualitative analysis was also performed, observing the feature maps generated and the corresponding result of each strategy to better illustrate the different information absorbed by the second framework. The results are compared with reference and state-of-the-art works in the image retrieval field, surpassing them by a large margin. Therefore, this thesis contributes to reduce the semantic gap considering static images and actions for image retrieval.126 p.| il., gráfs.engEngenharia de sistemasAutomaçãoAprendizado profundo (aprendizado do computador)Redes neurais (Computação)Visão por computadorProcessamento de imagensDetecting and retrieving actions in still imagesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPEAS0431-T.pdfPEAS0431-T.pdfapplication/pdf3123935https://repositorio.ufsc.br/bitstream/123456789/251228/1/PEAS0431-T.pdf66449538bc05eb558f3ae8cbc7ad78faMD51123456789/2512282023-09-25 20:12:53.233oai:repositorio.ufsc.br:123456789/251228Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732023-09-25T23:12:53Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Detecting and retrieving actions in still images
title Detecting and retrieving actions in still images
spellingShingle Detecting and retrieving actions in still images
Barbosa, Flávio Gabriel Oliveira
Engenharia de sistemas
Automação
Aprendizado profundo (aprendizado do computador)
Redes neurais (Computação)
Visão por computador
Processamento de imagens
title_short Detecting and retrieving actions in still images
title_full Detecting and retrieving actions in still images
title_fullStr Detecting and retrieving actions in still images
title_full_unstemmed Detecting and retrieving actions in still images
title_sort Detecting and retrieving actions in still images
author Barbosa, Flávio Gabriel Oliveira
author_facet Barbosa, Flávio Gabriel Oliveira
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Barbosa, Flávio Gabriel Oliveira
dc.contributor.advisor1.fl_str_mv Stemmer, Marcelo Ricardo
contributor_str_mv Stemmer, Marcelo Ricardo
dc.subject.classification.none.fl_str_mv Engenharia de sistemas
Automação
Aprendizado profundo (aprendizado do computador)
Redes neurais (Computação)
Visão por computador
Processamento de imagens
topic Engenharia de sistemas
Automação
Aprendizado profundo (aprendizado do computador)
Redes neurais (Computação)
Visão por computador
Processamento de imagens
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-09-25T23:12:52Z
dc.date.available.fl_str_mv 2023-09-25T23:12:52Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/251228
dc.identifier.other.none.fl_str_mv 383680
identifier_str_mv 383680
url https://repositorio.ufsc.br/handle/123456789/251228
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 126 p.| il., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/251228/1/PEAS0431-T.pdf
bitstream.checksum.fl_str_mv 66449538bc05eb558f3ae8cbc7ad78fa
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759196194734080