Sketch-Based multimodal image retrieval using deep learning

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Berno, Brenda Cinthya Solari
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/25496
Resumo: The constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work is to retrieve a photographic image using another modality different from that of the photograph, such as a sketch. A sketch is different from the image since it is a set of hand-drawn lines and colors and texture is lost, when compared with a photograph that is a more complex visual representation representing the real world. The selected study case for this method is tattoo photograph retrieval using sketches. Due to the lack of appropriate data for this study, a new dataset of sketches and tattoo images was created. The proposed model consists of a Siamese neural network that receives as input visual features previously extracted from each modality to learn an optimal representation for photographs and sketches within an embedded space, where the image of a class is close to the sketch of the same class. Two cost functions were tested, and experiments showed that the contrastive loss function achieved better results than the triplet loss function in the retrieval of images. Despite having limited data, in the image retrieval experiments the average precision achieved 85% precision for our dataset at top-5 results and 85% precision for Sketchy at top-10 results. We observed that retrieval results depend on the quality and diversity of the data used for training, especially in sketch-based image retrieval, which, in turn, depends on the user’s ability to draw. Overall, the proposed methods are promising and results encourage further research. Future works include the extension of the dataset (both tattoo images and sketches) and, also, experiments with other modalities.
id UTFPR-12_a9904dc9a8f29695e6201caea3b280f2
oai_identifier_str oai:repositorio.utfpr.edu.br:1/25496
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Sketch-Based multimodal image retrieval using deep learningRecuperação de imagem multimodal baseada em esboço usando deep learningSistemas multimídiaRecuperação de dados (Computação)Sistemas de recuperação da informaçãoRedes neurais (Computação)Visão ComputacionalAprendizado do computadorTatuagem - ImagemMultimedia systemsData recovery (Computer science)Information storage and retrieval systemsNeural networks (Computer science)Computer visionMachine learningTattooing - ImagingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia ElétricaThe constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work is to retrieve a photographic image using another modality different from that of the photograph, such as a sketch. A sketch is different from the image since it is a set of hand-drawn lines and colors and texture is lost, when compared with a photograph that is a more complex visual representation representing the real world. The selected study case for this method is tattoo photograph retrieval using sketches. Due to the lack of appropriate data for this study, a new dataset of sketches and tattoo images was created. The proposed model consists of a Siamese neural network that receives as input visual features previously extracted from each modality to learn an optimal representation for photographs and sketches within an embedded space, where the image of a class is close to the sketch of the same class. Two cost functions were tested, and experiments showed that the contrastive loss function achieved better results than the triplet loss function in the retrieval of images. Despite having limited data, in the image retrieval experiments the average precision achieved 85% precision for our dataset at top-5 results and 85% precision for Sketchy at top-10 results. We observed that retrieval results depend on the quality and diversity of the data used for training, especially in sketch-based image retrieval, which, in turn, depends on the user’s ability to draw. Overall, the proposed methods are promising and results encourage further research. Future works include the extension of the dataset (both tattoo images and sketches) and, also, experiments with other modalities.O crescimento constante dos dados multimídia gerados todos os dias torna cada vez mais difícil recuperá-los. O Google é conhecido por fazer um bom trabalho de recuperação de documentos pesquisando correspondências de palavras-chave. No entanto, os dados multimídia dificilmente contêm palavras-chave que os identificam. O objetivo principal deste trabalho é recuperar uma imagem fotográfica usando outra modalidade diferente da foto, tal como um esboço. Um esboço é diferente de uma foto pois é um conjunto de linhas desenhadas a mão, e cores e textura são perdidos, quando comparado com uma foto que é uma representação visual mais complexa representando o mundo real. O estudo de caso para o método proposto é a recuperação de fotos de tatuagens com base em esboços. Devido à falta de dados adequados para este estudo, foi criado um novo conjunto de dados de esboços e imagens de tatuagens. O modelo proposto consiste de uma rede neural siamesa que recebe como entrada características visuais, previamente extraídas de cada modalidade, para aprender uma representação ótima para fotos e esboços dentro de um espaço incorporado, onde a imagem de uma classe está próxima ao esboço da mesma classe. Duas funções de custo foram testadas, e os experimentos mostraram que, para a recuperação de imagens, a função de perda de contraste obteve melhores resultados do que a função de perda tripla. Embora a quantidade de dados fosse limitada, nos experimentos de recuperação de imagens foi alcançada a precisão de 85% para nosso conjunto de dados no top-5 e 85% para Sketchy no top-10. Foi observado que os resultados da recuperação dependem muito da qualidade e diversidade dos dados usados para treinamento da rede, especialmente a respeito da recuperação baseada em esboços, a qual, por sua vez, depende da habilidade de desenhar do usuário. De maneira geral, os métodos propostos são promissores para o problema, e os resultados encorajam a continuidade da pesquisa. Trabalhos futuros incluirão a extensão do conjunto de dados proposto (imagens de tatuagens e esboços) e, também, experimentos com outras modalidades.Universidade Tecnológica Federal do ParanáCuritibaBrasilPrograma de Pós-Graduação em Engenharia Elétrica e Informática IndustrialUTFPRLopes, Heitor Silveriohttps://orcid.org/0000-0003-3984-1432http://lattes.cnpq.br/4045818083957064Gabardo, Ademir Cristianohttp://lattes.cnpq.br/9872210667199371Lopes, Heitor Silveriohttps://orcid.org/0000-0003-3984-1432http://lattes.cnpq.br/4045818083957064Dorini, Leyza Elmeri Baldohttps://orcid.org/0000-0002-0483-3435http://lattes.cnpq.br/5726947194230379Ribeiro, Manasseshttps://orcid.org/0000-0002-7526-5092http://lattes.cnpq.br/6475893755893056Berno, Brenda Cinthya Solari2021-07-06T00:35:41Z2021-07-06T00:35:41Z2021-05-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfBERNO, Brenda Cinthya Solari. Sketch-Based multimodal image retrieval using deep learning. 2021. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/25496enghttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2021-07-06T06:04:29Zoai:repositorio.utfpr.edu.br:1/25496Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2021-07-06T06:04:29Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Sketch-Based multimodal image retrieval using deep learning
Recuperação de imagem multimodal baseada em esboço usando deep learning
title Sketch-Based multimodal image retrieval using deep learning
spellingShingle Sketch-Based multimodal image retrieval using deep learning
Berno, Brenda Cinthya Solari
Sistemas multimídia
Recuperação de dados (Computação)
Sistemas de recuperação da informação
Redes neurais (Computação)
Visão Computacional
Aprendizado do computador
Tatuagem - Imagem
Multimedia systems
Data recovery (Computer science)
Information storage and retrieval systems
Neural networks (Computer science)
Computer vision
Machine learning
Tattooing - Imaging
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
title_short Sketch-Based multimodal image retrieval using deep learning
title_full Sketch-Based multimodal image retrieval using deep learning
title_fullStr Sketch-Based multimodal image retrieval using deep learning
title_full_unstemmed Sketch-Based multimodal image retrieval using deep learning
title_sort Sketch-Based multimodal image retrieval using deep learning
author Berno, Brenda Cinthya Solari
author_facet Berno, Brenda Cinthya Solari
author_role author
dc.contributor.none.fl_str_mv Lopes, Heitor Silverio
https://orcid.org/0000-0003-3984-1432
http://lattes.cnpq.br/4045818083957064
Gabardo, Ademir Cristiano
http://lattes.cnpq.br/9872210667199371
Lopes, Heitor Silverio
https://orcid.org/0000-0003-3984-1432
http://lattes.cnpq.br/4045818083957064
Dorini, Leyza Elmeri Baldo
https://orcid.org/0000-0002-0483-3435
http://lattes.cnpq.br/5726947194230379
Ribeiro, Manasses
https://orcid.org/0000-0002-7526-5092
http://lattes.cnpq.br/6475893755893056
dc.contributor.author.fl_str_mv Berno, Brenda Cinthya Solari
dc.subject.por.fl_str_mv Sistemas multimídia
Recuperação de dados (Computação)
Sistemas de recuperação da informação
Redes neurais (Computação)
Visão Computacional
Aprendizado do computador
Tatuagem - Imagem
Multimedia systems
Data recovery (Computer science)
Information storage and retrieval systems
Neural networks (Computer science)
Computer vision
Machine learning
Tattooing - Imaging
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
topic Sistemas multimídia
Recuperação de dados (Computação)
Sistemas de recuperação da informação
Redes neurais (Computação)
Visão Computacional
Aprendizado do computador
Tatuagem - Imagem
Multimedia systems
Data recovery (Computer science)
Information storage and retrieval systems
Neural networks (Computer science)
Computer vision
Machine learning
Tattooing - Imaging
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
description The constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work is to retrieve a photographic image using another modality different from that of the photograph, such as a sketch. A sketch is different from the image since it is a set of hand-drawn lines and colors and texture is lost, when compared with a photograph that is a more complex visual representation representing the real world. The selected study case for this method is tattoo photograph retrieval using sketches. Due to the lack of appropriate data for this study, a new dataset of sketches and tattoo images was created. The proposed model consists of a Siamese neural network that receives as input visual features previously extracted from each modality to learn an optimal representation for photographs and sketches within an embedded space, where the image of a class is close to the sketch of the same class. Two cost functions were tested, and experiments showed that the contrastive loss function achieved better results than the triplet loss function in the retrieval of images. Despite having limited data, in the image retrieval experiments the average precision achieved 85% precision for our dataset at top-5 results and 85% precision for Sketchy at top-10 results. We observed that retrieval results depend on the quality and diversity of the data used for training, especially in sketch-based image retrieval, which, in turn, depends on the user’s ability to draw. Overall, the proposed methods are promising and results encourage further research. Future works include the extension of the dataset (both tattoo images and sketches) and, also, experiments with other modalities.
publishDate 2021
dc.date.none.fl_str_mv 2021-07-06T00:35:41Z
2021-07-06T00:35:41Z
2021-05-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv BERNO, Brenda Cinthya Solari. Sketch-Based multimodal image retrieval using deep learning. 2021. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021.
http://repositorio.utfpr.edu.br/jspui/handle/1/25496
identifier_str_mv BERNO, Brenda Cinthya Solari. Sketch-Based multimodal image retrieval using deep learning. 2021. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021.
url http://repositorio.utfpr.edu.br/jspui/handle/1/25496
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498310897401856