Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Wamser, Lucas Holtz
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Computação Aplicada
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/33178
Resumo: The selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates.
id UTFPR-12_8ad907b558e653da62ba43aecafde2da
oai_identifier_str oai:repositorio.utfpr.edu.br:1/33178
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturasExploring automatic image captioning approaches for main subject identification in graduation event photosImagens fotográficas - AnáliseAprendizado profundo (Aprendizado do computador)Processamento de linguagem natural (Computação)Visão por computadorProcessamento de imagensSistemas de reconhecimento de padrõesLegendas (filmes, televisão, etc.)Images, Photografic - AnalysisDeep learning (Machine learning)Natural language processing (Computer science)Computer visionImage processingPattern recognition systemsSubtitles (Motion pictures, television, etc.)CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCiência da ComputaçãoThe selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates.A seleção de fotografias de um evento de formatura é uma tarefa essencial para empresas que organizam tais eventos, pois a venda de álbuns personalizados é parte importante da sua arrecadação. Tendo isso em mente, o presente trabalho se concentra na aplicação de redes neurais pré-treinadas para auxiliar a organização de álbuns de formatura, explorando a legendagem automática de imagens e a identificação do sujeito principal. O estudo começa com uma análise comparativa de três abordagens baseadas em deep learning para a legendagem automática de imagens no contexto de formaturas. O modelo One For All (OFA), baseado em transformers, destaca-se como uma escolha promissora. O OFA é pré-treinado em uma ampla variedade de dados, e foi especializado para a tarefa específica de legendagem de imagens de formatura. Além disso, o trabalho investiga a utilização do conhecimento implícito nos modelos de legendagem automática para identificar o sujeito principal em uma imagem. Isso é essencial para a organização eficaz de álbuns de formatura, onde é crucial destacar os principais protagonistas. O modelo OFA foi especializado para gerar caixas delimitadoras para esta tarefa, o que resultou em melhorias notáveis, com medidas de Intersection over Union médias de 0,47, em comparação com 0,17 sem especialização. Também exploramos a utilização das legendas geradas pelo modelo para a geração de uma nuvem de palavras, a qual pode ser útil para a filtragem das fotografias. As contribuições deste trabalho são diretamente relevantes para a organização de álbuns de formatura, incluindo a geração de legendas e caixas delimitadoras para o sujeito principal em fotografias, bem como a criação de nuvens de palavras para a organização eficiente dos álbuns. Em síntese, este estudo destaca a eficácia das redes neurais pré-treinadas na legendagem automática de imagens e na identificação do sujeito principal, proporcionando benefícios significativos na automatização da separação de álbuns de formatura, uma tarefa valiosa para as empresas e formandos.Universidade Tecnológica Federal do ParanáCuritibaBrasilPrograma de Pós-Graduação em Computação AplicadaUTFPRNassu, Bogdan Tomoyukihttps://orcid.org/0000-0001-6441-8543http://lattes.cnpq.br/4592104393315780Nassu, Bogdan Tomoyukihttps://orcid.org/0000-0001-6441-8543http://lattes.cnpq.br/4592104393315780Navarro, Pedro Luis Kantek Garciahttp://lattes.cnpq.br/7330616928412664Silva, Ricardo Dutra dahttps://orcid.org/0000-0002-8002-8411http://lattes.cnpq.br/8512085741397097Wamser, Lucas Holtz2024-01-15T17:43:49Z2024-01-15T17:43:49Z2023-11-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfWAMSER, Lucas Holtz. Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas. 2023. Dissertação (Mestrado em Computação aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/33178porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2024-01-16T06:07:14Zoai:repositorio.utfpr.edu.br:1/33178Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2024-01-16T06:07:14Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
Exploring automatic image captioning approaches for main subject identification in graduation event photos
title Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
spellingShingle Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
Wamser, Lucas Holtz
Imagens fotográficas - Análise
Aprendizado profundo (Aprendizado do computador)
Processamento de linguagem natural (Computação)
Visão por computador
Processamento de imagens
Sistemas de reconhecimento de padrões
Legendas (filmes, televisão, etc.)
Images, Photografic - Analysis
Deep learning (Machine learning)
Natural language processing (Computer science)
Computer vision
Image processing
Pattern recognition systems
Subtitles (Motion pictures, television, etc.)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Ciência da Computação
title_short Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
title_full Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
title_fullStr Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
title_full_unstemmed Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
title_sort Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
author Wamser, Lucas Holtz
author_facet Wamser, Lucas Holtz
author_role author
dc.contributor.none.fl_str_mv Nassu, Bogdan Tomoyuki
https://orcid.org/0000-0001-6441-8543
http://lattes.cnpq.br/4592104393315780
Nassu, Bogdan Tomoyuki
https://orcid.org/0000-0001-6441-8543
http://lattes.cnpq.br/4592104393315780
Navarro, Pedro Luis Kantek Garcia
http://lattes.cnpq.br/7330616928412664
Silva, Ricardo Dutra da
https://orcid.org/0000-0002-8002-8411
http://lattes.cnpq.br/8512085741397097
dc.contributor.author.fl_str_mv Wamser, Lucas Holtz
dc.subject.por.fl_str_mv Imagens fotográficas - Análise
Aprendizado profundo (Aprendizado do computador)
Processamento de linguagem natural (Computação)
Visão por computador
Processamento de imagens
Sistemas de reconhecimento de padrões
Legendas (filmes, televisão, etc.)
Images, Photografic - Analysis
Deep learning (Machine learning)
Natural language processing (Computer science)
Computer vision
Image processing
Pattern recognition systems
Subtitles (Motion pictures, television, etc.)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Ciência da Computação
topic Imagens fotográficas - Análise
Aprendizado profundo (Aprendizado do computador)
Processamento de linguagem natural (Computação)
Visão por computador
Processamento de imagens
Sistemas de reconhecimento de padrões
Legendas (filmes, televisão, etc.)
Images, Photografic - Analysis
Deep learning (Machine learning)
Natural language processing (Computer science)
Computer vision
Image processing
Pattern recognition systems
Subtitles (Motion pictures, television, etc.)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Ciência da Computação
description The selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-28
2024-01-15T17:43:49Z
2024-01-15T17:43:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv WAMSER, Lucas Holtz. Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas. 2023. Dissertação (Mestrado em Computação aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.
http://repositorio.utfpr.edu.br/jspui/handle/1/33178
identifier_str_mv WAMSER, Lucas Holtz. Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas. 2023. Dissertação (Mestrado em Computação aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.
url http://repositorio.utfpr.edu.br/jspui/handle/1/33178
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Computação Aplicada
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Computação Aplicada
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498303307808768