Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Curitiba Brasil Programa de Pós-Graduação em Computação Aplicada UTFPR |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/33178 |
Resumo: | The selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates. |
| id |
UTFPR-12_8ad907b558e653da62ba43aecafde2da |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/33178 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturasExploring automatic image captioning approaches for main subject identification in graduation event photosImagens fotográficas - AnáliseAprendizado profundo (Aprendizado do computador)Processamento de linguagem natural (Computação)Visão por computadorProcessamento de imagensSistemas de reconhecimento de padrõesLegendas (filmes, televisão, etc.)Images, Photografic - AnalysisDeep learning (Machine learning)Natural language processing (Computer science)Computer visionImage processingPattern recognition systemsSubtitles (Motion pictures, television, etc.)CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCiência da ComputaçãoThe selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates.A seleção de fotografias de um evento de formatura é uma tarefa essencial para empresas que organizam tais eventos, pois a venda de álbuns personalizados é parte importante da sua arrecadação. Tendo isso em mente, o presente trabalho se concentra na aplicação de redes neurais pré-treinadas para auxiliar a organização de álbuns de formatura, explorando a legendagem automática de imagens e a identificação do sujeito principal. O estudo começa com uma análise comparativa de três abordagens baseadas em deep learning para a legendagem automática de imagens no contexto de formaturas. O modelo One For All (OFA), baseado em transformers, destaca-se como uma escolha promissora. O OFA é pré-treinado em uma ampla variedade de dados, e foi especializado para a tarefa específica de legendagem de imagens de formatura. Além disso, o trabalho investiga a utilização do conhecimento implícito nos modelos de legendagem automática para identificar o sujeito principal em uma imagem. Isso é essencial para a organização eficaz de álbuns de formatura, onde é crucial destacar os principais protagonistas. O modelo OFA foi especializado para gerar caixas delimitadoras para esta tarefa, o que resultou em melhorias notáveis, com medidas de Intersection over Union médias de 0,47, em comparação com 0,17 sem especialização. Também exploramos a utilização das legendas geradas pelo modelo para a geração de uma nuvem de palavras, a qual pode ser útil para a filtragem das fotografias. As contribuições deste trabalho são diretamente relevantes para a organização de álbuns de formatura, incluindo a geração de legendas e caixas delimitadoras para o sujeito principal em fotografias, bem como a criação de nuvens de palavras para a organização eficiente dos álbuns. Em síntese, este estudo destaca a eficácia das redes neurais pré-treinadas na legendagem automática de imagens e na identificação do sujeito principal, proporcionando benefícios significativos na automatização da separação de álbuns de formatura, uma tarefa valiosa para as empresas e formandos.Universidade Tecnológica Federal do ParanáCuritibaBrasilPrograma de Pós-Graduação em Computação AplicadaUTFPRNassu, Bogdan Tomoyukihttps://orcid.org/0000-0001-6441-8543http://lattes.cnpq.br/4592104393315780Nassu, Bogdan Tomoyukihttps://orcid.org/0000-0001-6441-8543http://lattes.cnpq.br/4592104393315780Navarro, Pedro Luis Kantek Garciahttp://lattes.cnpq.br/7330616928412664Silva, Ricardo Dutra dahttps://orcid.org/0000-0002-8002-8411http://lattes.cnpq.br/8512085741397097Wamser, Lucas Holtz2024-01-15T17:43:49Z2024-01-15T17:43:49Z2023-11-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfWAMSER, Lucas Holtz. Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas. 2023. Dissertação (Mestrado em Computação aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/33178porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2024-01-16T06:07:14Zoai:repositorio.utfpr.edu.br:1/33178Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2024-01-16T06:07:14Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas Exploring automatic image captioning approaches for main subject identification in graduation event photos |
| title |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas |
| spellingShingle |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas Wamser, Lucas Holtz Imagens fotográficas - Análise Aprendizado profundo (Aprendizado do computador) Processamento de linguagem natural (Computação) Visão por computador Processamento de imagens Sistemas de reconhecimento de padrões Legendas (filmes, televisão, etc.) Images, Photografic - Analysis Deep learning (Machine learning) Natural language processing (Computer science) Computer vision Image processing Pattern recognition systems Subtitles (Motion pictures, television, etc.) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Ciência da Computação |
| title_short |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas |
| title_full |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas |
| title_fullStr |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas |
| title_full_unstemmed |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas |
| title_sort |
Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas |
| author |
Wamser, Lucas Holtz |
| author_facet |
Wamser, Lucas Holtz |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Nassu, Bogdan Tomoyuki https://orcid.org/0000-0001-6441-8543 http://lattes.cnpq.br/4592104393315780 Nassu, Bogdan Tomoyuki https://orcid.org/0000-0001-6441-8543 http://lattes.cnpq.br/4592104393315780 Navarro, Pedro Luis Kantek Garcia http://lattes.cnpq.br/7330616928412664 Silva, Ricardo Dutra da https://orcid.org/0000-0002-8002-8411 http://lattes.cnpq.br/8512085741397097 |
| dc.contributor.author.fl_str_mv |
Wamser, Lucas Holtz |
| dc.subject.por.fl_str_mv |
Imagens fotográficas - Análise Aprendizado profundo (Aprendizado do computador) Processamento de linguagem natural (Computação) Visão por computador Processamento de imagens Sistemas de reconhecimento de padrões Legendas (filmes, televisão, etc.) Images, Photografic - Analysis Deep learning (Machine learning) Natural language processing (Computer science) Computer vision Image processing Pattern recognition systems Subtitles (Motion pictures, television, etc.) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Ciência da Computação |
| topic |
Imagens fotográficas - Análise Aprendizado profundo (Aprendizado do computador) Processamento de linguagem natural (Computação) Visão por computador Processamento de imagens Sistemas de reconhecimento de padrões Legendas (filmes, televisão, etc.) Images, Photografic - Analysis Deep learning (Machine learning) Natural language processing (Computer science) Computer vision Image processing Pattern recognition systems Subtitles (Motion pictures, television, etc.) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Ciência da Computação |
| description |
The selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-11-28 2024-01-15T17:43:49Z 2024-01-15T17:43:49Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
WAMSER, Lucas Holtz. Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas. 2023. Dissertação (Mestrado em Computação aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023. http://repositorio.utfpr.edu.br/jspui/handle/1/33178 |
| identifier_str_mv |
WAMSER, Lucas Holtz. Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas. 2023. Dissertação (Mestrado em Computação aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/33178 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Curitiba Brasil Programa de Pós-Graduação em Computação Aplicada UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Curitiba Brasil Programa de Pós-Graduação em Computação Aplicada UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498303307808768 |