Contributions to the video captioning in an open-world scenario using deep learning techniques

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Inácio, Andrei de Souza
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/32638
Resumo: Video captioning poses a significant challenge within the Computer Vision and Artificial Intelligence domains. It involves the challenging task of translating the visual content of videos into natural language descriptions. Despite significant advancements achieved through deep learning techniques, existing approaches usually perform such a task in a closed-world scenario, assuming all actions, concepts presented in a scene, and vocabulary are known in advance. However, new actions and objects may emerge unexpectedly in real-world applications, and new vocabulary may be necessary to describe those concepts. Therefore, an ideal video captioning approach for an open-world environment should be able to describe known events, detect unknown ones, and adapt incrementally to learn how to describe new events without forgetting what it has already learned. This thesis presents contributions to the video captioning problem in an open-world scenario. The first method, called OSVidCap, was proposed to describe concurrent known events performed by humans in videos and can deal with unknown ones. The second proposed method is an incremental learning approach for video captioning, designed to adapt an existing model to learn new events incrementally. Two novel datasets and a protocol for evaluating video captioning approaches in an open-world scenario are presented. Experimental results conducted on these datasets demonstrate the effectiveness of the proposed methods.
id UTFPR-12_7e19cd4a810e1fc3b46682edd665f9c3
oai_identifier_str oai:repositorio.utfpr.edu.br:1/32638
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Contributions to the video captioning in an open-world scenario using deep learning techniquesContribuições para a descrição de vídeos em um cenário de mundo aberto utilizando técnicas de aprendizado profundoDescrição de VídeosAprendizado profundo (aprendizado do computador)Visão por computadorProcessamento de linguagem natural (Computação)Redes neurais (Computação)Percepção de padrõesSistemas de reconhecimento de padrõesBig dataVideo descriptionDeep learning (Machine learning)Computer visionNatural language processing (Computer science)Neural networks (Computer science)Pattern perceptionPattern recognition systemsCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia ElétricaVideo captioning poses a significant challenge within the Computer Vision and Artificial Intelligence domains. It involves the challenging task of translating the visual content of videos into natural language descriptions. Despite significant advancements achieved through deep learning techniques, existing approaches usually perform such a task in a closed-world scenario, assuming all actions, concepts presented in a scene, and vocabulary are known in advance. However, new actions and objects may emerge unexpectedly in real-world applications, and new vocabulary may be necessary to describe those concepts. Therefore, an ideal video captioning approach for an open-world environment should be able to describe known events, detect unknown ones, and adapt incrementally to learn how to describe new events without forgetting what it has already learned. This thesis presents contributions to the video captioning problem in an open-world scenario. The first method, called OSVidCap, was proposed to describe concurrent known events performed by humans in videos and can deal with unknown ones. The second proposed method is an incremental learning approach for video captioning, designed to adapt an existing model to learn new events incrementally. Two novel datasets and a protocol for evaluating video captioning approaches in an open-world scenario are presented. Experimental results conducted on these datasets demonstrate the effectiveness of the proposed methods.A tarefa de descrição de vídeos representa um desafio significativo para as áreas de Visão Computacional e Inteligência Artificial, pois envolve a tradução do conteúdo visual de vídeos em linguagem natural. Apesar dos avanços significativos alcançados por meio de técnicas de aprendizado profundo, as abordagens existentes geralmente executam essa tarefa em um contexto de mundo fechado, presumindo que todas as ações e conceitos possíveis em uma cena, bem como o vocabulário, sejam conhecidos antecipadamente. No entanto, em aplicações do mundo real, novas ações e objetos podem surgir inesperadamente, exigindo novos vocabulários para descrever esses conceitos. Portanto, uma abordagem desejável para a descrição de vídeos em um ambiente de mundo aberto é aquela que pode descrever eventos conhecidos, detectar eventos desconhecidos e se adaptar incrementalmente para aprender a descrever esse conjunto de eventos desconhecidos, sem esquecer os eventos já aprendidos. Esta tese apresenta contribuições para o problema da descrição de vídeos em um cenário de mundo aberto. O primeiro método proposto é um sistema denominado OSVidCap, que visa descrever eventos conhecidos realizados por humanos em vídeos. O segundo método é uma abordagem de aprendizado incremental para a descrição de vídeos, permitindo a adaptação do modelo existente para aprender novas classes incrementalmente. Dois novos conjuntos de dados e um protocolo de avaliação foram criados para avaliar as abordagens de descrição de vídeo em um contexto de mundo aberto. Os resultados experimentais obtidos com estes conjuntos de dados demonstraram a eficácia dos métodos propostos.Universidade Tecnológica Federal do ParanáCuritibaBrasilPrograma de Pós-Graduação em Engenharia Elétrica e Informática IndustrialUTFPRLopes, Heitor Silvériohttps://orcid.org/0000-0003-3984-1432http://lattes.cnpq.br/4045818083957064Lazzaretti, André Eugêniohttps://orcid.org/0000-0003-1861-3369http://lattes.cnpq.br/7649611874688878Lopes, Heitor Silvériohttps://orcid.org/0000-0003-3984-1432http://lattes.cnpq.br/4045818083957064Pedrini, Héliohttps://orcid.org/0000-0003-0125-630Xhttp://lattes.cnpq.br/9600140904712115Ribeiro, Manasséshttps://orcid.org/0000-0002-7526-5092http://lattes.cnpq.br/6475893755893056Bugatti, Pedro Henriquehttps://orcid.org/0000-0001-9421-9254http://lattes.cnpq.br/2177467029991118Inácio, Andrei de Souza2023-10-06T17:54:03Z2023-10-06T17:54:03Z2023-08-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfINÁCIO, Andrei de Souza. Contributions to the video captioning in an open-world scenario using deep learning techniques. 2023. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/32638porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2023-10-07T06:07:39Zoai:repositorio.utfpr.edu.br:1/32638Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2023-10-07T06:07:39Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Contributions to the video captioning in an open-world scenario using deep learning techniques
Contribuições para a descrição de vídeos em um cenário de mundo aberto utilizando técnicas de aprendizado profundo
title Contributions to the video captioning in an open-world scenario using deep learning techniques
spellingShingle Contributions to the video captioning in an open-world scenario using deep learning techniques
Inácio, Andrei de Souza
Descrição de Vídeos
Aprendizado profundo (aprendizado do computador)
Visão por computador
Processamento de linguagem natural (Computação)
Redes neurais (Computação)
Percepção de padrões
Sistemas de reconhecimento de padrões
Big data
Video description
Deep learning (Machine learning)
Computer vision
Natural language processing (Computer science)
Neural networks (Computer science)
Pattern perception
Pattern recognition systems
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
title_short Contributions to the video captioning in an open-world scenario using deep learning techniques
title_full Contributions to the video captioning in an open-world scenario using deep learning techniques
title_fullStr Contributions to the video captioning in an open-world scenario using deep learning techniques
title_full_unstemmed Contributions to the video captioning in an open-world scenario using deep learning techniques
title_sort Contributions to the video captioning in an open-world scenario using deep learning techniques
author Inácio, Andrei de Souza
author_facet Inácio, Andrei de Souza
author_role author
dc.contributor.none.fl_str_mv Lopes, Heitor Silvério
https://orcid.org/0000-0003-3984-1432
http://lattes.cnpq.br/4045818083957064
Lazzaretti, André Eugênio
https://orcid.org/0000-0003-1861-3369
http://lattes.cnpq.br/7649611874688878
Lopes, Heitor Silvério
https://orcid.org/0000-0003-3984-1432
http://lattes.cnpq.br/4045818083957064
Pedrini, Hélio
https://orcid.org/0000-0003-0125-630X
http://lattes.cnpq.br/9600140904712115
Ribeiro, Manassés
https://orcid.org/0000-0002-7526-5092
http://lattes.cnpq.br/6475893755893056
Bugatti, Pedro Henrique
https://orcid.org/0000-0001-9421-9254
http://lattes.cnpq.br/2177467029991118
dc.contributor.author.fl_str_mv Inácio, Andrei de Souza
dc.subject.por.fl_str_mv Descrição de Vídeos
Aprendizado profundo (aprendizado do computador)
Visão por computador
Processamento de linguagem natural (Computação)
Redes neurais (Computação)
Percepção de padrões
Sistemas de reconhecimento de padrões
Big data
Video description
Deep learning (Machine learning)
Computer vision
Natural language processing (Computer science)
Neural networks (Computer science)
Pattern perception
Pattern recognition systems
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
topic Descrição de Vídeos
Aprendizado profundo (aprendizado do computador)
Visão por computador
Processamento de linguagem natural (Computação)
Redes neurais (Computação)
Percepção de padrões
Sistemas de reconhecimento de padrões
Big data
Video description
Deep learning (Machine learning)
Computer vision
Natural language processing (Computer science)
Neural networks (Computer science)
Pattern perception
Pattern recognition systems
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
description Video captioning poses a significant challenge within the Computer Vision and Artificial Intelligence domains. It involves the challenging task of translating the visual content of videos into natural language descriptions. Despite significant advancements achieved through deep learning techniques, existing approaches usually perform such a task in a closed-world scenario, assuming all actions, concepts presented in a scene, and vocabulary are known in advance. However, new actions and objects may emerge unexpectedly in real-world applications, and new vocabulary may be necessary to describe those concepts. Therefore, an ideal video captioning approach for an open-world environment should be able to describe known events, detect unknown ones, and adapt incrementally to learn how to describe new events without forgetting what it has already learned. This thesis presents contributions to the video captioning problem in an open-world scenario. The first method, called OSVidCap, was proposed to describe concurrent known events performed by humans in videos and can deal with unknown ones. The second proposed method is an incremental learning approach for video captioning, designed to adapt an existing model to learn new events incrementally. Two novel datasets and a protocol for evaluating video captioning approaches in an open-world scenario are presented. Experimental results conducted on these datasets demonstrate the effectiveness of the proposed methods.
publishDate 2023
dc.date.none.fl_str_mv 2023-10-06T17:54:03Z
2023-10-06T17:54:03Z
2023-08-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv INÁCIO, Andrei de Souza. Contributions to the video captioning in an open-world scenario using deep learning techniques. 2023. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.
http://repositorio.utfpr.edu.br/jspui/handle/1/32638
identifier_str_mv INÁCIO, Andrei de Souza. Contributions to the video captioning in an open-world scenario using deep learning techniques. 2023. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.
url http://repositorio.utfpr.edu.br/jspui/handle/1/32638
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498240597721088