Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Gutoski, Matheus
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/29245
Resumo: Human Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments.
id UTFPR-12_f9b4f5839de3fcb47d8011af00080395
oai_identifier_str oai:repositorio.utfpr.edu.br:1/29245
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicasOpen-world human action recognition in videos: theoretical and methodological contributionsVisão por computadorSistemas de reconhecimento de padrõesAprendizado do computadorVídeo digital - ClassificaçãoRedes neurais (Computação)Computer visionPattern recognition systemsMachine learningDigital video - ClassificationNeural networks (Computer science)CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia ElétricaHuman Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments.O Reconhecimento de Ação Humana (RAH) é um assunto amplamente estudado nas áreas de Visão Computacional, Aprendizado de Máquina e Aprendizado Profundo. No entanto, o RAH geralmente é realizado em um cenário fechado, onde todas as classes são conhecidas antecipadamente. Em cenários do mundo real, o ambiente tende a mudar e novas classes podem aparecer. Os modelos tradicionais de conjunto fechado são mal equipados para lidar com ambientes em evolução e exigem retreinamento com grandes quantidades de dados rotulados para reconhecer novas categorias. Este trabalho aborda o RAH a partir do cenário de Mundo Aberto Não Supervisionado. Neste caso, o modelo precisa diferenciar entre classes conhecidas e desconhecidas, rotular automaticamente as desconhecidas e aprendê-las de forma incremental usando o mínimo de tempo e recursos computacionais. Inicialmente, este trabalho aborda cada uma dessas tarefas separadamente e, por fim, como um framework combinado que realiza o RAH de forma não supervisionada em mundo aberto. Uma solução de aprendizado de métrica foi proposta para realizar o aprendizado de características, com um modelo denominado Rede Neural Convolucional 3D Inflada Tripla (TI3D). Além disso, um método que estima automaticamente o número de grupos em dados desconhecidos foi desenvolvido usando um algoritmo de agrupamento aglomerativo hierárquico. Para o Aprendizado Incremental (AI), este trabalho propôs o Dual-Memory Extreme Value Machine (DM-EVM). O DM-EVM pode executar AI usando representações dinâmicas de características. O modelo proposto foi avaliado em conjuntos de dados de vídeo disponíveis publicamente e apresentou desempenho superior a outros métodos do estado da arte. No geral, este trabalho oferece uma solução interessante para o problema descrito e contribuiu para o objetivo de desenvolver modelos capazes de operar em ambientes dinâmicos do mundo real.Universidade Tecnológica Federal do ParanáCuritibaBrasilPrograma de Pós-Graduação em Engenharia Elétrica e Informática IndustrialUTFPRLazzaretti, André Eugêniohttps://orcid.org/0000-0003-1861-3369http://lattes.cnpq.br/7649611874688878Lopes, Heitor Silvériohttps://orcid.org/0000-0003-3984-1432http://lattes.cnpq.br/4045818083957064Gomes, David Menottihttps://orcid.org/0000-0003-2430-2030http://lattes.cnpq.br/6692968437800167Lopes, Heitor Silvériohttps://orcid.org/0000-0003-3984-1432http://lattes.cnpq.br/4045818083957064Ribeiro, Manasséshttps://orcid.org/0000-0002-7526-5092http://lattes.cnpq.br/6475893755893056Minetto, Rodrigohttps://orcid.org/0000-0003-2277-4632http://lattes.cnpq.br/8366112479020867Schwartz, William Robsonhttps://orcid.org/0000-0003-1449-8834http://lattes.cnpq.br/0704592200063682Gutoski, Matheus2022-08-12T21:48:48Z2022-08-12T21:48:48Z2022-06-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfGUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/29245porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2022-08-13T06:06:35Zoai:repositorio.utfpr.edu.br:1/29245Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2022-08-13T06:06:35Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
Open-world human action recognition in videos: theoretical and methodological contributions
title Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
spellingShingle Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
Gutoski, Matheus
Visão por computador
Sistemas de reconhecimento de padrões
Aprendizado do computador
Vídeo digital - Classificação
Redes neurais (Computação)
Computer vision
Pattern recognition systems
Machine learning
Digital video - Classification
Neural networks (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
title_short Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
title_full Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
title_fullStr Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
title_full_unstemmed Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
title_sort Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
author Gutoski, Matheus
author_facet Gutoski, Matheus
author_role author
dc.contributor.none.fl_str_mv Lazzaretti, André Eugênio
https://orcid.org/0000-0003-1861-3369
http://lattes.cnpq.br/7649611874688878
Lopes, Heitor Silvério
https://orcid.org/0000-0003-3984-1432
http://lattes.cnpq.br/4045818083957064
Gomes, David Menotti
https://orcid.org/0000-0003-2430-2030
http://lattes.cnpq.br/6692968437800167
Lopes, Heitor Silvério
https://orcid.org/0000-0003-3984-1432
http://lattes.cnpq.br/4045818083957064
Ribeiro, Manassés
https://orcid.org/0000-0002-7526-5092
http://lattes.cnpq.br/6475893755893056
Minetto, Rodrigo
https://orcid.org/0000-0003-2277-4632
http://lattes.cnpq.br/8366112479020867
Schwartz, William Robson
https://orcid.org/0000-0003-1449-8834
http://lattes.cnpq.br/0704592200063682
dc.contributor.author.fl_str_mv Gutoski, Matheus
dc.subject.por.fl_str_mv Visão por computador
Sistemas de reconhecimento de padrões
Aprendizado do computador
Vídeo digital - Classificação
Redes neurais (Computação)
Computer vision
Pattern recognition systems
Machine learning
Digital video - Classification
Neural networks (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
topic Visão por computador
Sistemas de reconhecimento de padrões
Aprendizado do computador
Vídeo digital - Classificação
Redes neurais (Computação)
Computer vision
Pattern recognition systems
Machine learning
Digital video - Classification
Neural networks (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
description Human Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments.
publishDate 2022
dc.date.none.fl_str_mv 2022-08-12T21:48:48Z
2022-08-12T21:48:48Z
2022-06-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.
http://repositorio.utfpr.edu.br/jspui/handle/1/29245
identifier_str_mv GUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.
url http://repositorio.utfpr.edu.br/jspui/handle/1/29245
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498271604113408