Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Belluzzo, Bruno [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/242339
Resumo: Com o aumento da capacidade das tecnologias atuais de armazenamento e processamento de grandes volumes de dados em uma velocidade cada vez maior, a análise e o reconhecimento de padrões em vídeos passaram a ser pesquisadas e empregadas nas mais diversas aplicações, dentre as quais o reconhecimento automático de ações humanas, que visa identificar em um determinado vídeo as ações sendo executadas pelas pessoas presentes, seja para fins recreativos ou para o monitoramento e a segurança em locais públicos ou até mesmo privados. Detectar pessoas nos vídeos e reconhecer as ações sendo realizadas por elas é uma tarefa complexa, pois exige a extração de caracteríticas que representam um padrão de movimentos realizados pela pessoa tanto no aspecto espacial, quanto no aspecto temporal, ao longo dos diversos \textit{frames} do vídeo. Uma maneira de obter informações que descrevam o movimento do corpo humano em vídeos é identificar as articulações do esqueleto humano nos diversos \textit{frames}, o que pode ser realizado utilizando-se algoritmos de estimação de pose 2D em imagens. Atualmente, existem algoritmos bastante eficazes e eficientes disponíveis, capazes de detectar as articulações do corpo humano e retornarem suas coordenadas nas imagens. Aliado a isso, tem se observado nos últimos anos uma grande evolução dos métodos e algoritmos de aprendizado de máquina, destinados ao reconhecimento de padrões complexos, inspirados em modelos biológicos, com ênfase nos métodos baseados em aprendizado de máquina profundo e recorrente. Esta dissertação de mestrado tem como objetivo propor um método de reconhecimento de ações humanas em vídeo baseado nas articulações dos esqueletos obtidas de poses 2D estimadas por meio de algoritmos estado da arte, utilizando redes neurais recorrentes convolucionais para propiciar mais robustez ao processo. O método proposto foi avaliado utilizando-se duas bases de dados públicas e populares de vídeos de ações humanas, a KTH e a Weizmann. Os resultados obtidos foram superiores aos resultados obtidos por vários métodos encontrados na literatura e comparáveis à métodos estado-da-arte, com a vantagem de apresentar uma estratégia simples para a extração de características a partir das articulações dos esqueletos obtidas das poses 2D.
id UNSP_218332cefe37b6544c034c68f01a1ce5
oai_identifier_str oai:repositorio.unesp.br:11449/242339
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2DHuman action recognition based on skeletal joints obtained from 2D posesReconhecimento de ações humanasPoses 2DAprendizado em profundidadeRedes neurais recorrentesHuman action recognition2D PosesDeep learningRecurrent neural networksCom o aumento da capacidade das tecnologias atuais de armazenamento e processamento de grandes volumes de dados em uma velocidade cada vez maior, a análise e o reconhecimento de padrões em vídeos passaram a ser pesquisadas e empregadas nas mais diversas aplicações, dentre as quais o reconhecimento automático de ações humanas, que visa identificar em um determinado vídeo as ações sendo executadas pelas pessoas presentes, seja para fins recreativos ou para o monitoramento e a segurança em locais públicos ou até mesmo privados. Detectar pessoas nos vídeos e reconhecer as ações sendo realizadas por elas é uma tarefa complexa, pois exige a extração de caracteríticas que representam um padrão de movimentos realizados pela pessoa tanto no aspecto espacial, quanto no aspecto temporal, ao longo dos diversos \textit{frames} do vídeo. Uma maneira de obter informações que descrevam o movimento do corpo humano em vídeos é identificar as articulações do esqueleto humano nos diversos \textit{frames}, o que pode ser realizado utilizando-se algoritmos de estimação de pose 2D em imagens. Atualmente, existem algoritmos bastante eficazes e eficientes disponíveis, capazes de detectar as articulações do corpo humano e retornarem suas coordenadas nas imagens. Aliado a isso, tem se observado nos últimos anos uma grande evolução dos métodos e algoritmos de aprendizado de máquina, destinados ao reconhecimento de padrões complexos, inspirados em modelos biológicos, com ênfase nos métodos baseados em aprendizado de máquina profundo e recorrente. Esta dissertação de mestrado tem como objetivo propor um método de reconhecimento de ações humanas em vídeo baseado nas articulações dos esqueletos obtidas de poses 2D estimadas por meio de algoritmos estado da arte, utilizando redes neurais recorrentes convolucionais para propiciar mais robustez ao processo. O método proposto foi avaliado utilizando-se duas bases de dados públicas e populares de vídeos de ações humanas, a KTH e a Weizmann. Os resultados obtidos foram superiores aos resultados obtidos por vários métodos encontrados na literatura e comparáveis à métodos estado-da-arte, com a vantagem de apresentar uma estratégia simples para a extração de características a partir das articulações dos esqueletos obtidas das poses 2D.With the increase in the capacity of current technologies for storing and processing large volumes of data at an ever-increasing speed, the analysis and recognition of patterns in videos began to be researched and used in the most diverse applications, among which automatic recognition of human actions, which aims to identify in a given video the actions being performed by the people present, whether for recreational purposes or for monitoring and security in public or even private places. Detecting people in the videos and recognizing their actions is a complex task, as it requires the extraction of features that represent a pattern of movements performed by the person both in the spatial and temporal aspects, along the different frames of the video. One way to obtain information describing the movement of the human body in videos is to identify the joints of the human skeleton in the different frames, which can be done using 2D pose estimation algorithms in images. Currently, there are very effective and efficient algorithms available, capable of detecting the joints of the human body and returning their coordinates in the images. Allied with this, there has been a great evolution in machine learning methods and algorithms in recent years, aimed at recognizing complex patterns, inspired by biological models, with emphasis on methods based on deep and recurrent machine learning. This master's thesis aimed to propose a method for recognizing human actions in video based on skeletal joints obtained from 2D poses estimated using state-of-the-art algorithms, using deep machine learning methods and recurrent neural networks to provide more robustness to the process. The proposed method was evaluated using two public and popular databases of videos of human actions, KTH and Weizmann. The results obtained were superior to several methods found in the literature and comparable to state-of-the-art methods, with the advantage of presenting a simple strategy for extracting features from skeletal joints obtained from 2D poses.Universidade Estadual Paulista (Unesp)Marana, Aparecido Nilceu [UNESP]Universidade Estadual Paulista (Unesp)Belluzzo, Bruno [UNESP]2023-03-07T10:58:56Z2023-03-07T10:58:56Z2023-02-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/24233933004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-06-24T05:27:54Zoai:repositorio.unesp.br:11449/242339Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-06-24T05:27:54Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
Human action recognition based on skeletal joints obtained from 2D poses
title Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
spellingShingle Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
Belluzzo, Bruno [UNESP]
Reconhecimento de ações humanas
Poses 2D
Aprendizado em profundidade
Redes neurais recorrentes
Human action recognition
2D Poses
Deep learning
Recurrent neural networks
title_short Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
title_full Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
title_fullStr Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
title_full_unstemmed Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
title_sort Reconhecimento de ações humanas baseado em articulações do esqueleto obtidas de poses 2D
author Belluzzo, Bruno [UNESP]
author_facet Belluzzo, Bruno [UNESP]
author_role author
dc.contributor.none.fl_str_mv Marana, Aparecido Nilceu [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Belluzzo, Bruno [UNESP]
dc.subject.por.fl_str_mv Reconhecimento de ações humanas
Poses 2D
Aprendizado em profundidade
Redes neurais recorrentes
Human action recognition
2D Poses
Deep learning
Recurrent neural networks
topic Reconhecimento de ações humanas
Poses 2D
Aprendizado em profundidade
Redes neurais recorrentes
Human action recognition
2D Poses
Deep learning
Recurrent neural networks
description Com o aumento da capacidade das tecnologias atuais de armazenamento e processamento de grandes volumes de dados em uma velocidade cada vez maior, a análise e o reconhecimento de padrões em vídeos passaram a ser pesquisadas e empregadas nas mais diversas aplicações, dentre as quais o reconhecimento automático de ações humanas, que visa identificar em um determinado vídeo as ações sendo executadas pelas pessoas presentes, seja para fins recreativos ou para o monitoramento e a segurança em locais públicos ou até mesmo privados. Detectar pessoas nos vídeos e reconhecer as ações sendo realizadas por elas é uma tarefa complexa, pois exige a extração de caracteríticas que representam um padrão de movimentos realizados pela pessoa tanto no aspecto espacial, quanto no aspecto temporal, ao longo dos diversos \textit{frames} do vídeo. Uma maneira de obter informações que descrevam o movimento do corpo humano em vídeos é identificar as articulações do esqueleto humano nos diversos \textit{frames}, o que pode ser realizado utilizando-se algoritmos de estimação de pose 2D em imagens. Atualmente, existem algoritmos bastante eficazes e eficientes disponíveis, capazes de detectar as articulações do corpo humano e retornarem suas coordenadas nas imagens. Aliado a isso, tem se observado nos últimos anos uma grande evolução dos métodos e algoritmos de aprendizado de máquina, destinados ao reconhecimento de padrões complexos, inspirados em modelos biológicos, com ênfase nos métodos baseados em aprendizado de máquina profundo e recorrente. Esta dissertação de mestrado tem como objetivo propor um método de reconhecimento de ações humanas em vídeo baseado nas articulações dos esqueletos obtidas de poses 2D estimadas por meio de algoritmos estado da arte, utilizando redes neurais recorrentes convolucionais para propiciar mais robustez ao processo. O método proposto foi avaliado utilizando-se duas bases de dados públicas e populares de vídeos de ações humanas, a KTH e a Weizmann. Os resultados obtidos foram superiores aos resultados obtidos por vários métodos encontrados na literatura e comparáveis à métodos estado-da-arte, com a vantagem de apresentar uma estratégia simples para a extração de características a partir das articulações dos esqueletos obtidas das poses 2D.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-07T10:58:56Z
2023-03-07T10:58:56Z
2023-02-03
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/242339
33004153073P2
url http://hdl.handle.net/11449/242339
identifier_str_mv 33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954640498491392