Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition

Tacon, Hemerson Aparecido da Costa

Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition

Detalhes bibliográficos
Ano de defesa:	2019
Autor(a) principal:	Tacon, Hemerson Aparecido da Costa
Orientador(a):	Vieira, Marcelo Bernardes
Banca de defesa:	Villela, Saulo Moraes , Pedrini, Hélio
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação:	Programa de Pós-graduação em Ciência da Computação
Departamento:	ICE – Instituto de Ciências Exatas
País:	Brasil
Palavras-chave em Português:	Aprendizagem profunda Reconhecimento de ações humanas Aumento de dados Ritmo visual Análise de vídeos Deep learning Human action recognition Data augmentation Visual rhythm Video analysis
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	https://repositorio.ufjf.br/jspui/handle/ufjf/10307
Resumo:	Nos últimos anos, avanços significativos foram alcançados no problema de classificação de imagens devido ao aprimoramentos dos modelos de Aprendizagem Profunda. Entretanto, no que diz respeito ao Reconhecimento de Ações Humanas, ainda existe muito espaço para melhorias. Uma forma de melhorar o desempenho de tais modelos é através do aumento de dados. Dessa forma propomos, como aumento de dados, o uso de múltiplos recortes do Ritmo Visual, simetricamente estendidos no tempo e separados por uma distância fixa. Propomos ainda utilizar uma nova forma de extração do Ritmo Visual, o Ritmo Visual Ponderado. Este método propõe reforçar os padrões de movimento pesando os aspectos mais próximos de uma posição específica no vídeo na qual julgamos que a ação tenha maior probabilidade de ocorrer. O método final consiste na replicação do Ritmo Visual Ponderado concatenando quantas cópias forem necessárias ao longo da dimensão temporal, tendo as cópias pares invertidas horizontalmente. Esse método torna possível a extração de recortes que correspondam ao tamanho de entrada fixo da Rede Neural Convolucional utilizada, bem como a preservação da taxa de amostragem do vídeo, o que é crucial para não distorcer a velocidade das ações. Não obstante, os vários recortes garantem que toda extensão espacial e temporal do Ritmo Visual seja contemplada. Com o objetivo de avaliar nosso método, empregamos uma estratégia multi-fluxo. Essa estratégia consiste na combinação de informações extraídas a partir dos frames RGB dos vídeos, do Fluxo Ótico, e dos Ritmos Visuais Simetricamente Estendidos horizontal e vertical. Nosso método resultou em taxas de acurácia próximas ao estado da arte nos conjuntos de dados UCF101 e HMDB51.

Metadados do item

id	UFJF_5a9b154a1579010ddbc8dd933d6d8934
oai_identifier_str	oai:hermes.cpd.ufjf.br:ufjf/10307
network_acronym_str	UFJF
network_name_str	Repositório Institucional da UFJF
repository_id_str
spelling	Vieira, Marcelo Bernardeshttp://lattes.cnpq.br/0858482819476716Villela, Saulo Moraeshttp://lattes.cnpq.br/3358075178615535Pedrini, Héliohttp://lattes.cnpq.br/9600140904712115http://lattes.cnpq.br/3214995498870414Tacon, Hemerson Aparecido da Costa2019-07-19T13:35:35Z2019-07-162019-07-19T13:35:35Z2019-06-11https://repositorio.ufjf.br/jspui/handle/ufjf/10307Nos últimos anos, avanços significativos foram alcançados no problema de classificação de imagens devido ao aprimoramentos dos modelos de Aprendizagem Profunda. Entretanto, no que diz respeito ao Reconhecimento de Ações Humanas, ainda existe muito espaço para melhorias. Uma forma de melhorar o desempenho de tais modelos é através do aumento de dados. Dessa forma propomos, como aumento de dados, o uso de múltiplos recortes do Ritmo Visual, simetricamente estendidos no tempo e separados por uma distância fixa. Propomos ainda utilizar uma nova forma de extração do Ritmo Visual, o Ritmo Visual Ponderado. Este método propõe reforçar os padrões de movimento pesando os aspectos mais próximos de uma posição específica no vídeo na qual julgamos que a ação tenha maior probabilidade de ocorrer. O método final consiste na replicação do Ritmo Visual Ponderado concatenando quantas cópias forem necessárias ao longo da dimensão temporal, tendo as cópias pares invertidas horizontalmente. Esse método torna possível a extração de recortes que correspondam ao tamanho de entrada fixo da Rede Neural Convolucional utilizada, bem como a preservação da taxa de amostragem do vídeo, o que é crucial para não distorcer a velocidade das ações. Não obstante, os vários recortes garantem que toda extensão espacial e temporal do Ritmo Visual seja contemplada. Com o objetivo de avaliar nosso método, empregamos uma estratégia multi-fluxo. Essa estratégia consiste na combinação de informações extraídas a partir dos frames RGB dos vídeos, do Fluxo Ótico, e dos Ritmos Visuais Simetricamente Estendidos horizontal e vertical. Nosso método resultou em taxas de acurácia próximas ao estado da arte nos conjuntos de dados UCF101 e HMDB51.Despite the significant progress of Deep Learning models on the image classification task, they still need enhancement for efficient Human Action Recognition. Such gain could be achieved through the augmentation of the existing datasets. With this goal, we propose the usage of multiple Visual Rhythm crops, symmetrically extended in time and separated by a fixed stride. The premise to augment the temporal dimension of the Visual Rhythms is that the direction of video execution does not discriminate several actions. Besides that, we propose to use the Weighted Visual Rhythm: its extraction method attempts to reinforce motion patterns by weighing the closest aspects of a specific video position in which the action typically occurs. Therefore, we replicate the Weighted Visual Rhythm by concatenating, along the temporal dimension, as many as necessary copies of it, having the even copies horizontally flipped. While providing the possibility of extracting crops matching the fixed input size of the Convolutional Neural Network employed, the symmetric extension preserves the video frame rate, which is crucial to not distort actions. In addition, multiple crops with stride ensure the coverage of the entire video. Therefore, the main contributions of this work are a new form of extracting the Visual Rhythm and a new method for performing the data augmentation of video samples. Aiming to evaluate our method, a multi-stream strategy combining RGB and Optical Flow information is modified to include two additional spatiotemporal streams: one operating on the horizontal Symmetrically Extended Visual Rhythm, and another operating on the vertical Symmetrically Extended Visual Rhythm. Accuracy rates close to the state of the art were obtained from the experiments with our method on the challenging UCF101 and HMDB51 datasets.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorengUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasAttribution-ShareAlike 3.0 Brazilhttp://creativecommons.org/licenses/by-sa/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAprendizagem profundaReconhecimento de ações humanasAumento de dadosRitmo visualAnálise de vídeosDeep learningHuman action recognitionData augmentationVisual rhythmVideo analysisData augmentation of visual rhythms using symmetric extension for deep learning video based human action recognitioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFORIGINALhemersonaparecidodacostatacon.pdfhemersonaparecidodacostatacon.pdfapplication/pdf5192895https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/1/hemersonaparecidodacostatacon.pdfd3aa89b5b79657ad5c9e87496df1a94aMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/2/license_rdf9b85e4235558a2887c2be3998124b615MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXThemersonaparecidodacostatacon.pdf.txthemersonaparecidodacostatacon.pdf.txtExtracted texttext/plain163291https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/4/hemersonaparecidodacostatacon.pdf.txt6069eaebe5d301ac035622577d07243eMD54THUMBNAILhemersonaparecidodacostatacon.pdf.jpghemersonaparecidodacostatacon.pdf.jpgGenerated Thumbnailimage/jpeg1274https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/5/hemersonaparecidodacostatacon.pdf.jpgb93d125ff52e296e92ccdb53aec2484bMD55ufjf/103072019-07-20 03:06:34.282oai:hermes.cpd.ufjf.br:ufjf/10307Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2019-07-20T06:06:34Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition
title	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition
spellingShingle	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition Tacon, Hemerson Aparecido da Costa CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Aprendizagem profunda Reconhecimento de ações humanas Aumento de dados Ritmo visual Análise de vídeos Deep learning Human action recognition Data augmentation Visual rhythm Video analysis
title_short	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition
title_full	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition
title_fullStr	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition
title_full_unstemmed	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition
title_sort	Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition
author	Tacon, Hemerson Aparecido da Costa
author_facet	Tacon, Hemerson Aparecido da Costa
author_role	author
dc.contributor.advisor1.fl_str_mv	Vieira, Marcelo Bernardes
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/0858482819476716
dc.contributor.referee1.fl_str_mv	Villela, Saulo Moraes
dc.contributor.referee1Lattes.fl_str_mv	http://lattes.cnpq.br/3358075178615535
dc.contributor.referee2.fl_str_mv	Pedrini, Hélio
dc.contributor.referee2Lattes.fl_str_mv	http://lattes.cnpq.br/9600140904712115
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/3214995498870414
dc.contributor.author.fl_str_mv	Tacon, Hemerson Aparecido da Costa
contributor_str_mv	Vieira, Marcelo Bernardes Villela, Saulo Moraes Pedrini, Hélio
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Aprendizagem profunda Reconhecimento de ações humanas Aumento de dados Ritmo visual Análise de vídeos Deep learning Human action recognition Data augmentation Visual rhythm Video analysis
dc.subject.por.fl_str_mv	Aprendizagem profunda Reconhecimento de ações humanas Aumento de dados Ritmo visual Análise de vídeos Deep learning Human action recognition Data augmentation Visual rhythm Video analysis
description	Nos últimos anos, avanços significativos foram alcançados no problema de classificação de imagens devido ao aprimoramentos dos modelos de Aprendizagem Profunda. Entretanto, no que diz respeito ao Reconhecimento de Ações Humanas, ainda existe muito espaço para melhorias. Uma forma de melhorar o desempenho de tais modelos é através do aumento de dados. Dessa forma propomos, como aumento de dados, o uso de múltiplos recortes do Ritmo Visual, simetricamente estendidos no tempo e separados por uma distância fixa. Propomos ainda utilizar uma nova forma de extração do Ritmo Visual, o Ritmo Visual Ponderado. Este método propõe reforçar os padrões de movimento pesando os aspectos mais próximos de uma posição específica no vídeo na qual julgamos que a ação tenha maior probabilidade de ocorrer. O método final consiste na replicação do Ritmo Visual Ponderado concatenando quantas cópias forem necessárias ao longo da dimensão temporal, tendo as cópias pares invertidas horizontalmente. Esse método torna possível a extração de recortes que correspondam ao tamanho de entrada fixo da Rede Neural Convolucional utilizada, bem como a preservação da taxa de amostragem do vídeo, o que é crucial para não distorcer a velocidade das ações. Não obstante, os vários recortes garantem que toda extensão espacial e temporal do Ritmo Visual seja contemplada. Com o objetivo de avaliar nosso método, empregamos uma estratégia multi-fluxo. Essa estratégia consiste na combinação de informações extraídas a partir dos frames RGB dos vídeos, do Fluxo Ótico, e dos Ritmos Visuais Simetricamente Estendidos horizontal e vertical. Nosso método resultou em taxas de acurácia próximas ao estado da arte nos conjuntos de dados UCF101 e HMDB51.
publishDate	2019
dc.date.accessioned.fl_str_mv	2019-07-19T13:35:35Z
dc.date.available.fl_str_mv	2019-07-16 2019-07-19T13:35:35Z
dc.date.issued.fl_str_mv	2019-06-11
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufjf.br/jspui/handle/ufjf/10307
url	https://repositorio.ufjf.br/jspui/handle/ufjf/10307
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	Attribution-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-sa/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-sa/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv	Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	UFJF
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFJF instname:Universidade Federal de Juiz de Fora (UFJF) instacron:UFJF
instname_str	Universidade Federal de Juiz de Fora (UFJF)
instacron_str	UFJF
institution	UFJF
reponame_str	Repositório Institucional da UFJF
collection	Repositório Institucional da UFJF
bitstream.url.fl_str_mv	https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/1/hemersonaparecidodacostatacon.pdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/2/license_rdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/3/license.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/4/hemersonaparecidodacostatacon.pdf.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/10307/5/hemersonaparecidodacostatacon.pdf.jpg
bitstream.checksum.fl_str_mv	d3aa89b5b79657ad5c9e87496df1a94a 9b85e4235558a2887c2be3998124b615 8a4605be74aa9ea9d79846c1fba20a33 6069eaebe5d301ac035622577d07243e b93d125ff52e296e92ccdb53aec2484b
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_	1801661569604517888

Data augmentation of visual rhythms using symmetric extension for deep learning video based human action recognition

Registros relacionados