Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda

Bento, Fabio Ricardo Oliveira; Vassallo, Raquel Frizera

Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Bento, Fabio Ricardo Oliveira
Outros Autores:	Vassallo, Raquel Frizera
Orientador(a):	Vassallo, Raquel Frizera
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Cidades inteligentes Visão computacional Aprendizagem profunda Detecção de anomalias
Link de acesso:	https://repositorio.ifes.edu.br/handle/123456789/3825
Resumo:	Esta tese aborda o problema de detecção de anomalias, que consiste em identificar eventos que não se conformam a um padrão de comportamento esperado. No contexto específico desta pesquisa, o objetivo é desenvolver um método para a detecção automática de eventos anômalos em vídeos, utilizando exclusivamente informações de sequências de frames. Essa abordagem é especialmente útil em situações em que dados auxiliares provenientes de algoritmos de detecção/rastreamento de objetos ou dados de pose humana não estão disponíveis ou não são confiáveis. A abordagem inicial adotada utiliza redes neurais convolucionais para extrair características espaciais dos dados. Em seguida, é empregado um classificador de séries temporais, composto por uma camada de convolução unidimensional e um conjunto de redes neurais recorrentes. A metodologia proposta seleciona uma arquitetura convolucional pré-treinada como extrator de características e emprega a técnica de transferência de aprendizagem para adaptar a rede ao problema em questão. Foram conduzidos experimentos com os conjuntos de dados UCSD Anomaly Detection e CUHK Avenue, e a avaliação foi baseada em métricas como a Area Under the Receiver Operating Characteristic Curve (AUC), a Area Under the Precision vs Recall Curve (AUPRC) e a Equal Error Rate (EER). Os resultados obtidos demonstraram uma AUC superior a 92% e uma EER inferior a 9%, os quais estão em conformidade com os resultados encontrados na literatura atual. Em seguida foi proposto um modelo que visa aprender as características globais e locais de cada frame em um vídeo de entrada. No nível do frame, empregou-se uma arquitetura baseada na FPN (Feature Pyramid Network) para extrair características globais. Por outro lado, no nível dos patches, adotou-se uma arquitetura fundamentada no ViT (Vision Transformer) para extrair características locais. Então, foi aplicado um classificador sequencial que combina redes Transformers e LSTM (Long Short-Term Memory) para gerar um escore de anomalia para cada frame. Isso é realizado com base em uma sequência de embeddings codificados por posição. Também, foi utilizada a função de perda Class-Balanced Focal Loss (CBFL) para lidar com o desequilíbrio entre as classes normal e anômala. Foram conduzidos experimentos no conjunto de dados UBnormal, avaliando a métrica AUC no nível de frame, tanto em sua versão micro quanto macro. Além disso, foram analisados os escores de anomalia ao longo do tempo no nível de frame, bem como os gráficos t-SNE. Por fim, o resultado da avaliação pelas métricas AUC micro-média e AUC macro-média demonstrou proximidade com o estado da arte.

Metadados do item

id	IFES-2_a806c3e48e4d0159c9f42d313fd56619
oai_identifier_str	oai:repositorio.ifes.edu.br:123456789/3825
network_acronym_str	IFES-2
network_name_str	Repositório Institucional do IFES
repository_id_str
spelling	Bento, Fabio Ricardo OliveiraVassallo, Raquel FrizeraUniversidade Federal do Espírito Santo (Ufes)Ciarelli, Patrick MarquesLopez, Plinio MorenoFilho, Jugurta Rosa MontalvãoFernandes, Mariana RampinelliVassallo, Raquel Frizera2023-11-23T13:59:59Z2023-11-23T13:59:59Z2023-10-20Bento, Fabio Ricardo Oliveira Bento. Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda. 2023. 111 f. Tese (Doutorado em Engenharia Elétrica) - Universidade Federal do Espírito Santo, Vitória,2023.https://repositorio.ifes.edu.br/handle/123456789/382530001013004D1Esta tese aborda o problema de detecção de anomalias, que consiste em identificar eventos que não se conformam a um padrão de comportamento esperado. No contexto específico desta pesquisa, o objetivo é desenvolver um método para a detecção automática de eventos anômalos em vídeos, utilizando exclusivamente informações de sequências de frames. Essa abordagem é especialmente útil em situações em que dados auxiliares provenientes de algoritmos de detecção/rastreamento de objetos ou dados de pose humana não estão disponíveis ou não são confiáveis. A abordagem inicial adotada utiliza redes neurais convolucionais para extrair características espaciais dos dados. Em seguida, é empregado um classificador de séries temporais, composto por uma camada de convolução unidimensional e um conjunto de redes neurais recorrentes. A metodologia proposta seleciona uma arquitetura convolucional pré-treinada como extrator de características e emprega a técnica de transferência de aprendizagem para adaptar a rede ao problema em questão. Foram conduzidos experimentos com os conjuntos de dados UCSD Anomaly Detection e CUHK Avenue, e a avaliação foi baseada em métricas como a Area Under the Receiver Operating Characteristic Curve (AUC), a Area Under the Precision vs Recall Curve (AUPRC) e a Equal Error Rate (EER). Os resultados obtidos demonstraram uma AUC superior a 92% e uma EER inferior a 9%, os quais estão em conformidade com os resultados encontrados na literatura atual. Em seguida foi proposto um modelo que visa aprender as características globais e locais de cada frame em um vídeo de entrada. No nível do frame, empregou-se uma arquitetura baseada na FPN (Feature Pyramid Network) para extrair características globais. Por outro lado, no nível dos patches, adotou-se uma arquitetura fundamentada no ViT (Vision Transformer) para extrair características locais. Então, foi aplicado um classificador sequencial que combina redes Transformers e LSTM (Long Short-Term Memory) para gerar um escore de anomalia para cada frame. Isso é realizado com base em uma sequência de embeddings codificados por posição. Também, foi utilizada a função de perda Class-Balanced Focal Loss (CBFL) para lidar com o desequilíbrio entre as classes normal e anômala. Foram conduzidos experimentos no conjunto de dados UBnormal, avaliando a métrica AUC no nível de frame, tanto em sua versão micro quanto macro. Além disso, foram analisados os escores de anomalia ao longo do tempo no nível de frame, bem como os gráficos t-SNE. Por fim, o resultado da avaliação pelas métricas AUC micro-média e AUC macro-média demonstrou proximidade com o estado da arte.The anomaly detection problem involves identifying events that do not follow an expected pattern of behavior. This paper addresses the of automatically detecting abnormal activity in videos using only information from frames. This is especially useful when auxiliary data from object detection, tracking, or human pose are unavailable or unreliable. The initial approach adopts convolutional neural networks to extract spatial features, followed by a time series classifier composed of a one-dimensional convolution layer and a set of tacked recurrent neural networks. The proposed methodology selects a pre-trained onvolutional architecture as a feature extractor and uses transfer learning to specialize another network with the same architecture for detecting anomalies in surveillance videos. Experiments were conducted on the UCSD Anomaly Detection and CUHK Avenue datasets to compare the proposed approach with other studies. The evaluation protocol uses the metrics Area Under the Receiver Operating Characteristic Curve (AUC), Area Under the Precision vs Recall Curve (AUPRC) and Equal Error Rate (EER). During the experiments, the model achieved an AUC greater than 92% and an EER less than 9%, results consistent with the current literature. We next proposed a model that learns the global and local features of video frames. At the frame level, we used an FPN (Feature Pyramid Network)-based architecture to extract global features. At the patches level, we use a ViT (Vision Transformer) based architecture to extract local features. We then employ a sequential classifier that combines Transformers and LSTM (Long Short-Term Memory) networks to generate an anomaly score for each frame, based on a sequence of position-encoded embeddings. During model training, we use the Class-Balanced Focal Loss (CBFL) loss function to handle imbalance between classes. This function assigns more significant weights to classes with fewer samples, ensuring a balanced contribution of each class to the overall loss. CBFL improves model performance in unbalanced classification tasks, especially when dealing with underrepresented classes, such as the abnormal class in the context of video anomaly detection. We perform experiments on the UBnormal dataset to evaluate our approach and compare our results with existing work. In addition, we analyzed anomaly scores at the frame level over time and t-SNE plots for further insights. Our results, evaluated by the micro-average AUC and macro-average AUC metrics, are consistent with the current state of the art.Campus Guarapari111 f.Cidades inteligentesVisão computacionalAprendizagem profundaDetecção de anomaliasDetecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profundainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisPrograma de Pós-Graduação em Engenharia Elétricainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFEShttps://lattes.cnpq.br/25510997292664250000-0002-0664-4363ORIGINALTESE_Detecção_de_Anomalias_em_Videos.pdfTESE_Detecção_de_Anomalias_em_Videos.pdfTese de doutoradoapplication/pdf13975866https://repositorio.ifes.edu.br/bitstreams/1672b997-a4b8-457b-87ef-f0ee31664020/download153a13c651cd98cb1bb5bf2509727c46MD51trueAnonymousREADTermo_Autorizacao.pdfTermo_Autorizacao.pdfTermo de autorização para disponibilizaçãoapplication/pdf116558https://repositorio.ifes.edu.br/bitstreams/b1d4dfd2-49bc-495e-908d-85bf048663f1/downloadff14802c35e3446788b481d92936aa2fMD52falseLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/06dee3e8-597e-4ef1-af2e-580f5a5d8cec/downloadac7cb971050ed632be934da23d966924MD53falseAnonymousREADTEXTTESE_Detecção_de_Anomalias_em_Videos.pdf.txtTESE_Detecção_de_Anomalias_em_Videos.pdf.txtExtracted texttext/plain209617https://repositorio.ifes.edu.br/bitstreams/5acd7b6c-8f48-4b17-9d5c-8fe15ca7d200/downloadff0634f6b5616ef2bfcf3ebc44afaf05MD54falseAnonymousREADTermo_Autorizacao.pdf.txtTermo_Autorizacao.pdf.txtExtracted texttext/plain3724https://repositorio.ifes.edu.br/bitstreams/d917ccf3-b79d-47ed-bed7-780e9aed3c3a/download1db77c561f35f999827155dd796f0093MD56falseTHUMBNAILTESE_Detecção_de_Anomalias_em_Videos.pdf.jpgTESE_Detecção_de_Anomalias_em_Videos.pdf.jpgGenerated Thumbnailimage/jpeg3038https://repositorio.ifes.edu.br/bitstreams/b701fc15-2d87-4ee4-9f27-aa4c78081504/download5cc70ffb38a8b8796b36bb98beeb7d76MD55falseAnonymousREADTermo_Autorizacao.pdf.jpgTermo_Autorizacao.pdf.jpgGenerated Thumbnailimage/jpeg4869https://repositorio.ifes.edu.br/bitstreams/d39f6fc8-6084-46f7-a4a3-bfd6a256c27b/download3d4aecf09fe175d478998e01cbbedf4eMD57false123456789/38252025-07-29T19:08:37.651Zopen.accessoai:repositorio.ifes.edu.br:123456789/3825https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-07-29T19:08:37Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
spellingShingle	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda Bento, Fabio Ricardo Oliveira Cidades inteligentes Visão computacional Aprendizagem profunda Detecção de anomalias
title_short	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_full	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_fullStr	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_full_unstemmed	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
title_sort	Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda
author	Bento, Fabio Ricardo Oliveira
author_facet	Bento, Fabio Ricardo Oliveira Vassallo, Raquel Frizera
author_role	author
author2	Vassallo, Raquel Frizera
author2_role	author
dc.contributor.institution.pt_BR.fl_str_mv	Universidade Federal do Espírito Santo (Ufes)
dc.contributor.member.none.fl_str_mv	Ciarelli, Patrick Marques Lopez, Plinio Moreno Filho, Jugurta Rosa Montalvão Fernandes, Mariana Rampinelli
dc.contributor.author.fl_str_mv	Bento, Fabio Ricardo Oliveira Vassallo, Raquel Frizera
dc.contributor.advisor1.fl_str_mv	Vassallo, Raquel Frizera
contributor_str_mv	Vassallo, Raquel Frizera
dc.subject.por.fl_str_mv	Cidades inteligentes Visão computacional Aprendizagem profunda Detecção de anomalias
topic	Cidades inteligentes Visão computacional Aprendizagem profunda Detecção de anomalias
description	Esta tese aborda o problema de detecção de anomalias, que consiste em identificar eventos que não se conformam a um padrão de comportamento esperado. No contexto específico desta pesquisa, o objetivo é desenvolver um método para a detecção automática de eventos anômalos em vídeos, utilizando exclusivamente informações de sequências de frames. Essa abordagem é especialmente útil em situações em que dados auxiliares provenientes de algoritmos de detecção/rastreamento de objetos ou dados de pose humana não estão disponíveis ou não são confiáveis. A abordagem inicial adotada utiliza redes neurais convolucionais para extrair características espaciais dos dados. Em seguida, é empregado um classificador de séries temporais, composto por uma camada de convolução unidimensional e um conjunto de redes neurais recorrentes. A metodologia proposta seleciona uma arquitetura convolucional pré-treinada como extrator de características e emprega a técnica de transferência de aprendizagem para adaptar a rede ao problema em questão. Foram conduzidos experimentos com os conjuntos de dados UCSD Anomaly Detection e CUHK Avenue, e a avaliação foi baseada em métricas como a Area Under the Receiver Operating Characteristic Curve (AUC), a Area Under the Precision vs Recall Curve (AUPRC) e a Equal Error Rate (EER). Os resultados obtidos demonstraram uma AUC superior a 92% e uma EER inferior a 9%, os quais estão em conformidade com os resultados encontrados na literatura atual. Em seguida foi proposto um modelo que visa aprender as características globais e locais de cada frame em um vídeo de entrada. No nível do frame, empregou-se uma arquitetura baseada na FPN (Feature Pyramid Network) para extrair características globais. Por outro lado, no nível dos patches, adotou-se uma arquitetura fundamentada no ViT (Vision Transformer) para extrair características locais. Então, foi aplicado um classificador sequencial que combina redes Transformers e LSTM (Long Short-Term Memory) para gerar um escore de anomalia para cada frame. Isso é realizado com base em uma sequência de embeddings codificados por posição. Também, foi utilizada a função de perda Class-Balanced Focal Loss (CBFL) para lidar com o desequilíbrio entre as classes normal e anômala. Foram conduzidos experimentos no conjunto de dados UBnormal, avaliando a métrica AUC no nível de frame, tanto em sua versão micro quanto macro. Além disso, foram analisados os escores de anomalia ao longo do tempo no nível de frame, bem como os gráficos t-SNE. Por fim, o resultado da avaliação pelas métricas AUC micro-média e AUC macro-média demonstrou proximidade com o estado da arte.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-11-23T13:59:59Z
dc.date.available.fl_str_mv	2023-11-23T13:59:59Z
dc.date.issued.fl_str_mv	2023-10-20
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	Bento, Fabio Ricardo Oliveira Bento. Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda. 2023. 111 f. Tese (Doutorado em Engenharia Elétrica) - Universidade Federal do Espírito Santo, Vitória,2023.
dc.identifier.uri.fl_str_mv	https://repositorio.ifes.edu.br/handle/123456789/3825
dc.identifier.capes.pt_BR.fl_str_mv	30001013004D1
identifier_str_mv	Bento, Fabio Ricardo Oliveira Bento. Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda. 2023. 111 f. Tese (Doutorado em Engenharia Elétrica) - Universidade Federal do Espírito Santo, Vitória,2023. 30001013004D1
url	https://repositorio.ifes.edu.br/handle/123456789/3825
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	111 f.
dc.source.none.fl_str_mv	reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES
instname_str	Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str	IFES
institution	IFES
reponame_str	Repositório Institucional do IFES
collection	Repositório Institucional do IFES
bitstream.url.fl_str_mv	https://repositorio.ifes.edu.br/bitstreams/1672b997-a4b8-457b-87ef-f0ee31664020/download https://repositorio.ifes.edu.br/bitstreams/b1d4dfd2-49bc-495e-908d-85bf048663f1/download https://repositorio.ifes.edu.br/bitstreams/06dee3e8-597e-4ef1-af2e-580f5a5d8cec/download https://repositorio.ifes.edu.br/bitstreams/5acd7b6c-8f48-4b17-9d5c-8fe15ca7d200/download https://repositorio.ifes.edu.br/bitstreams/d917ccf3-b79d-47ed-bed7-780e9aed3c3a/download https://repositorio.ifes.edu.br/bitstreams/b701fc15-2d87-4ee4-9f27-aa4c78081504/download https://repositorio.ifes.edu.br/bitstreams/d39f6fc8-6084-46f7-a4a3-bfd6a256c27b/download
bitstream.checksum.fl_str_mv	153a13c651cd98cb1bb5bf2509727c46 ff14802c35e3446788b481d92936aa2f ac7cb971050ed632be934da23d966924 ff0634f6b5616ef2bfcf3ebc44afaf05 1db77c561f35f999827155dd796f0093 5cc70ffb38a8b8796b36bb98beeb7d76 3d4aecf09fe175d478998e01cbbedf4e
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv	repositorio@ifes.edu.br
_version_	1865654653548494848

Detecção de anomalias em vídeos com classificador sequencial de dados composto apenas por camadas de rede neural profunda

Registros relacionados