Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/11449/313373 |
Resumo: | A chegada dos deepfakes transformou profundamente o cenário da mídia digital, oferecendo tanto oportunidades quanto desafios significativos. Essas mídias, geradas por técnicas avançadas de aprendizado profundo, são imagens, áudios e vídeos altamente realistas que podem comprometer a confiança em conteúdos digitais. Seu uso malicioso abrange desde manipulação política e desinformação até extorsão, roubo de identidade e violações de propriedade intelectual. Abordagens da comunidade científica para detecção de deepfakes de imagem têm sido baseadas principalmente em Redes Neurais Convolucionais (CNNs) e Transformadores, no entanto, existem limitações relacionadas ao alto custo computacional, especialmente quando se trata do processamento de grandes volumes de dados. Neste contexto, este trabalho introduz e avalia o uso do MambaVision, uma arquitetura baseada em Modelos de Espaço de Estado Estruturado (SSMs), partindo da hipótese de que essa abordagem pode constituir uma alternativa competitiva para a detecção de deepfakes de imagem, proporcionando ganhos em eficiência computacional sem comprometer a robustez do desempenho. Os resultados experimentais, obtidos a partir de comparações com modelos baseados em CNNs (Xception) e Transformadores (ViT), demonstram que o MambaVision alcançou o maior throughput e os tempos totais de teste mais curtos em todos os cenários avaliados. Tudo isso enquanto mantém desempenho competitivo em métricas de acurácia, alcançando os maiores resultados de AUC em todos os conjuntos de dados. Notavelmente, as AUCs de 99.99% e 95.33%, e acurácias de 99.79% e 92.79% nos conjuntos de dados CelebDFv2 e FaceForensics++, respectivamente. Em comparação ao Xception e ViT, destacou-se especialmente nas métricas temporais, com throughput aproximadamente 22% superior ao Xception e quase 99% superior ao ViT, além de tempos de processamento até 75 vezes menores que o ViT. Esses resultados evidenciam a viabilidade do uso do MambaVision como uma solução prática e eficiente para detecção de deepfakes de imagem, contribuindo para a proteção da integridade das mídias digitais. |
| id |
UNSP_6d6234e2c6c19d6e68d229664b32ea7b |
|---|---|
| oai_identifier_str |
oai:repositorio.unesp.br:11449/313373 |
| network_acronym_str |
UNSP |
| network_name_str |
Repositório Institucional da UNESP |
| repository_id_str |
|
| spelling |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mambaDeepfakes detection with structured state space models: evaluation of the mamba architectureDeepfakesSSMTransformerDetecçãoEficiênciaImagemCibersegurançaA chegada dos deepfakes transformou profundamente o cenário da mídia digital, oferecendo tanto oportunidades quanto desafios significativos. Essas mídias, geradas por técnicas avançadas de aprendizado profundo, são imagens, áudios e vídeos altamente realistas que podem comprometer a confiança em conteúdos digitais. Seu uso malicioso abrange desde manipulação política e desinformação até extorsão, roubo de identidade e violações de propriedade intelectual. Abordagens da comunidade científica para detecção de deepfakes de imagem têm sido baseadas principalmente em Redes Neurais Convolucionais (CNNs) e Transformadores, no entanto, existem limitações relacionadas ao alto custo computacional, especialmente quando se trata do processamento de grandes volumes de dados. Neste contexto, este trabalho introduz e avalia o uso do MambaVision, uma arquitetura baseada em Modelos de Espaço de Estado Estruturado (SSMs), partindo da hipótese de que essa abordagem pode constituir uma alternativa competitiva para a detecção de deepfakes de imagem, proporcionando ganhos em eficiência computacional sem comprometer a robustez do desempenho. Os resultados experimentais, obtidos a partir de comparações com modelos baseados em CNNs (Xception) e Transformadores (ViT), demonstram que o MambaVision alcançou o maior throughput e os tempos totais de teste mais curtos em todos os cenários avaliados. Tudo isso enquanto mantém desempenho competitivo em métricas de acurácia, alcançando os maiores resultados de AUC em todos os conjuntos de dados. Notavelmente, as AUCs de 99.99% e 95.33%, e acurácias de 99.79% e 92.79% nos conjuntos de dados CelebDFv2 e FaceForensics++, respectivamente. Em comparação ao Xception e ViT, destacou-se especialmente nas métricas temporais, com throughput aproximadamente 22% superior ao Xception e quase 99% superior ao ViT, além de tempos de processamento até 75 vezes menores que o ViT. Esses resultados evidenciam a viabilidade do uso do MambaVision como uma solução prática e eficiente para detecção de deepfakes de imagem, contribuindo para a proteção da integridade das mídias digitais.The advent of deepfakes has profoundly reshaped the landscape of digital media, presenting both significant opportunities and challenges. Generated through advanced deep learning techniques, these highly realistic images, audio, and videos can undermine trust in digital content. Malicious applications range from political manipulation and misinformation spread to extortion, identity theft, and intellectual property violations. Image deepfake detection approaches proposed by the scientific community have primarily relied on Convolutional Neural Networks (CNNs) and Transformers; however, these methods face limitations due to their high computational cost, especially when processing large volumes of data. In this context, this work proposes and evaluates the use of MambaVision, an architecture grounded in Structured State Space Models (SSMs), based on the hypothesis that this approach can serve as a competitive alternative for image deepfake detection, providing gains in computational efficiency without compromising performance robustness. Experimental results, obtained through comparisons with CNN-based (Xception) and Transformer-based (ViT) models, demonstrate that MambaVision achieved the highest throughput and the shortest overall test times across all evaluated scenarios, while maintaining competitive accuracy and achieving the highest AUC scores in every dataset. Notably, it attained AUCs of 99.99% and 95.33%, and accuracies of 99.79% and 92.79% on the CelebDFv2 and FaceForensics++ datasets, respectively. Compared to Xception and ViT, MambaVision excelled particularly in temporal metrics, with throughput approximately 22% higher than Xception and nearly 99% higher than ViT, along with processing times up to 75 times shorter than ViT. These findings highlight the viability of MambaVision as a practical and efficient solution for image deepfake detection, contributing to the safeguarding of digital media integrity.Universidade Estadual Paulista (Unesp)Costa, Kelton Augusto Pontara da [UNESP]Universidade Estadual Paulista (Unesp)Amoroso, Fabrício Steinle [UNESP]2025-09-02T14:03:57Z2025-08-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfAMOROSO, Fabrício Steinle. Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba. 2025. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.https://hdl.handle.net/11449/31337333004153073P228521967410041680009-0003-8720-2245porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-09-03T05:01:31Zoai:repositorio.unesp.br:11449/313373Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-09-03T05:01:31Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
| dc.title.none.fl_str_mv |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba Deepfakes detection with structured state space models: evaluation of the mamba architecture |
| title |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba |
| spellingShingle |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba Amoroso, Fabrício Steinle [UNESP] Deepfakes SSM Transformer Detecção Eficiência Imagem Cibersegurança |
| title_short |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba |
| title_full |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba |
| title_fullStr |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba |
| title_full_unstemmed |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba |
| title_sort |
Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba |
| author |
Amoroso, Fabrício Steinle [UNESP] |
| author_facet |
Amoroso, Fabrício Steinle [UNESP] |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Costa, Kelton Augusto Pontara da [UNESP] Universidade Estadual Paulista (Unesp) |
| dc.contributor.author.fl_str_mv |
Amoroso, Fabrício Steinle [UNESP] |
| dc.subject.por.fl_str_mv |
Deepfakes SSM Transformer Detecção Eficiência Imagem Cibersegurança |
| topic |
Deepfakes SSM Transformer Detecção Eficiência Imagem Cibersegurança |
| description |
A chegada dos deepfakes transformou profundamente o cenário da mídia digital, oferecendo tanto oportunidades quanto desafios significativos. Essas mídias, geradas por técnicas avançadas de aprendizado profundo, são imagens, áudios e vídeos altamente realistas que podem comprometer a confiança em conteúdos digitais. Seu uso malicioso abrange desde manipulação política e desinformação até extorsão, roubo de identidade e violações de propriedade intelectual. Abordagens da comunidade científica para detecção de deepfakes de imagem têm sido baseadas principalmente em Redes Neurais Convolucionais (CNNs) e Transformadores, no entanto, existem limitações relacionadas ao alto custo computacional, especialmente quando se trata do processamento de grandes volumes de dados. Neste contexto, este trabalho introduz e avalia o uso do MambaVision, uma arquitetura baseada em Modelos de Espaço de Estado Estruturado (SSMs), partindo da hipótese de que essa abordagem pode constituir uma alternativa competitiva para a detecção de deepfakes de imagem, proporcionando ganhos em eficiência computacional sem comprometer a robustez do desempenho. Os resultados experimentais, obtidos a partir de comparações com modelos baseados em CNNs (Xception) e Transformadores (ViT), demonstram que o MambaVision alcançou o maior throughput e os tempos totais de teste mais curtos em todos os cenários avaliados. Tudo isso enquanto mantém desempenho competitivo em métricas de acurácia, alcançando os maiores resultados de AUC em todos os conjuntos de dados. Notavelmente, as AUCs de 99.99% e 95.33%, e acurácias de 99.79% e 92.79% nos conjuntos de dados CelebDFv2 e FaceForensics++, respectivamente. Em comparação ao Xception e ViT, destacou-se especialmente nas métricas temporais, com throughput aproximadamente 22% superior ao Xception e quase 99% superior ao ViT, além de tempos de processamento até 75 vezes menores que o ViT. Esses resultados evidenciam a viabilidade do uso do MambaVision como uma solução prática e eficiente para detecção de deepfakes de imagem, contribuindo para a proteção da integridade das mídias digitais. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-09-02T14:03:57Z 2025-08-20 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
AMOROSO, Fabrício Steinle. Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba. 2025. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025. https://hdl.handle.net/11449/313373 33004153073P2 2852196741004168 0009-0003-8720-2245 |
| identifier_str_mv |
AMOROSO, Fabrício Steinle. Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba. 2025. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025. 33004153073P2 2852196741004168 0009-0003-8720-2245 |
| url |
https://hdl.handle.net/11449/313373 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
| instname_str |
Universidade Estadual Paulista (UNESP) |
| instacron_str |
UNESP |
| institution |
UNESP |
| reponame_str |
Repositório Institucional da UNESP |
| collection |
Repositório Institucional da UNESP |
| repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
| repository.mail.fl_str_mv |
repositoriounesp@unesp.br |
| _version_ |
1854954377151774720 |