X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Furlanetto, Gustavo [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/314601
Resumo: Os recentes avanços nas pesquisas com modelos multimodais reacenderam o interesse na exploração de novas aplicações na área. Grandes modelos generativos multimodais obtiveram sucesso ao atrair a atenção não apenas de pesquisadores, mas também do público em geral. Inspirados na capacidade humana de lidar com múltiplas modalidades sensoriais, este projeto explorou a convergência entre representações sonoras e visuais, examinando o espaço latente que existe entre elas. Iniciamos nossa investigação com a criação e o treinamento de modelos dedicados à conversão de dados de áudio em imagens e vice-versa. A partir da análise estrutural e representacional desses modelos, aliada ao conhecimento biológico sobre o processamento multimodal no cérebro humano, propusemos uma arquitetura inovadora para o processamento audiovisual: a X-Net. Essa arquitetura é composta por módulos especializados em sincronização temporal e reconstrução cruzada, cuja saída modula dinamicamente os caminhos de processamento unimodal, enriquecendo a extração de características em ambas as modalidades. A X-Net foi avaliada em tarefas de classificação nos conjuntos de dados COIN e UCF101, obtendo melhorias de desempenho consistentes com o uso do módulo de controle multimodal: no COIN, a acurácia Top-1 subiu de 52,3% para 59,1%, e no UCF101, de 75,5% para 81,7%. Esses resultados validam a eficácia da abordagem proposta e reforçam o potencial de mecanismos inspirados biologicamente na construção de modelos multimodais mais interpretáveis e eficientes.
id UNSP_1d35f0f2a2211afa3e4409b440bd4aa9
oai_identifier_str oai:repositorio.unesp.br:11449/314601
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzadaX-net: a bio-Inspired architecture for modulation of multimodal representations through synchronization and cross-reconstructionModelos multimodaisVisão computacionalAprendizado profundoAudiovisual processingMultimodal modelsComputer visionDeep learning (Machine learning)Deep learning (Machine learning)Deep learning (Machine learning)Os recentes avanços nas pesquisas com modelos multimodais reacenderam o interesse na exploração de novas aplicações na área. Grandes modelos generativos multimodais obtiveram sucesso ao atrair a atenção não apenas de pesquisadores, mas também do público em geral. Inspirados na capacidade humana de lidar com múltiplas modalidades sensoriais, este projeto explorou a convergência entre representações sonoras e visuais, examinando o espaço latente que existe entre elas. Iniciamos nossa investigação com a criação e o treinamento de modelos dedicados à conversão de dados de áudio em imagens e vice-versa. A partir da análise estrutural e representacional desses modelos, aliada ao conhecimento biológico sobre o processamento multimodal no cérebro humano, propusemos uma arquitetura inovadora para o processamento audiovisual: a X-Net. Essa arquitetura é composta por módulos especializados em sincronização temporal e reconstrução cruzada, cuja saída modula dinamicamente os caminhos de processamento unimodal, enriquecendo a extração de características em ambas as modalidades. A X-Net foi avaliada em tarefas de classificação nos conjuntos de dados COIN e UCF101, obtendo melhorias de desempenho consistentes com o uso do módulo de controle multimodal: no COIN, a acurácia Top-1 subiu de 52,3% para 59,1%, e no UCF101, de 75,5% para 81,7%. Esses resultados validam a eficácia da abordagem proposta e reforçam o potencial de mecanismos inspirados biologicamente na construção de modelos multimodais mais interpretáveis e eficientes.Recent advances in multimodal model research have reignited interest in exploring new applications in the field. Large generative multimodal models have successfully drawn the attention of both researchers and the general public. Inspired by the human ability to integrate multiple sensory modalities, this project explores the convergence between auditory and visual representations by examining the latent space that connects them. The investigation began with the development and training of models dedicated to converting audio into images and vice versa. Based on the structural and representational analysis of these models—and supported by biological knowledge of multimodal processing in the human brain—we proposed X-Net, a bio-inspired architecture for audiovisual multimodal processing. X-Net combines temporal synchronization and cross-modal reconstruction modules, whose outputs are used to modulate unimodal backbones dynamically, enriching the extraction of features in both modalities. The architecture was evaluated on classification tasks using the COIN and UCF101 datasets, achieving consistent performance improvements with the inclusion of the multimodal controller: Top-1 accuracy increased from 52.3% to 59.1% on COIN and from 75.5% to 81.7% on UCF101. These results validate the effectiveness of the proposed approach and highlight the potential of biologically inspired mechanisms in building more interpretable and efficient multimodal models.Universidade Estadual Paulista (Unesp)Salvadeo, Denis Henrique Pinheiro [UNESP]Universidade Estadual Paulista (Unesp)Furlanetto, Gustavo [UNESP]2025-10-24T11:47:16Z2025-08-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/11449/31460133004153073P225378310614838900009-0006-3687-123xporinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-24T21:00:36Zoai:repositorio.unesp.br:11449/314601Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-24T21:00:36Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
X-net: a bio-Inspired architecture for modulation of multimodal representations through synchronization and cross-reconstruction
title X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
spellingShingle X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
Furlanetto, Gustavo [UNESP]
Modelos multimodais
Visão computacional
Aprendizado profundo
Audiovisual processing
Multimodal models
Computer vision
Deep learning (Machine learning)
Deep learning (Machine learning)
Deep learning (Machine learning)
title_short X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
title_full X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
title_fullStr X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
title_full_unstemmed X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
title_sort X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
author Furlanetto, Gustavo [UNESP]
author_facet Furlanetto, Gustavo [UNESP]
author_role author
dc.contributor.none.fl_str_mv Salvadeo, Denis Henrique Pinheiro [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Furlanetto, Gustavo [UNESP]
dc.subject.por.fl_str_mv Modelos multimodais
Visão computacional
Aprendizado profundo
Audiovisual processing
Multimodal models
Computer vision
Deep learning (Machine learning)
Deep learning (Machine learning)
Deep learning (Machine learning)
topic Modelos multimodais
Visão computacional
Aprendizado profundo
Audiovisual processing
Multimodal models
Computer vision
Deep learning (Machine learning)
Deep learning (Machine learning)
Deep learning (Machine learning)
description Os recentes avanços nas pesquisas com modelos multimodais reacenderam o interesse na exploração de novas aplicações na área. Grandes modelos generativos multimodais obtiveram sucesso ao atrair a atenção não apenas de pesquisadores, mas também do público em geral. Inspirados na capacidade humana de lidar com múltiplas modalidades sensoriais, este projeto explorou a convergência entre representações sonoras e visuais, examinando o espaço latente que existe entre elas. Iniciamos nossa investigação com a criação e o treinamento de modelos dedicados à conversão de dados de áudio em imagens e vice-versa. A partir da análise estrutural e representacional desses modelos, aliada ao conhecimento biológico sobre o processamento multimodal no cérebro humano, propusemos uma arquitetura inovadora para o processamento audiovisual: a X-Net. Essa arquitetura é composta por módulos especializados em sincronização temporal e reconstrução cruzada, cuja saída modula dinamicamente os caminhos de processamento unimodal, enriquecendo a extração de características em ambas as modalidades. A X-Net foi avaliada em tarefas de classificação nos conjuntos de dados COIN e UCF101, obtendo melhorias de desempenho consistentes com o uso do módulo de controle multimodal: no COIN, a acurácia Top-1 subiu de 52,3% para 59,1%, e no UCF101, de 75,5% para 81,7%. Esses resultados validam a eficácia da abordagem proposta e reforçam o potencial de mecanismos inspirados biologicamente na construção de modelos multimodais mais interpretáveis e eficientes.
publishDate 2025
dc.date.none.fl_str_mv 2025-10-24T11:47:16Z
2025-08-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/11449/314601
33004153073P2
2537831061483890
0009-0006-3687-123x
url https://hdl.handle.net/11449/314601
identifier_str_mv 33004153073P2
2537831061483890
0009-0006-3687-123x
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954576210296832