X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/11449/314601 |
Resumo: | Os recentes avanços nas pesquisas com modelos multimodais reacenderam o interesse na exploração de novas aplicações na área. Grandes modelos generativos multimodais obtiveram sucesso ao atrair a atenção não apenas de pesquisadores, mas também do público em geral. Inspirados na capacidade humana de lidar com múltiplas modalidades sensoriais, este projeto explorou a convergência entre representações sonoras e visuais, examinando o espaço latente que existe entre elas. Iniciamos nossa investigação com a criação e o treinamento de modelos dedicados à conversão de dados de áudio em imagens e vice-versa. A partir da análise estrutural e representacional desses modelos, aliada ao conhecimento biológico sobre o processamento multimodal no cérebro humano, propusemos uma arquitetura inovadora para o processamento audiovisual: a X-Net. Essa arquitetura é composta por módulos especializados em sincronização temporal e reconstrução cruzada, cuja saída modula dinamicamente os caminhos de processamento unimodal, enriquecendo a extração de características em ambas as modalidades. A X-Net foi avaliada em tarefas de classificação nos conjuntos de dados COIN e UCF101, obtendo melhorias de desempenho consistentes com o uso do módulo de controle multimodal: no COIN, a acurácia Top-1 subiu de 52,3% para 59,1%, e no UCF101, de 75,5% para 81,7%. Esses resultados validam a eficácia da abordagem proposta e reforçam o potencial de mecanismos inspirados biologicamente na construção de modelos multimodais mais interpretáveis e eficientes. |
| id |
UNSP_1d35f0f2a2211afa3e4409b440bd4aa9 |
|---|---|
| oai_identifier_str |
oai:repositorio.unesp.br:11449/314601 |
| network_acronym_str |
UNSP |
| network_name_str |
Repositório Institucional da UNESP |
| repository_id_str |
|
| spelling |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzadaX-net: a bio-Inspired architecture for modulation of multimodal representations through synchronization and cross-reconstructionModelos multimodaisVisão computacionalAprendizado profundoAudiovisual processingMultimodal modelsComputer visionDeep learning (Machine learning)Deep learning (Machine learning)Deep learning (Machine learning)Os recentes avanços nas pesquisas com modelos multimodais reacenderam o interesse na exploração de novas aplicações na área. Grandes modelos generativos multimodais obtiveram sucesso ao atrair a atenção não apenas de pesquisadores, mas também do público em geral. Inspirados na capacidade humana de lidar com múltiplas modalidades sensoriais, este projeto explorou a convergência entre representações sonoras e visuais, examinando o espaço latente que existe entre elas. Iniciamos nossa investigação com a criação e o treinamento de modelos dedicados à conversão de dados de áudio em imagens e vice-versa. A partir da análise estrutural e representacional desses modelos, aliada ao conhecimento biológico sobre o processamento multimodal no cérebro humano, propusemos uma arquitetura inovadora para o processamento audiovisual: a X-Net. Essa arquitetura é composta por módulos especializados em sincronização temporal e reconstrução cruzada, cuja saída modula dinamicamente os caminhos de processamento unimodal, enriquecendo a extração de características em ambas as modalidades. A X-Net foi avaliada em tarefas de classificação nos conjuntos de dados COIN e UCF101, obtendo melhorias de desempenho consistentes com o uso do módulo de controle multimodal: no COIN, a acurácia Top-1 subiu de 52,3% para 59,1%, e no UCF101, de 75,5% para 81,7%. Esses resultados validam a eficácia da abordagem proposta e reforçam o potencial de mecanismos inspirados biologicamente na construção de modelos multimodais mais interpretáveis e eficientes.Recent advances in multimodal model research have reignited interest in exploring new applications in the field. Large generative multimodal models have successfully drawn the attention of both researchers and the general public. Inspired by the human ability to integrate multiple sensory modalities, this project explores the convergence between auditory and visual representations by examining the latent space that connects them. The investigation began with the development and training of models dedicated to converting audio into images and vice versa. Based on the structural and representational analysis of these models—and supported by biological knowledge of multimodal processing in the human brain—we proposed X-Net, a bio-inspired architecture for audiovisual multimodal processing. X-Net combines temporal synchronization and cross-modal reconstruction modules, whose outputs are used to modulate unimodal backbones dynamically, enriching the extraction of features in both modalities. The architecture was evaluated on classification tasks using the COIN and UCF101 datasets, achieving consistent performance improvements with the inclusion of the multimodal controller: Top-1 accuracy increased from 52.3% to 59.1% on COIN and from 75.5% to 81.7% on UCF101. These results validate the effectiveness of the proposed approach and highlight the potential of biologically inspired mechanisms in building more interpretable and efficient multimodal models.Universidade Estadual Paulista (Unesp)Salvadeo, Denis Henrique Pinheiro [UNESP]Universidade Estadual Paulista (Unesp)Furlanetto, Gustavo [UNESP]2025-10-24T11:47:16Z2025-08-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/11449/31460133004153073P225378310614838900009-0006-3687-123xporinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-24T21:00:36Zoai:repositorio.unesp.br:11449/314601Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-24T21:00:36Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
| dc.title.none.fl_str_mv |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada X-net: a bio-Inspired architecture for modulation of multimodal representations through synchronization and cross-reconstruction |
| title |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada |
| spellingShingle |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada Furlanetto, Gustavo [UNESP] Modelos multimodais Visão computacional Aprendizado profundo Audiovisual processing Multimodal models Computer vision Deep learning (Machine learning) Deep learning (Machine learning) Deep learning (Machine learning) |
| title_short |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada |
| title_full |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada |
| title_fullStr |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada |
| title_full_unstemmed |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada |
| title_sort |
X-net: uma arquitetura bioinspirada para modulação de representações multimodais através de sincronização e reconstrução cruzada |
| author |
Furlanetto, Gustavo [UNESP] |
| author_facet |
Furlanetto, Gustavo [UNESP] |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Salvadeo, Denis Henrique Pinheiro [UNESP] Universidade Estadual Paulista (Unesp) |
| dc.contributor.author.fl_str_mv |
Furlanetto, Gustavo [UNESP] |
| dc.subject.por.fl_str_mv |
Modelos multimodais Visão computacional Aprendizado profundo Audiovisual processing Multimodal models Computer vision Deep learning (Machine learning) Deep learning (Machine learning) Deep learning (Machine learning) |
| topic |
Modelos multimodais Visão computacional Aprendizado profundo Audiovisual processing Multimodal models Computer vision Deep learning (Machine learning) Deep learning (Machine learning) Deep learning (Machine learning) |
| description |
Os recentes avanços nas pesquisas com modelos multimodais reacenderam o interesse na exploração de novas aplicações na área. Grandes modelos generativos multimodais obtiveram sucesso ao atrair a atenção não apenas de pesquisadores, mas também do público em geral. Inspirados na capacidade humana de lidar com múltiplas modalidades sensoriais, este projeto explorou a convergência entre representações sonoras e visuais, examinando o espaço latente que existe entre elas. Iniciamos nossa investigação com a criação e o treinamento de modelos dedicados à conversão de dados de áudio em imagens e vice-versa. A partir da análise estrutural e representacional desses modelos, aliada ao conhecimento biológico sobre o processamento multimodal no cérebro humano, propusemos uma arquitetura inovadora para o processamento audiovisual: a X-Net. Essa arquitetura é composta por módulos especializados em sincronização temporal e reconstrução cruzada, cuja saída modula dinamicamente os caminhos de processamento unimodal, enriquecendo a extração de características em ambas as modalidades. A X-Net foi avaliada em tarefas de classificação nos conjuntos de dados COIN e UCF101, obtendo melhorias de desempenho consistentes com o uso do módulo de controle multimodal: no COIN, a acurácia Top-1 subiu de 52,3% para 59,1%, e no UCF101, de 75,5% para 81,7%. Esses resultados validam a eficácia da abordagem proposta e reforçam o potencial de mecanismos inspirados biologicamente na construção de modelos multimodais mais interpretáveis e eficientes. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-10-24T11:47:16Z 2025-08-27 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/11449/314601 33004153073P2 2537831061483890 0009-0006-3687-123x |
| url |
https://hdl.handle.net/11449/314601 |
| identifier_str_mv |
33004153073P2 2537831061483890 0009-0006-3687-123x |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
| instname_str |
Universidade Estadual Paulista (UNESP) |
| instacron_str |
UNESP |
| institution |
UNESP |
| reponame_str |
Repositório Institucional da UNESP |
| collection |
Repositório Institucional da UNESP |
| repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
| repository.mail.fl_str_mv |
repositoriounesp@unesp.br |
| _version_ |
1854954576210296832 |