Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14012026-151005/ |
Resumo: | Compreender como a atividade cerebral generaliza entre indivíduos permanece um desafio central na neurociência cognitiva, especialmente devido à alta variabilidade intersujeitos presente em dados de fMRI. Essa variabilidade compromete o uso direto de dados entre indivíduos, dificultando a criação de representações neurais compartilhadas e limitando a aplicação de modelos em situações com poucos dados do sujeito de interesse. Este trabalho tem como objetivo propor e avaliar uma estratégia de mapeamento intersujeito que possibilite integrar informações de múltiplos sujeitos, reduzindo o ruído individual e promovendo a extração de representações cerebrais mais robustas e compartilhadas. Para isso, foi desenvolvido um método simples, e que se mostrou eficaz, baseado em modelos lineares treinados para prever a atividade de uma região central (parcela) no cérebro de um sujeito-alvo a partir da atividade das regiões vizinhas de diversos sujeitos-fonte. As previsões geradas por múltiplos mapeamentos intersujeito são combinadas pela média, resultando em sinais mais consistentes e menos suscetíveis à variabilidade individual. Esses sinais mapeados são então utilizados para treinar modelos de codificação cerebral, também lineares, que buscam estimar as respostas neurais do sujeito-alvo a partir de representações linguísticas contextualizadas geradas por modelos baseados em redes neurais profundas, em particular, grandes modelos de linguagem, como BERT e Tiny LLaMA. Os resultados experimentais mostram que o uso desse mapeamento intersujeito melhora o desempenho dos modelos de codificação, mesmo quando há pouca quantidade de dados reais do sujeito-alvo. Pelos resultados, é possível concluir que essa abordagem permite o uso mais eficiente de dados de neuroimagem, contribuindo para o avanço de modelos computacionais mais generalizáveis e acessíveis capazes de simular respostas cerebrais a novos estímulos linguísticos com base em dados de outros indivíduos. |
| id |
USP_2d082e856b30a51630241b7b57325e03 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-14012026-151005 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento IntersujeitofMRI Brain Encoding with Large Language Models: Evaluating Multi-subject Training and Inter-subject Mapping StrategyBrain encodingCodificação cerebralfMRIfMRIInterindividual variabilityLanguage modelsModelos de linguagemVariabilidade interindividualCompreender como a atividade cerebral generaliza entre indivíduos permanece um desafio central na neurociência cognitiva, especialmente devido à alta variabilidade intersujeitos presente em dados de fMRI. Essa variabilidade compromete o uso direto de dados entre indivíduos, dificultando a criação de representações neurais compartilhadas e limitando a aplicação de modelos em situações com poucos dados do sujeito de interesse. Este trabalho tem como objetivo propor e avaliar uma estratégia de mapeamento intersujeito que possibilite integrar informações de múltiplos sujeitos, reduzindo o ruído individual e promovendo a extração de representações cerebrais mais robustas e compartilhadas. Para isso, foi desenvolvido um método simples, e que se mostrou eficaz, baseado em modelos lineares treinados para prever a atividade de uma região central (parcela) no cérebro de um sujeito-alvo a partir da atividade das regiões vizinhas de diversos sujeitos-fonte. As previsões geradas por múltiplos mapeamentos intersujeito são combinadas pela média, resultando em sinais mais consistentes e menos suscetíveis à variabilidade individual. Esses sinais mapeados são então utilizados para treinar modelos de codificação cerebral, também lineares, que buscam estimar as respostas neurais do sujeito-alvo a partir de representações linguísticas contextualizadas geradas por modelos baseados em redes neurais profundas, em particular, grandes modelos de linguagem, como BERT e Tiny LLaMA. Os resultados experimentais mostram que o uso desse mapeamento intersujeito melhora o desempenho dos modelos de codificação, mesmo quando há pouca quantidade de dados reais do sujeito-alvo. Pelos resultados, é possível concluir que essa abordagem permite o uso mais eficiente de dados de neuroimagem, contribuindo para o avanço de modelos computacionais mais generalizáveis e acessíveis capazes de simular respostas cerebrais a novos estímulos linguísticos com base em dados de outros indivíduos.Understanding how brain activity generalizes across individuals remains a central challenge in cognitive neuroscience, particularly due to the high inter-subject variability present in fMRI data. This variability hinders the direct use of data across individuals, making it difficult to create shared neural representations and limiting the application of models in scenarios with limited data from the target subject. This work aims to propose and evaluate an inter-subject mapping strategy that enables the integration of information from multiple individuals, reducing individual noise and promoting the extraction of more robust and shared brain representations. To this end, a simple, that was shown to be effective, method based on linear models trained to predict the activity of a central brain region (parcel) in a target subject using the activity of neighboring regions from multiple source subjects. The predictions generated by multiple inter-subject mappings are averaged, resulting in more consistent signals that are less susceptible to individual variability. These mapped signals are then used to train linear brain encoding models that aim to estimate the target subjects neural responses from contextualized language representations generated by models such as BERT and Tiny LLaMA. Results show that using this inter-subject mapping improves the performance of the encoding models, even when only a small amount of real data from the target subject is available. According to the results, it is possible to conclude that this approach enables a more efficient use of neuroimaging data, contributing to the development of more generalizable and accessible computational models capable of simulating brain responses to new linguistic stimuli based on data from other individuals.Biblioteca Digitais de Teses e Dissertações da USPCarvalho, André Carlos Ponce de Leon Ferreira deVicente, Ana Letícia Garcez2025-08-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-14012026-151005/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-14T19:04:02Zoai:teses.usp.br:tde-14012026-151005Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-14T19:04:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito fMRI Brain Encoding with Large Language Models: Evaluating Multi-subject Training and Inter-subject Mapping Strategy |
| title |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito |
| spellingShingle |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito Vicente, Ana Letícia Garcez Brain encoding Codificação cerebral fMRI fMRI Interindividual variability Language models Modelos de linguagem Variabilidade interindividual |
| title_short |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito |
| title_full |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito |
| title_fullStr |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito |
| title_full_unstemmed |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito |
| title_sort |
Codificação de Dados fMRI com Grandes Modelos de Linguagem: Avaliação de Estratégia Multissujeito e Mapeamento Intersujeito |
| author |
Vicente, Ana Letícia Garcez |
| author_facet |
Vicente, Ana Letícia Garcez |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Carvalho, André Carlos Ponce de Leon Ferreira de |
| dc.contributor.author.fl_str_mv |
Vicente, Ana Letícia Garcez |
| dc.subject.por.fl_str_mv |
Brain encoding Codificação cerebral fMRI fMRI Interindividual variability Language models Modelos de linguagem Variabilidade interindividual |
| topic |
Brain encoding Codificação cerebral fMRI fMRI Interindividual variability Language models Modelos de linguagem Variabilidade interindividual |
| description |
Compreender como a atividade cerebral generaliza entre indivíduos permanece um desafio central na neurociência cognitiva, especialmente devido à alta variabilidade intersujeitos presente em dados de fMRI. Essa variabilidade compromete o uso direto de dados entre indivíduos, dificultando a criação de representações neurais compartilhadas e limitando a aplicação de modelos em situações com poucos dados do sujeito de interesse. Este trabalho tem como objetivo propor e avaliar uma estratégia de mapeamento intersujeito que possibilite integrar informações de múltiplos sujeitos, reduzindo o ruído individual e promovendo a extração de representações cerebrais mais robustas e compartilhadas. Para isso, foi desenvolvido um método simples, e que se mostrou eficaz, baseado em modelos lineares treinados para prever a atividade de uma região central (parcela) no cérebro de um sujeito-alvo a partir da atividade das regiões vizinhas de diversos sujeitos-fonte. As previsões geradas por múltiplos mapeamentos intersujeito são combinadas pela média, resultando em sinais mais consistentes e menos suscetíveis à variabilidade individual. Esses sinais mapeados são então utilizados para treinar modelos de codificação cerebral, também lineares, que buscam estimar as respostas neurais do sujeito-alvo a partir de representações linguísticas contextualizadas geradas por modelos baseados em redes neurais profundas, em particular, grandes modelos de linguagem, como BERT e Tiny LLaMA. Os resultados experimentais mostram que o uso desse mapeamento intersujeito melhora o desempenho dos modelos de codificação, mesmo quando há pouca quantidade de dados reais do sujeito-alvo. Pelos resultados, é possível concluir que essa abordagem permite o uso mais eficiente de dados de neuroimagem, contribuindo para o avanço de modelos computacionais mais generalizáveis e acessíveis capazes de simular respostas cerebrais a novos estímulos linguísticos com base em dados de outros indivíduos. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08-25 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14012026-151005/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14012026-151005/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1857669978881261568 |