Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/ |
Resumo: | The ability to synthesize realistic facial expressions has the potential to improve social skills training, particularly for individuals with autism spectrum disorder, for whom recognizing and interpreting facial expressions can be challenging. The primary goal of this research is to develop an innovative approach for synthesizing realistic videos that depict facial expressions of emotions, to maintain individual identity and generate smoother transitions between frames. The research builds upon recent advancements in deep learning, particularly generative adversarial networks, which have shown promise in convincingly reenacting emotions from a reference video. The proposed approach distinguishes itself from other similar approaches by incorporating not only pixel-level features but also shape-based features, derived from facial landmarks, into the loss function to maintain inter-frame coherence. The facial expression synthesis pipeline involves reference video selection, data preparation (including image warping and displacement map generation), and GAN-based frame generation and refinement. The novel contributions include the incorporation of a previous frame into the generator architecture, the addition of two new loss functions that consider the consistency between adjacent frames, and a post-processing step of blending frames. The objective assessment demonstrated superior performance on video-specific measures compared to other image-to-video approaches and the baseline. The subjective evaluation confirmed greater realism, expressiveness, and identity preservation aspects when compared to the baseline and also outperformed real videos in recognizing certain emotions by participants. The proposed approach effectively enhances temporal coherence in facial video synthesis, offering promising implications for developing a wide range of applications, including diagnostic and therapeutic tools as well as potential uses in entertainment, education, and communication technology. |
| id |
USP_6898d26afd15265de12174505dd2dbef |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-18122024-231426 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherenceSíntese de expressões faciais em vídeos baseada em rede adversária generativa e coerência entre framesCoerência entre framesCoerência TemporalEdição de Atributos FaciaisFacial Attribute EditingFacial Expression GenerationFacial expression manipulationFacial Expression ReenactmentFacial Expression SynthesisGenerative Adversarial NetworksGeração de Expressão FacialInterframe CoherenceManipulação de expressões faciaisMapeamento de Expressão FacialMapping Facial ExpressionRedes Adversariais GerativasReencenação da Expressão FacialSíntese da Expressão FacialSíntese de VídeoTemporal CoherenceVideo SynthesisThe ability to synthesize realistic facial expressions has the potential to improve social skills training, particularly for individuals with autism spectrum disorder, for whom recognizing and interpreting facial expressions can be challenging. The primary goal of this research is to develop an innovative approach for synthesizing realistic videos that depict facial expressions of emotions, to maintain individual identity and generate smoother transitions between frames. The research builds upon recent advancements in deep learning, particularly generative adversarial networks, which have shown promise in convincingly reenacting emotions from a reference video. The proposed approach distinguishes itself from other similar approaches by incorporating not only pixel-level features but also shape-based features, derived from facial landmarks, into the loss function to maintain inter-frame coherence. The facial expression synthesis pipeline involves reference video selection, data preparation (including image warping and displacement map generation), and GAN-based frame generation and refinement. The novel contributions include the incorporation of a previous frame into the generator architecture, the addition of two new loss functions that consider the consistency between adjacent frames, and a post-processing step of blending frames. The objective assessment demonstrated superior performance on video-specific measures compared to other image-to-video approaches and the baseline. The subjective evaluation confirmed greater realism, expressiveness, and identity preservation aspects when compared to the baseline and also outperformed real videos in recognizing certain emotions by participants. The proposed approach effectively enhances temporal coherence in facial video synthesis, offering promising implications for developing a wide range of applications, including diagnostic and therapeutic tools as well as potential uses in entertainment, education, and communication technology.A capacidade de sintetizar expressões faciais realistas tem o potencial de melhorar o treinamento de habilidades sociais, particularmente para indivíduos com transtorno do espectro autista, para quem reconhecer e interpretar expressões faciais pode ser desafiador. O objetivo principal desta pesquisa é desenvolver uma abordagem inovadora para sintetizar vídeos realistas que retratam expressões faciais de emoções, mantendo a identidade individual e gerando transições mais suaves entre frames. A pesquisa se baseia em avanços recentes em aprendizado profundo, particularmente redes adversárias generativas, que se mostraram promissoras em reencenar emoções de um vídeo de referência de forma convincente. A abordagem proposta se distingue de outras abordagens semelhantes ao incorporar não apenas recursos de nível de pixel, mas também recursos baseados em forma, derivados de pontos no entorno dos componentes faciais, na função de perda para manter a coerência entre quadros. O pipeline de síntese de expressões faciais envolve seleção de vídeo de referência, preparação de dados (incluindo deformação de imagem e mapa de deslocamentos) e geração e refinamento de frames baseados em GAN. As novas contribuições incluem incorporar o frame anterior na arquitetura do gerador, a adição de duas novas funções de perda que consideram a consistência entre quadros adjacentes e uma etapa de pós-processamento de mesclagem de frames. A avaliação objetiva demonstrou desempenho superior em medidas específicas de vídeo em comparação com outras abordagens de imagem para vídeo e com a linha de base. A avaliação subjetiva confirmou maior realismo, expressividade e aspectos de preservação de identidade quando comparada à linha de base e também superou vídeos reais no reconhecimento de certas emoções pelos participantes. Ao aprimorar a coerência temporal na síntese de vídeos faciais expressivos, a abordagem proposta oferece um caminho promissor para o desenvolvimento de diversas aplicações, desde ferramentas diagnósticas e terapêuticas até usos em entretenimento, educação e tecnologia de comunicação.Biblioteca Digitais de Teses e Dissertações da USPLima, Ariane MachadoMarques, Fátima de Lourdes dos Santos NunesTesta, Rafael Luiz2024-11-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-05-16T18:18:02Zoai:teses.usp.br:tde-18122024-231426Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-05-16T18:18:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence Síntese de expressões faciais em vídeos baseada em rede adversária generativa e coerência entre frames |
| title |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence |
| spellingShingle |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence Testa, Rafael Luiz Coerência entre frames Coerência Temporal Edição de Atributos Faciais Facial Attribute Editing Facial Expression Generation Facial expression manipulation Facial Expression Reenactment Facial Expression Synthesis Generative Adversarial Networks Geração de Expressão Facial Interframe Coherence Manipulação de expressões faciais Mapeamento de Expressão Facial Mapping Facial Expression Redes Adversariais Gerativas Reencenação da Expressão Facial Síntese da Expressão Facial Síntese de Vídeo Temporal Coherence Video Synthesis |
| title_short |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence |
| title_full |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence |
| title_fullStr |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence |
| title_full_unstemmed |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence |
| title_sort |
Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence |
| author |
Testa, Rafael Luiz |
| author_facet |
Testa, Rafael Luiz |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lima, Ariane Machado Marques, Fátima de Lourdes dos Santos Nunes |
| dc.contributor.author.fl_str_mv |
Testa, Rafael Luiz |
| dc.subject.por.fl_str_mv |
Coerência entre frames Coerência Temporal Edição de Atributos Faciais Facial Attribute Editing Facial Expression Generation Facial expression manipulation Facial Expression Reenactment Facial Expression Synthesis Generative Adversarial Networks Geração de Expressão Facial Interframe Coherence Manipulação de expressões faciais Mapeamento de Expressão Facial Mapping Facial Expression Redes Adversariais Gerativas Reencenação da Expressão Facial Síntese da Expressão Facial Síntese de Vídeo Temporal Coherence Video Synthesis |
| topic |
Coerência entre frames Coerência Temporal Edição de Atributos Faciais Facial Attribute Editing Facial Expression Generation Facial expression manipulation Facial Expression Reenactment Facial Expression Synthesis Generative Adversarial Networks Geração de Expressão Facial Interframe Coherence Manipulação de expressões faciais Mapeamento de Expressão Facial Mapping Facial Expression Redes Adversariais Gerativas Reencenação da Expressão Facial Síntese da Expressão Facial Síntese de Vídeo Temporal Coherence Video Synthesis |
| description |
The ability to synthesize realistic facial expressions has the potential to improve social skills training, particularly for individuals with autism spectrum disorder, for whom recognizing and interpreting facial expressions can be challenging. The primary goal of this research is to develop an innovative approach for synthesizing realistic videos that depict facial expressions of emotions, to maintain individual identity and generate smoother transitions between frames. The research builds upon recent advancements in deep learning, particularly generative adversarial networks, which have shown promise in convincingly reenacting emotions from a reference video. The proposed approach distinguishes itself from other similar approaches by incorporating not only pixel-level features but also shape-based features, derived from facial landmarks, into the loss function to maintain inter-frame coherence. The facial expression synthesis pipeline involves reference video selection, data preparation (including image warping and displacement map generation), and GAN-based frame generation and refinement. The novel contributions include the incorporation of a previous frame into the generator architecture, the addition of two new loss functions that consider the consistency between adjacent frames, and a post-processing step of blending frames. The objective assessment demonstrated superior performance on video-specific measures compared to other image-to-video approaches and the baseline. The subjective evaluation confirmed greater realism, expressiveness, and identity preservation aspects when compared to the baseline and also outperformed real videos in recognizing certain emotions by participants. The proposed approach effectively enhances temporal coherence in facial video synthesis, offering promising implications for developing a wide range of applications, including diagnostic and therapeutic tools as well as potential uses in entertainment, education, and communication technology. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-11-05 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/ |
| url |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1844786338092548096 |