Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Testa, Rafael Luiz
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/
Resumo: The ability to synthesize realistic facial expressions has the potential to improve social skills training, particularly for individuals with autism spectrum disorder, for whom recognizing and interpreting facial expressions can be challenging. The primary goal of this research is to develop an innovative approach for synthesizing realistic videos that depict facial expressions of emotions, to maintain individual identity and generate smoother transitions between frames. The research builds upon recent advancements in deep learning, particularly generative adversarial networks, which have shown promise in convincingly reenacting emotions from a reference video. The proposed approach distinguishes itself from other similar approaches by incorporating not only pixel-level features but also shape-based features, derived from facial landmarks, into the loss function to maintain inter-frame coherence. The facial expression synthesis pipeline involves reference video selection, data preparation (including image warping and displacement map generation), and GAN-based frame generation and refinement. The novel contributions include the incorporation of a previous frame into the generator architecture, the addition of two new loss functions that consider the consistency between adjacent frames, and a post-processing step of blending frames. The objective assessment demonstrated superior performance on video-specific measures compared to other image-to-video approaches and the baseline. The subjective evaluation confirmed greater realism, expressiveness, and identity preservation aspects when compared to the baseline and also outperformed real videos in recognizing certain emotions by participants. The proposed approach effectively enhances temporal coherence in facial video synthesis, offering promising implications for developing a wide range of applications, including diagnostic and therapeutic tools as well as potential uses in entertainment, education, and communication technology.
id USP_6898d26afd15265de12174505dd2dbef
oai_identifier_str oai:teses.usp.br:tde-18122024-231426
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherenceSíntese de expressões faciais em vídeos baseada em rede adversária generativa e coerência entre framesCoerência entre framesCoerência TemporalEdição de Atributos FaciaisFacial Attribute EditingFacial Expression GenerationFacial expression manipulationFacial Expression ReenactmentFacial Expression SynthesisGenerative Adversarial NetworksGeração de Expressão FacialInterframe CoherenceManipulação de expressões faciaisMapeamento de Expressão FacialMapping Facial ExpressionRedes Adversariais GerativasReencenação da Expressão FacialSíntese da Expressão FacialSíntese de VídeoTemporal CoherenceVideo SynthesisThe ability to synthesize realistic facial expressions has the potential to improve social skills training, particularly for individuals with autism spectrum disorder, for whom recognizing and interpreting facial expressions can be challenging. The primary goal of this research is to develop an innovative approach for synthesizing realistic videos that depict facial expressions of emotions, to maintain individual identity and generate smoother transitions between frames. The research builds upon recent advancements in deep learning, particularly generative adversarial networks, which have shown promise in convincingly reenacting emotions from a reference video. The proposed approach distinguishes itself from other similar approaches by incorporating not only pixel-level features but also shape-based features, derived from facial landmarks, into the loss function to maintain inter-frame coherence. The facial expression synthesis pipeline involves reference video selection, data preparation (including image warping and displacement map generation), and GAN-based frame generation and refinement. The novel contributions include the incorporation of a previous frame into the generator architecture, the addition of two new loss functions that consider the consistency between adjacent frames, and a post-processing step of blending frames. The objective assessment demonstrated superior performance on video-specific measures compared to other image-to-video approaches and the baseline. The subjective evaluation confirmed greater realism, expressiveness, and identity preservation aspects when compared to the baseline and also outperformed real videos in recognizing certain emotions by participants. The proposed approach effectively enhances temporal coherence in facial video synthesis, offering promising implications for developing a wide range of applications, including diagnostic and therapeutic tools as well as potential uses in entertainment, education, and communication technology.A capacidade de sintetizar expressões faciais realistas tem o potencial de melhorar o treinamento de habilidades sociais, particularmente para indivíduos com transtorno do espectro autista, para quem reconhecer e interpretar expressões faciais pode ser desafiador. O objetivo principal desta pesquisa é desenvolver uma abordagem inovadora para sintetizar vídeos realistas que retratam expressões faciais de emoções, mantendo a identidade individual e gerando transições mais suaves entre frames. A pesquisa se baseia em avanços recentes em aprendizado profundo, particularmente redes adversárias generativas, que se mostraram promissoras em reencenar emoções de um vídeo de referência de forma convincente. A abordagem proposta se distingue de outras abordagens semelhantes ao incorporar não apenas recursos de nível de pixel, mas também recursos baseados em forma, derivados de pontos no entorno dos componentes faciais, na função de perda para manter a coerência entre quadros. O pipeline de síntese de expressões faciais envolve seleção de vídeo de referência, preparação de dados (incluindo deformação de imagem e mapa de deslocamentos) e geração e refinamento de frames baseados em GAN. As novas contribuições incluem incorporar o frame anterior na arquitetura do gerador, a adição de duas novas funções de perda que consideram a consistência entre quadros adjacentes e uma etapa de pós-processamento de mesclagem de frames. A avaliação objetiva demonstrou desempenho superior em medidas específicas de vídeo em comparação com outras abordagens de imagem para vídeo e com a linha de base. A avaliação subjetiva confirmou maior realismo, expressividade e aspectos de preservação de identidade quando comparada à linha de base e também superou vídeos reais no reconhecimento de certas emoções pelos participantes. Ao aprimorar a coerência temporal na síntese de vídeos faciais expressivos, a abordagem proposta oferece um caminho promissor para o desenvolvimento de diversas aplicações, desde ferramentas diagnósticas e terapêuticas até usos em entretenimento, educação e tecnologia de comunicação.Biblioteca Digitais de Teses e Dissertações da USPLima, Ariane MachadoMarques, Fátima de Lourdes dos Santos NunesTesta, Rafael Luiz2024-11-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-05-16T18:18:02Zoai:teses.usp.br:tde-18122024-231426Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-05-16T18:18:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
Síntese de expressões faciais em vídeos baseada em rede adversária generativa e coerência entre frames
title Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
spellingShingle Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
Testa, Rafael Luiz
Coerência entre frames
Coerência Temporal
Edição de Atributos Faciais
Facial Attribute Editing
Facial Expression Generation
Facial expression manipulation
Facial Expression Reenactment
Facial Expression Synthesis
Generative Adversarial Networks
Geração de Expressão Facial
Interframe Coherence
Manipulação de expressões faciais
Mapeamento de Expressão Facial
Mapping Facial Expression
Redes Adversariais Gerativas
Reencenação da Expressão Facial
Síntese da Expressão Facial
Síntese de Vídeo
Temporal Coherence
Video Synthesis
title_short Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
title_full Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
title_fullStr Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
title_full_unstemmed Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
title_sort Facial expression synthesis in videos based on generative adversarial networks and inter-frame coherence
author Testa, Rafael Luiz
author_facet Testa, Rafael Luiz
author_role author
dc.contributor.none.fl_str_mv Lima, Ariane Machado
Marques, Fátima de Lourdes dos Santos Nunes
dc.contributor.author.fl_str_mv Testa, Rafael Luiz
dc.subject.por.fl_str_mv Coerência entre frames
Coerência Temporal
Edição de Atributos Faciais
Facial Attribute Editing
Facial Expression Generation
Facial expression manipulation
Facial Expression Reenactment
Facial Expression Synthesis
Generative Adversarial Networks
Geração de Expressão Facial
Interframe Coherence
Manipulação de expressões faciais
Mapeamento de Expressão Facial
Mapping Facial Expression
Redes Adversariais Gerativas
Reencenação da Expressão Facial
Síntese da Expressão Facial
Síntese de Vídeo
Temporal Coherence
Video Synthesis
topic Coerência entre frames
Coerência Temporal
Edição de Atributos Faciais
Facial Attribute Editing
Facial Expression Generation
Facial expression manipulation
Facial Expression Reenactment
Facial Expression Synthesis
Generative Adversarial Networks
Geração de Expressão Facial
Interframe Coherence
Manipulação de expressões faciais
Mapeamento de Expressão Facial
Mapping Facial Expression
Redes Adversariais Gerativas
Reencenação da Expressão Facial
Síntese da Expressão Facial
Síntese de Vídeo
Temporal Coherence
Video Synthesis
description The ability to synthesize realistic facial expressions has the potential to improve social skills training, particularly for individuals with autism spectrum disorder, for whom recognizing and interpreting facial expressions can be challenging. The primary goal of this research is to develop an innovative approach for synthesizing realistic videos that depict facial expressions of emotions, to maintain individual identity and generate smoother transitions between frames. The research builds upon recent advancements in deep learning, particularly generative adversarial networks, which have shown promise in convincingly reenacting emotions from a reference video. The proposed approach distinguishes itself from other similar approaches by incorporating not only pixel-level features but also shape-based features, derived from facial landmarks, into the loss function to maintain inter-frame coherence. The facial expression synthesis pipeline involves reference video selection, data preparation (including image warping and displacement map generation), and GAN-based frame generation and refinement. The novel contributions include the incorporation of a previous frame into the generator architecture, the addition of two new loss functions that consider the consistency between adjacent frames, and a post-processing step of blending frames. The objective assessment demonstrated superior performance on video-specific measures compared to other image-to-video approaches and the baseline. The subjective evaluation confirmed greater realism, expressiveness, and identity preservation aspects when compared to the baseline and also outperformed real videos in recognizing certain emotions by participants. The proposed approach effectively enhances temporal coherence in facial video synthesis, offering promising implications for developing a wide range of applications, including diagnostic and therapeutic tools as well as potential uses in entertainment, education, and communication technology.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18122024-231426/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1844786338092548096