Exportação concluída — 

Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Souza, Douglas Matos de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede2.pucrs.br/tede2/handle/tede/11642
Resumo: Text-to-image synthesis is the task of generating images from text descriptions. Given a textual description, a text-to-image algorithm can generate multiple novel images that contain the details described in the text. Text-to-image algorithms are appealing for various real-world tasks. With such algorithms, machines can draw truly novel images that can be used for content generation or assisted drawing, for example. The general framework of text-to-image approaches can be divided into two main parts: i) a text encoder and ii) a generative model for images, which learns a conditional distribution over encoded text. Currently, text-to-image approaches leverage multiple neural networks to overcome the challenges of learning a generative model over images, increasing the overall framework´s complexity as well as the required computation for generating high-resolution images. Additionally, no works so far have explored cross-language models in the context of text-to-image generation, limiting current approaches to supporting only English. This limitation has a significant downside as it restricts access to the technology to users familiar with the English language, leaving out a substantial number of people who could benefit. In this thesis, we make the following contributions to address each of the aforementioned gaps. First, we propose a new end-to-end text-to-image approach that relies on a single neural network for the image generator model, reducing complexity and computation. Second, we propose a new loss function that improves training and yields more accurate models. Finally, we study how text encoders affect the overall performance of text-to-image generation and propose a novel cross-language approach to extend models to support multiple languages simultaneously.
id P_RS_6d51a46c6c68db7b80a4e2b1a20af637
oai_identifier_str oai:tede2.pucrs.br:tede/11642
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategiesCross-Language Text-To-Image SynthesisGenerative Adversarial NetworksGenerative ModelsDeep Neural NetworksCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOText-to-image synthesis is the task of generating images from text descriptions. Given a textual description, a text-to-image algorithm can generate multiple novel images that contain the details described in the text. Text-to-image algorithms are appealing for various real-world tasks. With such algorithms, machines can draw truly novel images that can be used for content generation or assisted drawing, for example. The general framework of text-to-image approaches can be divided into two main parts: i) a text encoder and ii) a generative model for images, which learns a conditional distribution over encoded text. Currently, text-to-image approaches leverage multiple neural networks to overcome the challenges of learning a generative model over images, increasing the overall framework´s complexity as well as the required computation for generating high-resolution images. Additionally, no works so far have explored cross-language models in the context of text-to-image generation, limiting current approaches to supporting only English. This limitation has a significant downside as it restricts access to the technology to users familiar with the English language, leaving out a substantial number of people who could benefit. In this thesis, we make the following contributions to address each of the aforementioned gaps. First, we propose a new end-to-end text-to-image approach that relies on a single neural network for the image generator model, reducing complexity and computation. Second, we propose a new loss function that improves training and yields more accurate models. Finally, we study how text encoders affect the overall performance of text-to-image generation and propose a novel cross-language approach to extend models to support multiple languages simultaneously.A síntese de texto para imagem é a tarefa de gerar imagens a partir de descrições textuais. Dada uma descrição textual, um algoritmo de síntese de imagens a partir de texto pode gerar várias imagens inéditas que contenham os detalhes descritos no texto. Estes algoritmos são atrativos para várias tarefas do mundo real. Com tais algoritmos, seria possível utilizar máquinas para criar imagens totalmente inéditas para geração de conteúdo ou para realizar desenhos assistidos, por exemplo. A estrutura geral das abordagens para síntese de imagens a partir de texto pode ser dividida em duas partes principais: i) um codificador de texto e ii) um modelo gerador para imagens, que aprende uma distribuição condicional sobre o texto codificado. Atualmente, as abordagens de síntese de imagens a partir de texto utilizam várias redes neurais para superar os desafios de aprender um modelo gerador sobre as imagens, aumentando a complexidade geral da abordagem, bem como a computação necessária para gerar imagens de alta resolução. Até o momento, nenhum trabalho explorou modelos que suportem múltiplos idiomas no contexto da geração de imagens a partir de texto, limitando as abordagens atuais a suportarem apenas o inglês. Esta limitação apresenta uma desvantagem significativa, pois restringe o acesso à tecnologia apenas para usuários familiarizados com a língua inglesa, deixando de fora um número substancial de pessoas que poderiam se beneficiar. Nesta tese, realizamos as seguintes contribuições para abordar cada uma das lacunas mencionadas anteriormente. Primeiramente, propomos uma nova abordagem de síntese de imagem a partir de texto, de ponta a ponta, que utiliza apenas uma rede neural para o modelo gerador de imagens, reduzindo a complexidade e a computação necessária. Em segundo lugar, propomos uma nova função de custo, que aprimora o treinamento e produz modelos mais precisos. Por fim, estudamos como os codificadores de texto afetam o desempenho geral da geração de imagens a partir de texto e propomos uma nova abordagem de múltiplas linaguagens para ampliar os modelos e suportar múltiplos idiomas simultaneamente.Pontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoRuiz, Duncan Dubugras AlcobaSouza, Douglas Matos de2025-05-29T13:42:32Z2024-01-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11642enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2025-07-28T10:37:21Zoai:tede2.pucrs.br:tede/11642Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2025-07-28T10:37:21Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.none.fl_str_mv Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
title Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
spellingShingle Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
Souza, Douglas Matos de
Cross-Language Text-To-Image Synthesis
Generative Adversarial Networks
Generative Models
Deep Neural Networks
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
title_full Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
title_fullStr Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
title_full_unstemmed Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
title_sort Efficient and multilingual text-to image synthesis : exploring novel architectures and cross-language strategies
author Souza, Douglas Matos de
author_facet Souza, Douglas Matos de
author_role author
dc.contributor.none.fl_str_mv Ruiz, Duncan Dubugras Alcoba
dc.contributor.author.fl_str_mv Souza, Douglas Matos de
dc.subject.por.fl_str_mv Cross-Language Text-To-Image Synthesis
Generative Adversarial Networks
Generative Models
Deep Neural Networks
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
topic Cross-Language Text-To-Image Synthesis
Generative Adversarial Networks
Generative Models
Deep Neural Networks
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Text-to-image synthesis is the task of generating images from text descriptions. Given a textual description, a text-to-image algorithm can generate multiple novel images that contain the details described in the text. Text-to-image algorithms are appealing for various real-world tasks. With such algorithms, machines can draw truly novel images that can be used for content generation or assisted drawing, for example. The general framework of text-to-image approaches can be divided into two main parts: i) a text encoder and ii) a generative model for images, which learns a conditional distribution over encoded text. Currently, text-to-image approaches leverage multiple neural networks to overcome the challenges of learning a generative model over images, increasing the overall framework´s complexity as well as the required computation for generating high-resolution images. Additionally, no works so far have explored cross-language models in the context of text-to-image generation, limiting current approaches to supporting only English. This limitation has a significant downside as it restricts access to the technology to users familiar with the English language, leaving out a substantial number of people who could benefit. In this thesis, we make the following contributions to address each of the aforementioned gaps. First, we propose a new end-to-end text-to-image approach that relies on a single neural network for the image generator model, reducing complexity and computation. Second, we propose a new loss function that improves training and yields more accurate models. Finally, we study how text encoders affect the overall performance of text-to-image generation and propose a novel cross-language approach to extend models to support multiple languages simultaneously.
publishDate 2024
dc.date.none.fl_str_mv 2024-01-15
2025-05-29T13:42:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://tede2.pucrs.br/tede2/handle/tede/11642
url https://tede2.pucrs.br/tede2/handle/tede/11642
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica
Brasil
PUCRS
Programa de Pós-Graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1850041319458603008