End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Souza, Wesley Ferreira Maia de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/
Resumo: Communication between deaf and hearing individuals continues to face significant barriers, and automatic sign language translation into text is a critical tool to promote accessibility and social inclusion. This study aims to develop sign language translation models that can improve the accuracy and fluency of automatic translations. We evaluated the performance of three translation approaches using two widely recognized datasets, Phoenix-2014T and How2Sign: translation from sign language to glosses (Sign2Gloss), from glosses to text (Gloss2Text), and an integrated process combining these two phases (Sign2Gloss2Text). The developed methods demonstrated competitive results. The Sign2Gloss model achieved a word error rate (WER) of 24.69, a metric where lower scores indicate higher accuracy, while the Gloss2Text model obtained a BLEU-4 score of 24.67, a metric for evaluating the quality of machine-translated text. The integrated Sign2Gloss2Text model achieved a BLEU-4 score of 21.30 on the Phoenix-2014T dataset, showing performance similar to previous methods that used word embeddings. Although these results are promising, direct sign language to text translation remains challenging, as evidenced by lower BLEU-4 scores on the How2Sign dataset. These findings highlight the importance of incorporating an intermediate gloss phase to improve translation quality. However, limitations such as the restricted domain of the datasets and the unidirectional approach suggest the need for further investigation.
id USP_ad4345c53d76aea0884a10fb03323728
oai_identifier_str oai:teses.usp.br:tde-03112025-141248
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling End-to-End Sign Language Translation Pipeline Using Human Keypoints and TransformersSistema de Tradução Automática de Língua de Sinais para Texto com Keypoints Humanos e Arquiteturas TransformeAccessibilityAcessibilidadeArquiteturas transformersComputer visionMediaPipeMediaPipeSign language translationTradução de língua de sinaisTransformer architecturesVisão computacionalCommunication between deaf and hearing individuals continues to face significant barriers, and automatic sign language translation into text is a critical tool to promote accessibility and social inclusion. This study aims to develop sign language translation models that can improve the accuracy and fluency of automatic translations. We evaluated the performance of three translation approaches using two widely recognized datasets, Phoenix-2014T and How2Sign: translation from sign language to glosses (Sign2Gloss), from glosses to text (Gloss2Text), and an integrated process combining these two phases (Sign2Gloss2Text). The developed methods demonstrated competitive results. The Sign2Gloss model achieved a word error rate (WER) of 24.69, a metric where lower scores indicate higher accuracy, while the Gloss2Text model obtained a BLEU-4 score of 24.67, a metric for evaluating the quality of machine-translated text. The integrated Sign2Gloss2Text model achieved a BLEU-4 score of 21.30 on the Phoenix-2014T dataset, showing performance similar to previous methods that used word embeddings. Although these results are promising, direct sign language to text translation remains challenging, as evidenced by lower BLEU-4 scores on the How2Sign dataset. These findings highlight the importance of incorporating an intermediate gloss phase to improve translation quality. However, limitations such as the restricted domain of the datasets and the unidirectional approach suggest the need for further investigation.A comunicação entre surdos e ouvintes ainda enfrenta grandes barreiras, e a tradução automática de linguagem de sinais para texto é uma ferramenta essencial para promover acessibilidade e inclusão social. Este trabalho busca desenvolver modelos de tradução de linguagem de sinais que possam melhorar a qualidade das traduções automáticas, especialmente no que se refere à precisão e fluidez dos textos gerados. Utilizamos dois conjuntos de dados amplamente reconhecidos, Phoenix-2014T e How2Sign, para avaliar o desempenho de três abordagens de tradução: de linguagem de sinais para glossas (Sign2Gloss), de glossas para texto (Gloss2Text), e um processo integrado que combina essas duas fases (Sign2Gloss2Text). Os métodos desenvolvidos apresentaram resultados competitivos. O modelo Sign2Gloss alcançou uma taxa de erro de palavra (WER) de 24,69, uma métrica em que pontuações mais baixas indicam maior precisão, enquanto o modelo Gloss2Text obteve uma pontuação BLEU-4 de 24,67, uma métrica que avalia a qualidade de textos traduzidos automaticamente. O modelo integrado Sign2Gloss2Text conseguiu uma pontuação BLEU-4 de 21,30 no Phoenix-2014T, mostrando desempenho semelhante a métodos anteriores que utilizavam representações de palavras embutidas. Embora esses resultados sejam promissores, a tradução direta de linguagem de sinais para texto ainda apresenta desafios, como evidenciado pelas pontuações BLEU-4 mais baixas no conjunto de dados How2Sign. Esses achados sublinham a importância de uma etapa intermediária de glossas para melhorar a qualidade das traduções. Contudo, limitações como o domínio restrito dos conjuntos de dados e a abordagem unidirecional indicam que mais estudos são necessários.Biblioteca Digitais de Teses e Dissertações da USPDavid, Sergio AdrianiSouza, Wesley Ferreira Maia de2025-07-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-11-03T16:20:02Zoai:teses.usp.br:tde-03112025-141248Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-11-03T16:20:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
Sistema de Tradução Automática de Língua de Sinais para Texto com Keypoints Humanos e Arquiteturas Transforme
title End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
spellingShingle End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
Souza, Wesley Ferreira Maia de
Accessibility
Acessibilidade
Arquiteturas transformers
Computer vision
MediaPipe
MediaPipe
Sign language translation
Tradução de língua de sinais
Transformer architectures
Visão computacional
title_short End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
title_full End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
title_fullStr End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
title_full_unstemmed End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
title_sort End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
author Souza, Wesley Ferreira Maia de
author_facet Souza, Wesley Ferreira Maia de
author_role author
dc.contributor.none.fl_str_mv David, Sergio Adriani
dc.contributor.author.fl_str_mv Souza, Wesley Ferreira Maia de
dc.subject.por.fl_str_mv Accessibility
Acessibilidade
Arquiteturas transformers
Computer vision
MediaPipe
MediaPipe
Sign language translation
Tradução de língua de sinais
Transformer architectures
Visão computacional
topic Accessibility
Acessibilidade
Arquiteturas transformers
Computer vision
MediaPipe
MediaPipe
Sign language translation
Tradução de língua de sinais
Transformer architectures
Visão computacional
description Communication between deaf and hearing individuals continues to face significant barriers, and automatic sign language translation into text is a critical tool to promote accessibility and social inclusion. This study aims to develop sign language translation models that can improve the accuracy and fluency of automatic translations. We evaluated the performance of three translation approaches using two widely recognized datasets, Phoenix-2014T and How2Sign: translation from sign language to glosses (Sign2Gloss), from glosses to text (Gloss2Text), and an integrated process combining these two phases (Sign2Gloss2Text). The developed methods demonstrated competitive results. The Sign2Gloss model achieved a word error rate (WER) of 24.69, a metric where lower scores indicate higher accuracy, while the Gloss2Text model obtained a BLEU-4 score of 24.67, a metric for evaluating the quality of machine-translated text. The integrated Sign2Gloss2Text model achieved a BLEU-4 score of 21.30 on the Phoenix-2014T dataset, showing performance similar to previous methods that used word embeddings. Although these results are promising, direct sign language to text translation remains challenging, as evidenced by lower BLEU-4 scores on the How2Sign dataset. These findings highlight the importance of incorporating an intermediate gloss phase to improve translation quality. However, limitations such as the restricted domain of the datasets and the unidirectional approach suggest the need for further investigation.
publishDate 2025
dc.date.none.fl_str_mv 2025-07-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370470552862720