End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/ |
Resumo: | Communication between deaf and hearing individuals continues to face significant barriers, and automatic sign language translation into text is a critical tool to promote accessibility and social inclusion. This study aims to develop sign language translation models that can improve the accuracy and fluency of automatic translations. We evaluated the performance of three translation approaches using two widely recognized datasets, Phoenix-2014T and How2Sign: translation from sign language to glosses (Sign2Gloss), from glosses to text (Gloss2Text), and an integrated process combining these two phases (Sign2Gloss2Text). The developed methods demonstrated competitive results. The Sign2Gloss model achieved a word error rate (WER) of 24.69, a metric where lower scores indicate higher accuracy, while the Gloss2Text model obtained a BLEU-4 score of 24.67, a metric for evaluating the quality of machine-translated text. The integrated Sign2Gloss2Text model achieved a BLEU-4 score of 21.30 on the Phoenix-2014T dataset, showing performance similar to previous methods that used word embeddings. Although these results are promising, direct sign language to text translation remains challenging, as evidenced by lower BLEU-4 scores on the How2Sign dataset. These findings highlight the importance of incorporating an intermediate gloss phase to improve translation quality. However, limitations such as the restricted domain of the datasets and the unidirectional approach suggest the need for further investigation. |
| id |
USP_ad4345c53d76aea0884a10fb03323728 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-03112025-141248 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and TransformersSistema de Tradução Automática de Língua de Sinais para Texto com Keypoints Humanos e Arquiteturas TransformeAccessibilityAcessibilidadeArquiteturas transformersComputer visionMediaPipeMediaPipeSign language translationTradução de língua de sinaisTransformer architecturesVisão computacionalCommunication between deaf and hearing individuals continues to face significant barriers, and automatic sign language translation into text is a critical tool to promote accessibility and social inclusion. This study aims to develop sign language translation models that can improve the accuracy and fluency of automatic translations. We evaluated the performance of three translation approaches using two widely recognized datasets, Phoenix-2014T and How2Sign: translation from sign language to glosses (Sign2Gloss), from glosses to text (Gloss2Text), and an integrated process combining these two phases (Sign2Gloss2Text). The developed methods demonstrated competitive results. The Sign2Gloss model achieved a word error rate (WER) of 24.69, a metric where lower scores indicate higher accuracy, while the Gloss2Text model obtained a BLEU-4 score of 24.67, a metric for evaluating the quality of machine-translated text. The integrated Sign2Gloss2Text model achieved a BLEU-4 score of 21.30 on the Phoenix-2014T dataset, showing performance similar to previous methods that used word embeddings. Although these results are promising, direct sign language to text translation remains challenging, as evidenced by lower BLEU-4 scores on the How2Sign dataset. These findings highlight the importance of incorporating an intermediate gloss phase to improve translation quality. However, limitations such as the restricted domain of the datasets and the unidirectional approach suggest the need for further investigation.A comunicação entre surdos e ouvintes ainda enfrenta grandes barreiras, e a tradução automática de linguagem de sinais para texto é uma ferramenta essencial para promover acessibilidade e inclusão social. Este trabalho busca desenvolver modelos de tradução de linguagem de sinais que possam melhorar a qualidade das traduções automáticas, especialmente no que se refere à precisão e fluidez dos textos gerados. Utilizamos dois conjuntos de dados amplamente reconhecidos, Phoenix-2014T e How2Sign, para avaliar o desempenho de três abordagens de tradução: de linguagem de sinais para glossas (Sign2Gloss), de glossas para texto (Gloss2Text), e um processo integrado que combina essas duas fases (Sign2Gloss2Text). Os métodos desenvolvidos apresentaram resultados competitivos. O modelo Sign2Gloss alcançou uma taxa de erro de palavra (WER) de 24,69, uma métrica em que pontuações mais baixas indicam maior precisão, enquanto o modelo Gloss2Text obteve uma pontuação BLEU-4 de 24,67, uma métrica que avalia a qualidade de textos traduzidos automaticamente. O modelo integrado Sign2Gloss2Text conseguiu uma pontuação BLEU-4 de 21,30 no Phoenix-2014T, mostrando desempenho semelhante a métodos anteriores que utilizavam representações de palavras embutidas. Embora esses resultados sejam promissores, a tradução direta de linguagem de sinais para texto ainda apresenta desafios, como evidenciado pelas pontuações BLEU-4 mais baixas no conjunto de dados How2Sign. Esses achados sublinham a importância de uma etapa intermediária de glossas para melhorar a qualidade das traduções. Contudo, limitações como o domínio restrito dos conjuntos de dados e a abordagem unidirecional indicam que mais estudos são necessários.Biblioteca Digitais de Teses e Dissertações da USPDavid, Sergio AdrianiSouza, Wesley Ferreira Maia de2025-07-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2025-11-03T16:20:02Zoai:teses.usp.br:tde-03112025-141248Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-11-03T16:20:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers Sistema de Tradução Automática de Língua de Sinais para Texto com Keypoints Humanos e Arquiteturas Transforme |
| title |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers |
| spellingShingle |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers Souza, Wesley Ferreira Maia de Accessibility Acessibilidade Arquiteturas transformers Computer vision MediaPipe MediaPipe Sign language translation Tradução de língua de sinais Transformer architectures Visão computacional |
| title_short |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers |
| title_full |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers |
| title_fullStr |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers |
| title_full_unstemmed |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers |
| title_sort |
End-to-End Sign Language Translation Pipeline Using Human Keypoints and Transformers |
| author |
Souza, Wesley Ferreira Maia de |
| author_facet |
Souza, Wesley Ferreira Maia de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
David, Sergio Adriani |
| dc.contributor.author.fl_str_mv |
Souza, Wesley Ferreira Maia de |
| dc.subject.por.fl_str_mv |
Accessibility Acessibilidade Arquiteturas transformers Computer vision MediaPipe MediaPipe Sign language translation Tradução de língua de sinais Transformer architectures Visão computacional |
| topic |
Accessibility Acessibilidade Arquiteturas transformers Computer vision MediaPipe MediaPipe Sign language translation Tradução de língua de sinais Transformer architectures Visão computacional |
| description |
Communication between deaf and hearing individuals continues to face significant barriers, and automatic sign language translation into text is a critical tool to promote accessibility and social inclusion. This study aims to develop sign language translation models that can improve the accuracy and fluency of automatic translations. We evaluated the performance of three translation approaches using two widely recognized datasets, Phoenix-2014T and How2Sign: translation from sign language to glosses (Sign2Gloss), from glosses to text (Gloss2Text), and an integrated process combining these two phases (Sign2Gloss2Text). The developed methods demonstrated competitive results. The Sign2Gloss model achieved a word error rate (WER) of 24.69, a metric where lower scores indicate higher accuracy, while the Gloss2Text model obtained a BLEU-4 score of 24.67, a metric for evaluating the quality of machine-translated text. The integrated Sign2Gloss2Text model achieved a BLEU-4 score of 21.30 on the Phoenix-2014T dataset, showing performance similar to previous methods that used word embeddings. Although these results are promising, direct sign language to text translation remains challenging, as evidenced by lower BLEU-4 scores on the How2Sign dataset. These findings highlight the importance of incorporating an intermediate gloss phase to improve translation quality. However, limitations such as the restricted domain of the datasets and the unidirectional approach suggest the need for further investigation. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-07-11 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-03112025-141248/ |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370470552862720 |