Isolated sign language recognition in LIBRAS
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede2.pucrs.br/tede2/handle/tede/11629 |
Resumo: | The present work focuses on the isolated recognition of sign language in Brazilian Sign Language (LIBRAS), essential for promoting digital accessibility for the Deaf community. However, data scarcity and the limited diversity of available signs and actors hinder the development of models capable of generalization and advancement in the field. Previous works, such as the MINDS dataset, are limited to reduced vocabularies, controlled environments, and low signer diversity, which tends to result, in some cases, in super-specialized models with low accuracy in scenarios different from what is seen in the training set. To address current limitations, a dataset, MALTA-LIBRAS, was developed, constructed by collecting publicly available LIBRAS videos, introducing variability in signers, environments, and recording conditions. Three architectures based on Transformers, VideoMAE, TimeSformer, and ViViT, are investigated in three experimental configurations: pre-training on action recognition datasets, application of data augmentation strategies, and exploration of possible knowledge transfer between sign languages using datasets from North American and Russian sign languages. Results on the MALTA-LIBRAS dataset indicate that models pre-trained on action recognition tasks achieve 29% accuracy, while models without pre-training achieve the equivalent of random prediction. Data augmentation techniques aid model generalization, increasing accuracy from 29% to 33.6%. Knowledge transfer between languages to LIBRAS proved limited, with gains of 2.7% in accuracy, reinforcing the need for domain-specific adaptation. It is concluded that data diversity (signers, environments) is as crucial as volume for real-world applications, and a unified framework for SLR in low-resource scenarios is proposed, combining pre-training on human actions, targeted data augmentation, and fine-tuning. |
| id |
P_RS_2e2674c0bd7f1af2a2f0f9e479b9f774 |
|---|---|
| oai_identifier_str |
oai:tede2.pucrs.br:tede/11629 |
| network_acronym_str |
P_RS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository_id_str |
|
| spelling |
Isolated sign language recognition in LIBRASReconhecimento de sinais isolados de LIBRASLIBRASIsolated Sign Language RecognitionVision TransformersReconhecimento Isolado de Línguas de SinaisCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOThe present work focuses on the isolated recognition of sign language in Brazilian Sign Language (LIBRAS), essential for promoting digital accessibility for the Deaf community. However, data scarcity and the limited diversity of available signs and actors hinder the development of models capable of generalization and advancement in the field. Previous works, such as the MINDS dataset, are limited to reduced vocabularies, controlled environments, and low signer diversity, which tends to result, in some cases, in super-specialized models with low accuracy in scenarios different from what is seen in the training set. To address current limitations, a dataset, MALTA-LIBRAS, was developed, constructed by collecting publicly available LIBRAS videos, introducing variability in signers, environments, and recording conditions. Three architectures based on Transformers, VideoMAE, TimeSformer, and ViViT, are investigated in three experimental configurations: pre-training on action recognition datasets, application of data augmentation strategies, and exploration of possible knowledge transfer between sign languages using datasets from North American and Russian sign languages. Results on the MALTA-LIBRAS dataset indicate that models pre-trained on action recognition tasks achieve 29% accuracy, while models without pre-training achieve the equivalent of random prediction. Data augmentation techniques aid model generalization, increasing accuracy from 29% to 33.6%. Knowledge transfer between languages to LIBRAS proved limited, with gains of 2.7% in accuracy, reinforcing the need for domain-specific adaptation. It is concluded that data diversity (signers, environments) is as crucial as volume for real-world applications, and a unified framework for SLR in low-resource scenarios is proposed, combining pre-training on human actions, targeted data augmentation, and fine-tuning.O presente trabalho tem foco no reconhecimento isolado da língua de sinais na Língua Brasileira de Sinais, fundamental para promover acessibilidade digital à comunidade surda. Porém, a escassez de dados e a diversidade limitada de sinais disponíveis e atores dificultam o desenvolvimento de modelos capazes de generalização e avanço na área. Trabalhos anteriores, como o dataset MINDS, limitam-se a vocabulários reduzidos, ambientes controlados e baixa diversidade de sinalizadores, o que tende a resultar, em alguns casos, em modelos super-especializados e com baixa acurácia em cenários diferentes do que é visto no conjunto de treinamento. Com o intuito de abordar as atuais limitações, foi desenvolvido um conjunto de dados, MALTA-LIBRAS, construído pela coleção de vídeos de LIBRAS disponíveis publicamente, introduzindo variabilidade em sinalizadores, ambientes e condições de gravação. Três arquiteturas baseadas em Transformers, VideoMAE, TimeSformer e ViViT, são investigadas em três configurações experimentais: pré-treinamento em conjuntos de dados de reconhecimento de ações, aplicação de estratégias de aumento de dados e exploração de possível transferência de conhecimento entre línguas de sinais a partir de conjuntos de dados das línguas de sinais norte americana e russa. Resultados no dataset MALTA-LIBRAS indicam que os modelos pré-treinados em tarefas de reconhecimento de ações atingem 29% de acurácia, enquanto modelos sem pré-treino atingem o equivalente a predição aleatória. Técnicas de aumento de dados auxiliam na generalização do modelo, aumentando a acurácia de 29% para 33,6%. A transferência de conhecimento entre línguas para LIBRAS mostrou-se limitada, com ganhos de 2,7% em acurácia, reforçando a necessidade de adaptação específica por domínio. Conclui-se que a diversidade de dados (sinalizadores, ambientes) é tão crucial quanto o volume para aplicações reais, e é proposto um framework unificado para SLR em cenários de baixos recursos, combinando pré-treinamento em ações humanas, aumento de dados direcionado e fine-tuning.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESPontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoKupssinskü, Lucas Silveirahttp://lattes.cnpq.br/7949995756060059Barros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828Delucis, Marcelo Mussi2025-05-27T13:12:08Z2025-03-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/11629enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2025-09-24T23:00:16Zoai:tede2.pucrs.br:tede/11629Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2025-09-24T23:00:16Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
| dc.title.none.fl_str_mv |
Isolated sign language recognition in LIBRAS Reconhecimento de sinais isolados de LIBRAS |
| title |
Isolated sign language recognition in LIBRAS |
| spellingShingle |
Isolated sign language recognition in LIBRAS Delucis, Marcelo Mussi LIBRAS Isolated Sign Language Recognition Vision Transformers Reconhecimento Isolado de Línguas de Sinais CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| title_short |
Isolated sign language recognition in LIBRAS |
| title_full |
Isolated sign language recognition in LIBRAS |
| title_fullStr |
Isolated sign language recognition in LIBRAS |
| title_full_unstemmed |
Isolated sign language recognition in LIBRAS |
| title_sort |
Isolated sign language recognition in LIBRAS |
| author |
Delucis, Marcelo Mussi |
| author_facet |
Delucis, Marcelo Mussi |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Kupssinskü, Lucas Silveira http://lattes.cnpq.br/7949995756060059 Barros, Rodrigo Coelho http://lattes.cnpq.br/8172124241767828 |
| dc.contributor.author.fl_str_mv |
Delucis, Marcelo Mussi |
| dc.subject.por.fl_str_mv |
LIBRAS Isolated Sign Language Recognition Vision Transformers Reconhecimento Isolado de Línguas de Sinais CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| topic |
LIBRAS Isolated Sign Language Recognition Vision Transformers Reconhecimento Isolado de Línguas de Sinais CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| description |
The present work focuses on the isolated recognition of sign language in Brazilian Sign Language (LIBRAS), essential for promoting digital accessibility for the Deaf community. However, data scarcity and the limited diversity of available signs and actors hinder the development of models capable of generalization and advancement in the field. Previous works, such as the MINDS dataset, are limited to reduced vocabularies, controlled environments, and low signer diversity, which tends to result, in some cases, in super-specialized models with low accuracy in scenarios different from what is seen in the training set. To address current limitations, a dataset, MALTA-LIBRAS, was developed, constructed by collecting publicly available LIBRAS videos, introducing variability in signers, environments, and recording conditions. Three architectures based on Transformers, VideoMAE, TimeSformer, and ViViT, are investigated in three experimental configurations: pre-training on action recognition datasets, application of data augmentation strategies, and exploration of possible knowledge transfer between sign languages using datasets from North American and Russian sign languages. Results on the MALTA-LIBRAS dataset indicate that models pre-trained on action recognition tasks achieve 29% accuracy, while models without pre-training achieve the equivalent of random prediction. Data augmentation techniques aid model generalization, increasing accuracy from 29% to 33.6%. Knowledge transfer between languages to LIBRAS proved limited, with gains of 2.7% in accuracy, reinforcing the need for domain-specific adaptation. It is concluded that data diversity (signers, environments) is as crucial as volume for real-world applications, and a unified framework for SLR in low-resource scenarios is proposed, combining pre-training on human actions, targeted data augmentation, and fine-tuning. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-05-27T13:12:08Z 2025-03-06 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://tede2.pucrs.br/tede2/handle/tede/11629 |
| url |
https://tede2.pucrs.br/tede2/handle/tede/11629 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
| instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| instacron_str |
PUC_RS |
| institution |
PUC_RS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
| _version_ |
1850041318902857728 |