Isolated sign language recognition through skeleton image representation

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Alves, Carlos Eduardo Gomes Reddo
Orientador(a): Paixão, Thiago Meireles
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Serra
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ifes.edu.br/handle/123456789/6215
Resumo: RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados.
id IFES-2_35f3ce87b4694be7a9038e46daa86e69
oai_identifier_str oai:repositorio.ifes.edu.br:123456789/6215
network_acronym_str IFES-2
network_name_str Repositório Institucional do IFES
repository_id_str
spelling Alves, Carlos Eduardo Gomes ReddoInstituto Federal do Espírito Santo (IFES)Gomes, David MenottiSeibel Junior, HilárioPaixão, Thiago Meireles2025-04-14T12:19:21Z2025-04-14T12:19:21Z2025Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025https://repositorio.ifes.edu.br/handle/123456789/621530004012075P4RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados.ABSTRACT: Communication for deaf and hard-of-hearing individuals remains a significant challenge due to the limited knowledge of sign language in broader society. With over 70 million deaf individuals worldwide and an increasing number of people experiencing disabling hearing loss, the development of assistive technologies is crucial for enabling inclusive communication. Sign Language Recognition aims to bridge this gap by translating signs into spoken language, enhancing accessibility for the deaf community. This dissertation focuses on Isolated Sign Language Recognition (ISLR), a subfield of SLR that classifies individual signs from video sequences. ISLR assumes that the beginning and end of a sign are pre-segmented, allowing for targeted applications such as gesture-based search engines and interactive SL learning platforms. Traditional ISLR approaches often rely on complex 3D Convolutional Neural Networks (3D CNNs) trained on RGB data, which require extensive computational resources and large annotated datasets. Given the scarcity of such datasets for many languages, alternative methods are needed to achieve robust performance with limited training data. This research investigates the use of skeletonbased representations for ISLR, leveraging body keypoints extracted from video frames. Inspired by techniques in Human Activity Recognition (HAR), we encode temporal body landmarks into 2D images and classify them using 2D CNNs. This approach reduces the computational complexity while preserving essential temporal and spatial sign features. Building upon prior work in skeleton-based action recognition, we adapt the SkeletonDML method, which has demonstrated high accuracy in HAR, to the context of ISLR. Our primary focus is Brazilian Sign Language (LIBRAS), with additional evaluations conducted on other languages to assess generalizability of the proposed method. The proposed approach is validated through extensive experiments comparing different skeleton image representation techniques and various pre-trained 2D CNN models. Our results demonstrate competitive performance with state-of-the-art ISLR models, offering a more scalable and efficient solution for resource-limited settings.56 f.Redes neurais (Computação)Sistemas de reconhecimento de padrõesLíngua de sinaisEsqueleto humano - Imagens digitaisVisão por computadorIsolated sign language recognition through skeleton image representationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessengreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraInteligência ArtificialInteligência Artificialhttp://lattes.cnpq.br/2961730349897943Computação AplicadaORIGINALDissertação_carlos_alves_2025.pdfDissertação_carlos_alves_2025.pdfDissertaçãoapplication/pdf19465554https://repositorio.ifes.edu.br/bitstreams/4d378fe2-5327-45b4-815b-ead3d378e416/download2b6ef7976b906a4862541ba4b7a93fa3MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/4a3546c5-b0ac-4e7b-ba0c-ef2ec4e9b9ce/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTDissertação_carlos_alves_2025.pdf.txtDissertação_carlos_alves_2025.pdf.txtExtracted texttext/plain112359https://repositorio.ifes.edu.br/bitstreams/e5b0ebe7-d80d-48fe-8357-b414fbb9eb7f/downloade9d0834512f489e875093f4149c85e94MD53falseAnonymousREADTHUMBNAILDissertação_carlos_alves_2025.pdf.jpgDissertação_carlos_alves_2025.pdf.jpgGenerated Thumbnailimage/jpeg2129https://repositorio.ifes.edu.br/bitstreams/beebbb23-0a66-496c-ba8d-bb185bdd981d/download93ff17aaaeb830c2ab983e8f7ae93966MD54falseAnonymousREAD123456789/62152025-08-20T20:05:05.633Zopen.accessoai:repositorio.ifes.edu.br:123456789/6215https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-08-20T20:05:05Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv Isolated sign language recognition through skeleton image representation
title Isolated sign language recognition through skeleton image representation
spellingShingle Isolated sign language recognition through skeleton image representation
Alves, Carlos Eduardo Gomes Reddo
Redes neurais (Computação)
Sistemas de reconhecimento de padrões
Língua de sinais
Esqueleto humano - Imagens digitais
Visão por computador
title_short Isolated sign language recognition through skeleton image representation
title_full Isolated sign language recognition through skeleton image representation
title_fullStr Isolated sign language recognition through skeleton image representation
title_full_unstemmed Isolated sign language recognition through skeleton image representation
title_sort Isolated sign language recognition through skeleton image representation
author Alves, Carlos Eduardo Gomes Reddo
author_facet Alves, Carlos Eduardo Gomes Reddo
author_role author
dc.contributor.institution.pt_BR.fl_str_mv Instituto Federal do Espírito Santo (IFES)
dc.contributor.member.none.fl_str_mv Gomes, David Menotti
Seibel Junior, Hilário
dc.contributor.author.fl_str_mv Alves, Carlos Eduardo Gomes Reddo
dc.contributor.advisor1.fl_str_mv Paixão, Thiago Meireles
contributor_str_mv Paixão, Thiago Meireles
dc.subject.por.fl_str_mv Redes neurais (Computação)
Sistemas de reconhecimento de padrões
Língua de sinais
Esqueleto humano - Imagens digitais
Visão por computador
topic Redes neurais (Computação)
Sistemas de reconhecimento de padrões
Língua de sinais
Esqueleto humano - Imagens digitais
Visão por computador
description RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-04-14T12:19:21Z
dc.date.available.fl_str_mv 2025-04-14T12:19:21Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025
dc.identifier.uri.fl_str_mv https://repositorio.ifes.edu.br/handle/123456789/6215
dc.identifier.capes.pt_BR.fl_str_mv 30004012075P4
identifier_str_mv Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025
30004012075P4
url https://repositorio.ifes.edu.br/handle/123456789/6215
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 56 f.
dc.publisher.none.fl_str_mv Serra
publisher.none.fl_str_mv Serra
dc.source.none.fl_str_mv reponame:Repositório Institucional do IFES
instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron:IFES
instname_str Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str IFES
institution IFES
reponame_str Repositório Institucional do IFES
collection Repositório Institucional do IFES
bitstream.url.fl_str_mv https://repositorio.ifes.edu.br/bitstreams/4d378fe2-5327-45b4-815b-ead3d378e416/download
https://repositorio.ifes.edu.br/bitstreams/4a3546c5-b0ac-4e7b-ba0c-ef2ec4e9b9ce/download
https://repositorio.ifes.edu.br/bitstreams/e5b0ebe7-d80d-48fe-8357-b414fbb9eb7f/download
https://repositorio.ifes.edu.br/bitstreams/beebbb23-0a66-496c-ba8d-bb185bdd981d/download
bitstream.checksum.fl_str_mv 2b6ef7976b906a4862541ba4b7a93fa3
ac7cb971050ed632be934da23d966924
e9d0834512f489e875093f4149c85e94
93ff17aaaeb830c2ab983e8f7ae93966
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv repositorio@ifes.edu.br
_version_ 1865654640728604672