Isolated sign language recognition through skeleton image representation

Alves, Carlos Eduardo Gomes Reddo

Isolated sign language recognition through skeleton image representation

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Alves, Carlos Eduardo Gomes Reddo
Orientador(a):	Paixão, Thiago Meireles
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Serra
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Redes neurais (Computação) Sistemas de reconhecimento de padrões Língua de sinais Esqueleto humano - Imagens digitais Visão por computador
Link de acesso:	https://repositorio.ifes.edu.br/handle/123456789/6215
Resumo:	RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados.

Metadados do item

id	IFES-2_35f3ce87b4694be7a9038e46daa86e69
oai_identifier_str	oai:repositorio.ifes.edu.br:123456789/6215
network_acronym_str	IFES-2
network_name_str	Repositório Institucional do IFES
repository_id_str
spelling	Alves, Carlos Eduardo Gomes ReddoInstituto Federal do Espírito Santo (IFES)Gomes, David MenottiSeibel Junior, HilárioPaixão, Thiago Meireles2025-04-14T12:19:21Z2025-04-14T12:19:21Z2025Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025https://repositorio.ifes.edu.br/handle/123456789/621530004012075P4RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados.ABSTRACT: Communication for deaf and hard-of-hearing individuals remains a significant challenge due to the limited knowledge of sign language in broader society. With over 70 million deaf individuals worldwide and an increasing number of people experiencing disabling hearing loss, the development of assistive technologies is crucial for enabling inclusive communication. Sign Language Recognition aims to bridge this gap by translating signs into spoken language, enhancing accessibility for the deaf community. This dissertation focuses on Isolated Sign Language Recognition (ISLR), a subfield of SLR that classifies individual signs from video sequences. ISLR assumes that the beginning and end of a sign are pre-segmented, allowing for targeted applications such as gesture-based search engines and interactive SL learning platforms. Traditional ISLR approaches often rely on complex 3D Convolutional Neural Networks (3D CNNs) trained on RGB data, which require extensive computational resources and large annotated datasets. Given the scarcity of such datasets for many languages, alternative methods are needed to achieve robust performance with limited training data. This research investigates the use of skeletonbased representations for ISLR, leveraging body keypoints extracted from video frames. Inspired by techniques in Human Activity Recognition (HAR), we encode temporal body landmarks into 2D images and classify them using 2D CNNs. This approach reduces the computational complexity while preserving essential temporal and spatial sign features. Building upon prior work in skeleton-based action recognition, we adapt the SkeletonDML method, which has demonstrated high accuracy in HAR, to the context of ISLR. Our primary focus is Brazilian Sign Language (LIBRAS), with additional evaluations conducted on other languages to assess generalizability of the proposed method. The proposed approach is validated through extensive experiments comparing different skeleton image representation techniques and various pre-trained 2D CNN models. Our results demonstrate competitive performance with state-of-the-art ISLR models, offering a more scalable and efficient solution for resource-limited settings.56 f.Redes neurais (Computação)Sistemas de reconhecimento de padrõesLíngua de sinaisEsqueleto humano - Imagens digitaisVisão por computadorIsolated sign language recognition through skeleton image representationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessengreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraInteligência ArtificialInteligência Artificialhttp://lattes.cnpq.br/2961730349897943Computação AplicadaORIGINALDissertação_carlos_alves_2025.pdfDissertação_carlos_alves_2025.pdfDissertaçãoapplication/pdf19465554https://repositorio.ifes.edu.br/bitstreams/4d378fe2-5327-45b4-815b-ead3d378e416/download2b6ef7976b906a4862541ba4b7a93fa3MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/4a3546c5-b0ac-4e7b-ba0c-ef2ec4e9b9ce/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTDissertação_carlos_alves_2025.pdf.txtDissertação_carlos_alves_2025.pdf.txtExtracted texttext/plain112359https://repositorio.ifes.edu.br/bitstreams/e5b0ebe7-d80d-48fe-8357-b414fbb9eb7f/downloade9d0834512f489e875093f4149c85e94MD53falseAnonymousREADTHUMBNAILDissertação_carlos_alves_2025.pdf.jpgDissertação_carlos_alves_2025.pdf.jpgGenerated Thumbnailimage/jpeg2129https://repositorio.ifes.edu.br/bitstreams/beebbb23-0a66-496c-ba8d-bb185bdd981d/download93ff17aaaeb830c2ab983e8f7ae93966MD54falseAnonymousREAD123456789/62152025-08-20T20:05:05.633Zopen.accessoai:repositorio.ifes.edu.br:123456789/6215https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-08-20T20:05:05Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv	Isolated sign language recognition through skeleton image representation
title	Isolated sign language recognition through skeleton image representation
spellingShingle	Isolated sign language recognition through skeleton image representation Alves, Carlos Eduardo Gomes Reddo Redes neurais (Computação) Sistemas de reconhecimento de padrões Língua de sinais Esqueleto humano - Imagens digitais Visão por computador
title_short	Isolated sign language recognition through skeleton image representation
title_full	Isolated sign language recognition through skeleton image representation
title_fullStr	Isolated sign language recognition through skeleton image representation
title_full_unstemmed	Isolated sign language recognition through skeleton image representation
title_sort	Isolated sign language recognition through skeleton image representation
author	Alves, Carlos Eduardo Gomes Reddo
author_facet	Alves, Carlos Eduardo Gomes Reddo
author_role	author
dc.contributor.institution.pt_BR.fl_str_mv	Instituto Federal do Espírito Santo (IFES)
dc.contributor.member.none.fl_str_mv	Gomes, David Menotti Seibel Junior, Hilário
dc.contributor.author.fl_str_mv	Alves, Carlos Eduardo Gomes Reddo
dc.contributor.advisor1.fl_str_mv	Paixão, Thiago Meireles
contributor_str_mv	Paixão, Thiago Meireles
dc.subject.por.fl_str_mv	Redes neurais (Computação) Sistemas de reconhecimento de padrões Língua de sinais Esqueleto humano - Imagens digitais Visão por computador
topic	Redes neurais (Computação) Sistemas de reconhecimento de padrões Língua de sinais Esqueleto humano - Imagens digitais Visão por computador
description	RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados.
publishDate	2025
dc.date.accessioned.fl_str_mv	2025-04-14T12:19:21Z
dc.date.available.fl_str_mv	2025-04-14T12:19:21Z
dc.date.issued.fl_str_mv	2025
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025
dc.identifier.uri.fl_str_mv	https://repositorio.ifes.edu.br/handle/123456789/6215
dc.identifier.capes.pt_BR.fl_str_mv	30004012075P4
identifier_str_mv	Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025 30004012075P4
url	https://repositorio.ifes.edu.br/handle/123456789/6215
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	56 f.
dc.publisher.none.fl_str_mv	Serra
publisher.none.fl_str_mv	Serra
dc.source.none.fl_str_mv	reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES
instname_str	Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str	IFES
institution	IFES
reponame_str	Repositório Institucional do IFES
collection	Repositório Institucional do IFES
bitstream.url.fl_str_mv	https://repositorio.ifes.edu.br/bitstreams/4d378fe2-5327-45b4-815b-ead3d378e416/download https://repositorio.ifes.edu.br/bitstreams/4a3546c5-b0ac-4e7b-ba0c-ef2ec4e9b9ce/download https://repositorio.ifes.edu.br/bitstreams/e5b0ebe7-d80d-48fe-8357-b414fbb9eb7f/download https://repositorio.ifes.edu.br/bitstreams/beebbb23-0a66-496c-ba8d-bb185bdd981d/download
bitstream.checksum.fl_str_mv	2b6ef7976b906a4862541ba4b7a93fa3 ac7cb971050ed632be934da23d966924 e9d0834512f489e875093f4149c85e94 93ff17aaaeb830c2ab983e8f7ae93966
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv	repositorio@ifes.edu.br
_version_	1865654640728604672

Isolated sign language recognition through skeleton image representation

Registros relacionados