Isolated sign language recognition through skeleton image representation
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Serra
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ifes.edu.br/handle/123456789/6215 |
Resumo: | RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados. |
| id |
IFES-2_35f3ce87b4694be7a9038e46daa86e69 |
|---|---|
| oai_identifier_str |
oai:repositorio.ifes.edu.br:123456789/6215 |
| network_acronym_str |
IFES-2 |
| network_name_str |
Repositório Institucional do IFES |
| repository_id_str |
|
| spelling |
Alves, Carlos Eduardo Gomes ReddoInstituto Federal do Espírito Santo (IFES)Gomes, David MenottiSeibel Junior, HilárioPaixão, Thiago Meireles2025-04-14T12:19:21Z2025-04-14T12:19:21Z2025Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025https://repositorio.ifes.edu.br/handle/123456789/621530004012075P4RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados.ABSTRACT: Communication for deaf and hard-of-hearing individuals remains a significant challenge due to the limited knowledge of sign language in broader society. With over 70 million deaf individuals worldwide and an increasing number of people experiencing disabling hearing loss, the development of assistive technologies is crucial for enabling inclusive communication. Sign Language Recognition aims to bridge this gap by translating signs into spoken language, enhancing accessibility for the deaf community. This dissertation focuses on Isolated Sign Language Recognition (ISLR), a subfield of SLR that classifies individual signs from video sequences. ISLR assumes that the beginning and end of a sign are pre-segmented, allowing for targeted applications such as gesture-based search engines and interactive SL learning platforms. Traditional ISLR approaches often rely on complex 3D Convolutional Neural Networks (3D CNNs) trained on RGB data, which require extensive computational resources and large annotated datasets. Given the scarcity of such datasets for many languages, alternative methods are needed to achieve robust performance with limited training data. This research investigates the use of skeletonbased representations for ISLR, leveraging body keypoints extracted from video frames. Inspired by techniques in Human Activity Recognition (HAR), we encode temporal body landmarks into 2D images and classify them using 2D CNNs. This approach reduces the computational complexity while preserving essential temporal and spatial sign features. Building upon prior work in skeleton-based action recognition, we adapt the SkeletonDML method, which has demonstrated high accuracy in HAR, to the context of ISLR. Our primary focus is Brazilian Sign Language (LIBRAS), with additional evaluations conducted on other languages to assess generalizability of the proposed method. The proposed approach is validated through extensive experiments comparing different skeleton image representation techniques and various pre-trained 2D CNN models. Our results demonstrate competitive performance with state-of-the-art ISLR models, offering a more scalable and efficient solution for resource-limited settings.56 f.Redes neurais (Computação)Sistemas de reconhecimento de padrõesLíngua de sinaisEsqueleto humano - Imagens digitaisVisão por computadorIsolated sign language recognition through skeleton image representationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessengreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraInteligência ArtificialInteligência Artificialhttp://lattes.cnpq.br/2961730349897943Computação AplicadaORIGINALDissertação_carlos_alves_2025.pdfDissertação_carlos_alves_2025.pdfDissertaçãoapplication/pdf19465554https://repositorio.ifes.edu.br/bitstreams/4d378fe2-5327-45b4-815b-ead3d378e416/download2b6ef7976b906a4862541ba4b7a93fa3MD51trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/4a3546c5-b0ac-4e7b-ba0c-ef2ec4e9b9ce/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTDissertação_carlos_alves_2025.pdf.txtDissertação_carlos_alves_2025.pdf.txtExtracted texttext/plain112359https://repositorio.ifes.edu.br/bitstreams/e5b0ebe7-d80d-48fe-8357-b414fbb9eb7f/downloade9d0834512f489e875093f4149c85e94MD53falseAnonymousREADTHUMBNAILDissertação_carlos_alves_2025.pdf.jpgDissertação_carlos_alves_2025.pdf.jpgGenerated Thumbnailimage/jpeg2129https://repositorio.ifes.edu.br/bitstreams/beebbb23-0a66-496c-ba8d-bb185bdd981d/download93ff17aaaeb830c2ab983e8f7ae93966MD54falseAnonymousREAD123456789/62152025-08-20T20:05:05.633Zopen.accessoai:repositorio.ifes.edu.br:123456789/6215https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-08-20T20:05:05Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg== |
| dc.title.pt_BR.fl_str_mv |
Isolated sign language recognition through skeleton image representation |
| title |
Isolated sign language recognition through skeleton image representation |
| spellingShingle |
Isolated sign language recognition through skeleton image representation Alves, Carlos Eduardo Gomes Reddo Redes neurais (Computação) Sistemas de reconhecimento de padrões Língua de sinais Esqueleto humano - Imagens digitais Visão por computador |
| title_short |
Isolated sign language recognition through skeleton image representation |
| title_full |
Isolated sign language recognition through skeleton image representation |
| title_fullStr |
Isolated sign language recognition through skeleton image representation |
| title_full_unstemmed |
Isolated sign language recognition through skeleton image representation |
| title_sort |
Isolated sign language recognition through skeleton image representation |
| author |
Alves, Carlos Eduardo Gomes Reddo |
| author_facet |
Alves, Carlos Eduardo Gomes Reddo |
| author_role |
author |
| dc.contributor.institution.pt_BR.fl_str_mv |
Instituto Federal do Espírito Santo (IFES) |
| dc.contributor.member.none.fl_str_mv |
Gomes, David Menotti Seibel Junior, Hilário |
| dc.contributor.author.fl_str_mv |
Alves, Carlos Eduardo Gomes Reddo |
| dc.contributor.advisor1.fl_str_mv |
Paixão, Thiago Meireles |
| contributor_str_mv |
Paixão, Thiago Meireles |
| dc.subject.por.fl_str_mv |
Redes neurais (Computação) Sistemas de reconhecimento de padrões Língua de sinais Esqueleto humano - Imagens digitais Visão por computador |
| topic |
Redes neurais (Computação) Sistemas de reconhecimento de padrões Língua de sinais Esqueleto humano - Imagens digitais Visão por computador |
| description |
RESUMO: A comunicação para indivíduos surdos e com deficiência auditiva é um desafio significativo devido ao conhecimento limitado da língua de sinais na sociedade em geral. Com mais de 70 milhões de pessoas surdas em todo o mundo e um número crescente de indivíduos enfrentando perda auditiva incapacitante, o desenvolvimento de tecnologias assistivas é essencial para viabilizar uma comunicação inclusiva. O Reconhecimento de Língua de Sinais (SLR, do inglês Sign Language Recognition) busca reduzir essa lacuna ao traduzir sinais para a linguagem falada, promovendo maior acessibilidade para a comunidade surda. Esta dissertação foca no Reconhecimento Isolado de Língua de Sinais (ISLR, do inglês Isolated Sign Language Recognition), um subcampo do SLR que classifica sinais individuais a partir de sequências de vídeo. Em ISLR, assume-se que o início e o fim de um sinal são previamente segmentados, possibilitando aplicações como mecanismos de busca baseados em gestos e plataformas interativas de aprendizado de língua de sinais. Abordagens tradicionais de ISLR frequentemente dependem de Redes Neurais Convolucionais 3D (3D CNNs, do inglês 3D Convolutional Neural Networks) treinadas em dados RGB, o que exige recursos computacionais elevados e grandes conjuntos de dados anotados. Dada a escassez desses conjuntos de dados para muitas línguas de sinais, métodos alternativos são necessários para alcançar um desempenho robusto com dados de treinamento limitados. Esta pesquisa investiga o uso de representações baseadas em esqueletos para ISLR, aproveitando pontos chave corporais extraídos de quadros de vídeo. Inspirados por técnicas de reconhecimento de atividade humana, codificamos os pontos-chave obtidos ao longo do tempo como imagens 2D e classificamos usando CNNs 2D. Essa abordagem reduz a complexidade computacional, enquanto preserva características temporais e espaciais essenciais dos sinais. Com base em trabalhos anteriores de reconhecimento de ações baseado em esqueletos, adaptamos o método Skeleton-DML, que demonstrou resultados promissores em reconhecimento de atividades, para o contexto do ISLR. O foco da nossa investigação é a Língua Brasileira de Sinais (LIBRAS), porém experimentos adicionais foram realizados em outras línguas de sinal para avaliar a generalização do método proposto. Foram realizados experimentos comparando diferentes técnicas de representação de imagens de esqueletos e diversos modelos CNN 2D pré-treinados. Os resultados demonstram um desempenho competitivo em relação ao estado da arte em ISLR, oferecendo uma solução mais escalável e eficiente em cenários com recursos limitados. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-04-14T12:19:21Z |
| dc.date.available.fl_str_mv |
2025-04-14T12:19:21Z |
| dc.date.issued.fl_str_mv |
2025 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025 |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ifes.edu.br/handle/123456789/6215 |
| dc.identifier.capes.pt_BR.fl_str_mv |
30004012075P4 |
| identifier_str_mv |
Alves Carlos Eduardo Gomes Reddo. Isolated sign language recognition through skeleton image representation. 2025. 56 f. Dissertação (Mestrado em Computação Aplicada) - Instituto Federal do Espírito Santo, Serra, 2025 30004012075P4 |
| url |
https://repositorio.ifes.edu.br/handle/123456789/6215 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
56 f. |
| dc.publisher.none.fl_str_mv |
Serra |
| publisher.none.fl_str_mv |
Serra |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES |
| instname_str |
Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) |
| instacron_str |
IFES |
| institution |
IFES |
| reponame_str |
Repositório Institucional do IFES |
| collection |
Repositório Institucional do IFES |
| bitstream.url.fl_str_mv |
https://repositorio.ifes.edu.br/bitstreams/4d378fe2-5327-45b4-815b-ead3d378e416/download https://repositorio.ifes.edu.br/bitstreams/4a3546c5-b0ac-4e7b-ba0c-ef2ec4e9b9ce/download https://repositorio.ifes.edu.br/bitstreams/e5b0ebe7-d80d-48fe-8357-b414fbb9eb7f/download https://repositorio.ifes.edu.br/bitstreams/beebbb23-0a66-496c-ba8d-bb185bdd981d/download |
| bitstream.checksum.fl_str_mv |
2b6ef7976b906a4862541ba4b7a93fa3 ac7cb971050ed632be934da23d966924 e9d0834512f489e875093f4149c85e94 93ff17aaaeb830c2ab983e8f7ae93966 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) |
| repository.mail.fl_str_mv |
repositorio@ifes.edu.br |
| _version_ |
1865654640728604672 |