Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Falvo Júnior, Venilton
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/
Resumo: Introdução: O acesso a Objetos de Aprendizagem (OAs) audíveis ainda é um desafio, especialmente para aprendizes que dependem de Tecnologia Assistiva (TA). Com o avanço do Reconhecimento Automático de Fala (ASR), surgem novas possibilidades para tornar os OAs mais acessíveis. Este trabalho visa abordar essa questão por meio de uma Arquitetura de Software que facilite a criação de recursos de TA baseados em ASR. Objetivo: O principal objetivo desta pesquisa foi desenvolver e avaliar uma Arquitetura de Software, denominada Speech2Learning, destinada a promover soluções baseadas em ASR, visando ampliar a acessibilidade de OAs audíveis para diferentes aprendizes. Métodos: A metodologia incluiu um Mapeamento Sistemático (MS) que fundamentou a definição da Speech2Learning. A arquitetura foi avaliada por meio de dois Estudos de Caso aplicados na indústria, em parceria com a EdTech DIO. O primeiro estudo de caso investigou a precisão das transcrições automáticas dos principais serviços de ASR em videoaulas, utilizando uma triangulação de dados que combinou análises de similaridade léxica, respostas dos participantes de um survey e uma análise documental adicional. O segundo estudo de caso avaliou um player de vídeo integrado a avatares de Libras baseados em texto, alimentados por transcrições automáticas. Este player foi testado funcionalmente com intérpretes de Libras, que forneceram feedback qualitativo especializado. Resultados: No primeiro estudo de caso, os resultados mostraram que o serviço de ASR da OpenAI apresentou a maior precisão nas transcrições automáticas, destacada tanto nas análises estatísticas dos algoritmos de similaridade léxica quanto nas respostas dos participantes do survey. A convergência dessas fontes de dados reforçou a relevância do ASR na promoção da acessibilidade de OAs audíveis. O segundo estudo de caso revelou que, embora tecnicamente viável, a integração de avatares de Libras com as transcrições automáticas apresentou desafios significativos, especialmente devido à complexidade cultural e linguística da Libras. Conclusões: Esta pesquisa contribuiu para a definição e avaliação de uma arquitetura genérica e adaptável a diferentes contextos educacionais. A condução dos estudos de caso na indústria agregou complexidade e realismo, gerando insights valiosos para potenciais evoluções da Speech2Learning. Como trabalhos futuros, estudos adicionais podem ser realizados para ampliar a amostragem e testar a arquitetura em novos contextos, aferindo sua relevância na promoção da acessibilidade educacional por meio de OAs audíveis.
id USP_a96b444090f2d09547729a2b963f22d4
oai_identifier_str oai:teses.usp.br:tde-15012025-095523
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de AprendizagemSpeech2Learning: A Speech Recognition-Based Software Architecture to Promote the Accessibility of Learning ObjectsAcessibilidade digitalArquitetura de softwareAssistive technologyAutomatic speech recognitionDigital accessibilityLearning objectsObjetos de aprendizagemReconhecimento automático de falaSoftware architectureTecnologia assistivaIntrodução: O acesso a Objetos de Aprendizagem (OAs) audíveis ainda é um desafio, especialmente para aprendizes que dependem de Tecnologia Assistiva (TA). Com o avanço do Reconhecimento Automático de Fala (ASR), surgem novas possibilidades para tornar os OAs mais acessíveis. Este trabalho visa abordar essa questão por meio de uma Arquitetura de Software que facilite a criação de recursos de TA baseados em ASR. Objetivo: O principal objetivo desta pesquisa foi desenvolver e avaliar uma Arquitetura de Software, denominada Speech2Learning, destinada a promover soluções baseadas em ASR, visando ampliar a acessibilidade de OAs audíveis para diferentes aprendizes. Métodos: A metodologia incluiu um Mapeamento Sistemático (MS) que fundamentou a definição da Speech2Learning. A arquitetura foi avaliada por meio de dois Estudos de Caso aplicados na indústria, em parceria com a EdTech DIO. O primeiro estudo de caso investigou a precisão das transcrições automáticas dos principais serviços de ASR em videoaulas, utilizando uma triangulação de dados que combinou análises de similaridade léxica, respostas dos participantes de um survey e uma análise documental adicional. O segundo estudo de caso avaliou um player de vídeo integrado a avatares de Libras baseados em texto, alimentados por transcrições automáticas. Este player foi testado funcionalmente com intérpretes de Libras, que forneceram feedback qualitativo especializado. Resultados: No primeiro estudo de caso, os resultados mostraram que o serviço de ASR da OpenAI apresentou a maior precisão nas transcrições automáticas, destacada tanto nas análises estatísticas dos algoritmos de similaridade léxica quanto nas respostas dos participantes do survey. A convergência dessas fontes de dados reforçou a relevância do ASR na promoção da acessibilidade de OAs audíveis. O segundo estudo de caso revelou que, embora tecnicamente viável, a integração de avatares de Libras com as transcrições automáticas apresentou desafios significativos, especialmente devido à complexidade cultural e linguística da Libras. Conclusões: Esta pesquisa contribuiu para a definição e avaliação de uma arquitetura genérica e adaptável a diferentes contextos educacionais. A condução dos estudos de caso na indústria agregou complexidade e realismo, gerando insights valiosos para potenciais evoluções da Speech2Learning. Como trabalhos futuros, estudos adicionais podem ser realizados para ampliar a amostragem e testar a arquitetura em novos contextos, aferindo sua relevância na promoção da acessibilidade educacional por meio de OAs audíveis.Introduction: Access to audible Learning Objects (LOs) remains a challenge, especially for learners who rely on Assistive Technology (AT). With advancements in Automatic Speech Recognition (ASR), new opportunities arise to make LOs more accessible. This work aims to address this issue through a Software Architecture that facilitates the creation of AT resources based on ASR. Objective: The main objective of this research was to develop and evaluate a Software Architecture, named Speech2Learning, designed to promote ASR-based solutions, aiming to expand the accessibility of audible LOs for a diverse range of learners. Methods: The methodology included a Systematic Mapping (SM) that supported the definition of Speech2Learning. The architecture was evaluated through two Case Studies conducted in the industry, in partnership with the EdTech DIO. The first case study investigated the accuracy of automatic transcriptions from the main ASR services in video lectures, using data triangulation combining lexical similarity analyses, participants responses from a survey, and additional document analysis. The second case study evaluated a video player integrated with Libras avatars based on text, powered by automatic transcriptions. This player was functionally tested with Libras interpreters, who provided specialized qualitative feedback. Results: In the first case study, the results showed that OpenAIs ASR service had the highest accuracy in automatic transcriptions, highlighted both in the statistical analyses of the lexical similarity algorithms and in the participants survey responses. The convergence of these data sources reinforced the relevance of ASR in promoting the accessibility of audible LOs. The second case study revealed that, although technically feasible, the integration of Libras avatars with automatic transcriptions posed significant challenges, especially due to the cultural and linguistic complexity of Libras. Conclusions: This research contributed to the definition and evaluation of a generic and adaptable architecture for different educational contexts. The case studies conducted in the industry added complexity and realism, generating valuable insights for potential evolutions of Speech2Learning. Future work may include additional studies to expand the sample size and test the architecture in new contexts, assessing its relevance in promoting educational accessibility through audible LOs.Biblioteca Digitais de Teses e Dissertações da USPBarbosa, Ellen FrancineFalvo Júnior, Venilton2024-11-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-05-13T14:11:30Zoai:teses.usp.br:tde-15012025-095523Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-05-13T14:11:30Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
Speech2Learning: A Speech Recognition-Based Software Architecture to Promote the Accessibility of Learning Objects
title Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
spellingShingle Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
Falvo Júnior, Venilton
Acessibilidade digital
Arquitetura de software
Assistive technology
Automatic speech recognition
Digital accessibility
Learning objects
Objetos de aprendizagem
Reconhecimento automático de fala
Software architecture
Tecnologia assistiva
title_short Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_full Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_fullStr Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_full_unstemmed Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_sort Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
author Falvo Júnior, Venilton
author_facet Falvo Júnior, Venilton
author_role author
dc.contributor.none.fl_str_mv Barbosa, Ellen Francine
dc.contributor.author.fl_str_mv Falvo Júnior, Venilton
dc.subject.por.fl_str_mv Acessibilidade digital
Arquitetura de software
Assistive technology
Automatic speech recognition
Digital accessibility
Learning objects
Objetos de aprendizagem
Reconhecimento automático de fala
Software architecture
Tecnologia assistiva
topic Acessibilidade digital
Arquitetura de software
Assistive technology
Automatic speech recognition
Digital accessibility
Learning objects
Objetos de aprendizagem
Reconhecimento automático de fala
Software architecture
Tecnologia assistiva
description Introdução: O acesso a Objetos de Aprendizagem (OAs) audíveis ainda é um desafio, especialmente para aprendizes que dependem de Tecnologia Assistiva (TA). Com o avanço do Reconhecimento Automático de Fala (ASR), surgem novas possibilidades para tornar os OAs mais acessíveis. Este trabalho visa abordar essa questão por meio de uma Arquitetura de Software que facilite a criação de recursos de TA baseados em ASR. Objetivo: O principal objetivo desta pesquisa foi desenvolver e avaliar uma Arquitetura de Software, denominada Speech2Learning, destinada a promover soluções baseadas em ASR, visando ampliar a acessibilidade de OAs audíveis para diferentes aprendizes. Métodos: A metodologia incluiu um Mapeamento Sistemático (MS) que fundamentou a definição da Speech2Learning. A arquitetura foi avaliada por meio de dois Estudos de Caso aplicados na indústria, em parceria com a EdTech DIO. O primeiro estudo de caso investigou a precisão das transcrições automáticas dos principais serviços de ASR em videoaulas, utilizando uma triangulação de dados que combinou análises de similaridade léxica, respostas dos participantes de um survey e uma análise documental adicional. O segundo estudo de caso avaliou um player de vídeo integrado a avatares de Libras baseados em texto, alimentados por transcrições automáticas. Este player foi testado funcionalmente com intérpretes de Libras, que forneceram feedback qualitativo especializado. Resultados: No primeiro estudo de caso, os resultados mostraram que o serviço de ASR da OpenAI apresentou a maior precisão nas transcrições automáticas, destacada tanto nas análises estatísticas dos algoritmos de similaridade léxica quanto nas respostas dos participantes do survey. A convergência dessas fontes de dados reforçou a relevância do ASR na promoção da acessibilidade de OAs audíveis. O segundo estudo de caso revelou que, embora tecnicamente viável, a integração de avatares de Libras com as transcrições automáticas apresentou desafios significativos, especialmente devido à complexidade cultural e linguística da Libras. Conclusões: Esta pesquisa contribuiu para a definição e avaliação de uma arquitetura genérica e adaptável a diferentes contextos educacionais. A condução dos estudos de caso na indústria agregou complexidade e realismo, gerando insights valiosos para potenciais evoluções da Speech2Learning. Como trabalhos futuros, estudos adicionais podem ser realizados para ampliar a amostragem e testar a arquitetura em novos contextos, aferindo sua relevância na promoção da acessibilidade educacional por meio de OAs audíveis.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1844786335492079616