Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem

Falvo Júnior, Venilton

Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Falvo Júnior, Venilton
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Acessibilidade digital Arquitetura de software Assistive technology Automatic speech recognition Digital accessibility Learning objects Objetos de aprendizagem Reconhecimento automático de fala Software architecture Tecnologia assistiva
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/
Resumo:	Introdução: O acesso a Objetos de Aprendizagem (OAs) audíveis ainda é um desafio, especialmente para aprendizes que dependem de Tecnologia Assistiva (TA). Com o avanço do Reconhecimento Automático de Fala (ASR), surgem novas possibilidades para tornar os OAs mais acessíveis. Este trabalho visa abordar essa questão por meio de uma Arquitetura de Software que facilite a criação de recursos de TA baseados em ASR. Objetivo: O principal objetivo desta pesquisa foi desenvolver e avaliar uma Arquitetura de Software, denominada Speech2Learning, destinada a promover soluções baseadas em ASR, visando ampliar a acessibilidade de OAs audíveis para diferentes aprendizes. Métodos: A metodologia incluiu um Mapeamento Sistemático (MS) que fundamentou a definição da Speech2Learning. A arquitetura foi avaliada por meio de dois Estudos de Caso aplicados na indústria, em parceria com a EdTech DIO. O primeiro estudo de caso investigou a precisão das transcrições automáticas dos principais serviços de ASR em videoaulas, utilizando uma triangulação de dados que combinou análises de similaridade léxica, respostas dos participantes de um survey e uma análise documental adicional. O segundo estudo de caso avaliou um player de vídeo integrado a avatares de Libras baseados em texto, alimentados por transcrições automáticas. Este player foi testado funcionalmente com intérpretes de Libras, que forneceram feedback qualitativo especializado. Resultados: No primeiro estudo de caso, os resultados mostraram que o serviço de ASR da OpenAI apresentou a maior precisão nas transcrições automáticas, destacada tanto nas análises estatísticas dos algoritmos de similaridade léxica quanto nas respostas dos participantes do survey. A convergência dessas fontes de dados reforçou a relevância do ASR na promoção da acessibilidade de OAs audíveis. O segundo estudo de caso revelou que, embora tecnicamente viável, a integração de avatares de Libras com as transcrições automáticas apresentou desafios significativos, especialmente devido à complexidade cultural e linguística da Libras. Conclusões: Esta pesquisa contribuiu para a definição e avaliação de uma arquitetura genérica e adaptável a diferentes contextos educacionais. A condução dos estudos de caso na indústria agregou complexidade e realismo, gerando insights valiosos para potenciais evoluções da Speech2Learning. Como trabalhos futuros, estudos adicionais podem ser realizados para ampliar a amostragem e testar a arquitetura em novos contextos, aferindo sua relevância na promoção da acessibilidade educacional por meio de OAs audíveis.

Metadados do item

id	USP_a96b444090f2d09547729a2b963f22d4
oai_identifier_str	oai:teses.usp.br:tde-15012025-095523
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de AprendizagemSpeech2Learning: A Speech Recognition-Based Software Architecture to Promote the Accessibility of Learning ObjectsAcessibilidade digitalArquitetura de softwareAssistive technologyAutomatic speech recognitionDigital accessibilityLearning objectsObjetos de aprendizagemReconhecimento automático de falaSoftware architectureTecnologia assistivaIntrodução: O acesso a Objetos de Aprendizagem (OAs) audíveis ainda é um desafio, especialmente para aprendizes que dependem de Tecnologia Assistiva (TA). Com o avanço do Reconhecimento Automático de Fala (ASR), surgem novas possibilidades para tornar os OAs mais acessíveis. Este trabalho visa abordar essa questão por meio de uma Arquitetura de Software que facilite a criação de recursos de TA baseados em ASR. Objetivo: O principal objetivo desta pesquisa foi desenvolver e avaliar uma Arquitetura de Software, denominada Speech2Learning, destinada a promover soluções baseadas em ASR, visando ampliar a acessibilidade de OAs audíveis para diferentes aprendizes. Métodos: A metodologia incluiu um Mapeamento Sistemático (MS) que fundamentou a definição da Speech2Learning. A arquitetura foi avaliada por meio de dois Estudos de Caso aplicados na indústria, em parceria com a EdTech DIO. O primeiro estudo de caso investigou a precisão das transcrições automáticas dos principais serviços de ASR em videoaulas, utilizando uma triangulação de dados que combinou análises de similaridade léxica, respostas dos participantes de um survey e uma análise documental adicional. O segundo estudo de caso avaliou um player de vídeo integrado a avatares de Libras baseados em texto, alimentados por transcrições automáticas. Este player foi testado funcionalmente com intérpretes de Libras, que forneceram feedback qualitativo especializado. Resultados: No primeiro estudo de caso, os resultados mostraram que o serviço de ASR da OpenAI apresentou a maior precisão nas transcrições automáticas, destacada tanto nas análises estatísticas dos algoritmos de similaridade léxica quanto nas respostas dos participantes do survey. A convergência dessas fontes de dados reforçou a relevância do ASR na promoção da acessibilidade de OAs audíveis. O segundo estudo de caso revelou que, embora tecnicamente viável, a integração de avatares de Libras com as transcrições automáticas apresentou desafios significativos, especialmente devido à complexidade cultural e linguística da Libras. Conclusões: Esta pesquisa contribuiu para a definição e avaliação de uma arquitetura genérica e adaptável a diferentes contextos educacionais. A condução dos estudos de caso na indústria agregou complexidade e realismo, gerando insights valiosos para potenciais evoluções da Speech2Learning. Como trabalhos futuros, estudos adicionais podem ser realizados para ampliar a amostragem e testar a arquitetura em novos contextos, aferindo sua relevância na promoção da acessibilidade educacional por meio de OAs audíveis.Introduction: Access to audible Learning Objects (LOs) remains a challenge, especially for learners who rely on Assistive Technology (AT). With advancements in Automatic Speech Recognition (ASR), new opportunities arise to make LOs more accessible. This work aims to address this issue through a Software Architecture that facilitates the creation of AT resources based on ASR. Objective: The main objective of this research was to develop and evaluate a Software Architecture, named Speech2Learning, designed to promote ASR-based solutions, aiming to expand the accessibility of audible LOs for a diverse range of learners. Methods: The methodology included a Systematic Mapping (SM) that supported the definition of Speech2Learning. The architecture was evaluated through two Case Studies conducted in the industry, in partnership with the EdTech DIO. The first case study investigated the accuracy of automatic transcriptions from the main ASR services in video lectures, using data triangulation combining lexical similarity analyses, participants responses from a survey, and additional document analysis. The second case study evaluated a video player integrated with Libras avatars based on text, powered by automatic transcriptions. This player was functionally tested with Libras interpreters, who provided specialized qualitative feedback. Results: In the first case study, the results showed that OpenAIs ASR service had the highest accuracy in automatic transcriptions, highlighted both in the statistical analyses of the lexical similarity algorithms and in the participants survey responses. The convergence of these data sources reinforced the relevance of ASR in promoting the accessibility of audible LOs. The second case study revealed that, although technically feasible, the integration of Libras avatars with automatic transcriptions posed significant challenges, especially due to the cultural and linguistic complexity of Libras. Conclusions: This research contributed to the definition and evaluation of a generic and adaptable architecture for different educational contexts. The case studies conducted in the industry added complexity and realism, generating valuable insights for potential evolutions of Speech2Learning. Future work may include additional studies to expand the sample size and test the architecture in new contexts, assessing its relevance in promoting educational accessibility through audible LOs.Biblioteca Digitais de Teses e Dissertações da USPBarbosa, Ellen FrancineFalvo Júnior, Venilton2024-11-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-05-13T14:11:30Zoai:teses.usp.br:tde-15012025-095523Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-05-13T14:11:30Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem Speech2Learning: A Speech Recognition-Based Software Architecture to Promote the Accessibility of Learning Objects
title	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
spellingShingle	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem Falvo Júnior, Venilton Acessibilidade digital Arquitetura de software Assistive technology Automatic speech recognition Digital accessibility Learning objects Objetos de aprendizagem Reconhecimento automático de fala Software architecture Tecnologia assistiva
title_short	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_full	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_fullStr	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_full_unstemmed	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
title_sort	Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem
author	Falvo Júnior, Venilton
author_facet	Falvo Júnior, Venilton
author_role	author
dc.contributor.none.fl_str_mv	Barbosa, Ellen Francine
dc.contributor.author.fl_str_mv	Falvo Júnior, Venilton
dc.subject.por.fl_str_mv	Acessibilidade digital Arquitetura de software Assistive technology Automatic speech recognition Digital accessibility Learning objects Objetos de aprendizagem Reconhecimento automático de fala Software architecture Tecnologia assistiva
topic	Acessibilidade digital Arquitetura de software Assistive technology Automatic speech recognition Digital accessibility Learning objects Objetos de aprendizagem Reconhecimento automático de fala Software architecture Tecnologia assistiva
description	Introdução: O acesso a Objetos de Aprendizagem (OAs) audíveis ainda é um desafio, especialmente para aprendizes que dependem de Tecnologia Assistiva (TA). Com o avanço do Reconhecimento Automático de Fala (ASR), surgem novas possibilidades para tornar os OAs mais acessíveis. Este trabalho visa abordar essa questão por meio de uma Arquitetura de Software que facilite a criação de recursos de TA baseados em ASR. Objetivo: O principal objetivo desta pesquisa foi desenvolver e avaliar uma Arquitetura de Software, denominada Speech2Learning, destinada a promover soluções baseadas em ASR, visando ampliar a acessibilidade de OAs audíveis para diferentes aprendizes. Métodos: A metodologia incluiu um Mapeamento Sistemático (MS) que fundamentou a definição da Speech2Learning. A arquitetura foi avaliada por meio de dois Estudos de Caso aplicados na indústria, em parceria com a EdTech DIO. O primeiro estudo de caso investigou a precisão das transcrições automáticas dos principais serviços de ASR em videoaulas, utilizando uma triangulação de dados que combinou análises de similaridade léxica, respostas dos participantes de um survey e uma análise documental adicional. O segundo estudo de caso avaliou um player de vídeo integrado a avatares de Libras baseados em texto, alimentados por transcrições automáticas. Este player foi testado funcionalmente com intérpretes de Libras, que forneceram feedback qualitativo especializado. Resultados: No primeiro estudo de caso, os resultados mostraram que o serviço de ASR da OpenAI apresentou a maior precisão nas transcrições automáticas, destacada tanto nas análises estatísticas dos algoritmos de similaridade léxica quanto nas respostas dos participantes do survey. A convergência dessas fontes de dados reforçou a relevância do ASR na promoção da acessibilidade de OAs audíveis. O segundo estudo de caso revelou que, embora tecnicamente viável, a integração de avatares de Libras com as transcrições automáticas apresentou desafios significativos, especialmente devido à complexidade cultural e linguística da Libras. Conclusões: Esta pesquisa contribuiu para a definição e avaliação de uma arquitetura genérica e adaptável a diferentes contextos educacionais. A condução dos estudos de caso na indústria agregou complexidade e realismo, gerando insights valiosos para potenciais evoluções da Speech2Learning. Como trabalhos futuros, estudos adicionais podem ser realizados para ampliar a amostragem e testar a arquitetura em novos contextos, aferindo sua relevância na promoção da acessibilidade educacional por meio de OAs audíveis.
publishDate	2024
dc.date.none.fl_str_mv	2024-11-06
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/
url	https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15012025-095523/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1844786335492079616

Speech2Learning: Uma Arquitetura de Software Baseada em Reconhecimento de Fala para Promover a Acessibilidade de Objetos de Aprendizagem

Registros relacionados