Processamento de voz para detecção de insuficiência respiratória

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Barboza, Vinicius de Araujo
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
Resumo: Esta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas.
id USP_0b68aac81b02746bf4e24ab5c62a1b67
oai_identifier_str oai:teses.usp.br:tde-20102025-214354
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Processamento de voz para detecção de insuficiência respiratóriaVoice processing for respiratory insufficiency detectionAudio segmentationDigital signal processingFrequência fundamentalFundamental frequencyProcessamento de falaProcessamento de sinais digitaisProcessamento de vozSegmentação de áudioSegmentação de falaSpeech processingSpeech segmentationVoice processingEsta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas.This Masters thesis aims to contribute to the SPIRA project, which investigates, among other topics, the audio analysis of individuals with respiratory insufficiency. More specifically, research in the fields of speech-language pathology and linguistics explores acoustic parameters and prosodic cues to understand the differences between the speech of patients and that of healthy individuals. In this process, we perform speech segmentation of audio recordings into segments of speech and pause (silence). Currently, this segmentation is performed semi-automatically, using a digital signal processing algorithm and manual corrections made by experts. Our dataset consists of manual annotations made by experts on 194 recordings of a single sentence read aloud in Brazilian Portuguese, including 99 healthy individuals (control group) and 95 COVID-19 patients. The recordings were made using mobile devices by volunteers at home and clinical professionals in hospitals during the social isolation period of the COVID-19 pandemic. Our goal is to improve the speech segmentation algorithm based on an absolute energy threshold used in previous studies. We propose a segmenter that leverages the fundamental frequency of the voice, calculated by the PYIN algorithm. Thus, we add the context of our application to the original implementation of the segmenter, filtering out unvoiced noise or sounds outside the human voice frequency range, such as recording artifacts or medical equipment sounds. This allows for more precise segmentation and, consequently, reduces the need for manual corrections, enabling experts to focus on analyzing the acoustic parameters extracted from these segments. In this work, we also investigate the impact of the signal-to-noise ratio (SNR) on the performance of segmentation algorithms, implement variations of the energy-based segmenter, and evaluate the performance of a deep learning model for fundamental frequency estimation (CREPE) and a voice activity detection model (Silero VAD) for segmenting the recordings. Our results show that refining speech segmentations using the fundamental frequency calculated by the PYIN algorithm improved the performance (F-score) of energy-based segmentation from 95.12% to 95.64% and the precision from 94.36% to 96.47%. When evaluating the segmenters performance separately for each group in our dataset (control and patients), we observed that our proposal raised the F-score of patient speech segmentations from 92.78% to 94.56% in the patient group, where the SNR is nearly 8 dB lower than that of the control group (17.25 dB and 25.06 dB, respectively). We conclude that the proposed algorithm is a viable alternative to the energy-based segmenter, resulting in more precise segmentations and showing potential for application in noisier environments, such as hospitals, when compared to the other studied alternatives.Biblioteca Digitais de Teses e Dissertações da USPQueiroz, Marcelo Gomes deBarboza, Vinicius de Araujo2025-08-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-23T09:02:02Zoai:teses.usp.br:tde-20102025-214354Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-23T09:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Processamento de voz para detecção de insuficiência respiratória
Voice processing for respiratory insufficiency detection
title Processamento de voz para detecção de insuficiência respiratória
spellingShingle Processamento de voz para detecção de insuficiência respiratória
Barboza, Vinicius de Araujo
Audio segmentation
Digital signal processing
Frequência fundamental
Fundamental frequency
Processamento de fala
Processamento de sinais digitais
Processamento de voz
Segmentação de áudio
Segmentação de fala
Speech processing
Speech segmentation
Voice processing
title_short Processamento de voz para detecção de insuficiência respiratória
title_full Processamento de voz para detecção de insuficiência respiratória
title_fullStr Processamento de voz para detecção de insuficiência respiratória
title_full_unstemmed Processamento de voz para detecção de insuficiência respiratória
title_sort Processamento de voz para detecção de insuficiência respiratória
author Barboza, Vinicius de Araujo
author_facet Barboza, Vinicius de Araujo
author_role author
dc.contributor.none.fl_str_mv Queiroz, Marcelo Gomes de
dc.contributor.author.fl_str_mv Barboza, Vinicius de Araujo
dc.subject.por.fl_str_mv Audio segmentation
Digital signal processing
Frequência fundamental
Fundamental frequency
Processamento de fala
Processamento de sinais digitais
Processamento de voz
Segmentação de áudio
Segmentação de fala
Speech processing
Speech segmentation
Voice processing
topic Audio segmentation
Digital signal processing
Frequência fundamental
Fundamental frequency
Processamento de fala
Processamento de sinais digitais
Processamento de voz
Segmentação de áudio
Segmentação de fala
Speech processing
Speech segmentation
Voice processing
description Esta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1848370475226365952