Processamento de voz para detecção de insuficiência respiratória

Barboza, Vinicius de Araujo

Processamento de voz para detecção de insuficiência respiratória

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Barboza, Vinicius de Araujo
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Audio segmentation Digital signal processing Frequência fundamental Fundamental frequency Processamento de fala Processamento de sinais digitais Processamento de voz Segmentação de áudio Segmentação de fala Speech processing Speech segmentation Voice processing
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
Resumo:	Esta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas.

Metadados do item

id	USP_0b68aac81b02746bf4e24ab5c62a1b67
oai_identifier_str	oai:teses.usp.br:tde-20102025-214354
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Processamento de voz para detecção de insuficiência respiratóriaVoice processing for respiratory insufficiency detectionAudio segmentationDigital signal processingFrequência fundamentalFundamental frequencyProcessamento de falaProcessamento de sinais digitaisProcessamento de vozSegmentação de áudioSegmentação de falaSpeech processingSpeech segmentationVoice processingEsta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas.This Masters thesis aims to contribute to the SPIRA project, which investigates, among other topics, the audio analysis of individuals with respiratory insufficiency. More specifically, research in the fields of speech-language pathology and linguistics explores acoustic parameters and prosodic cues to understand the differences between the speech of patients and that of healthy individuals. In this process, we perform speech segmentation of audio recordings into segments of speech and pause (silence). Currently, this segmentation is performed semi-automatically, using a digital signal processing algorithm and manual corrections made by experts. Our dataset consists of manual annotations made by experts on 194 recordings of a single sentence read aloud in Brazilian Portuguese, including 99 healthy individuals (control group) and 95 COVID-19 patients. The recordings were made using mobile devices by volunteers at home and clinical professionals in hospitals during the social isolation period of the COVID-19 pandemic. Our goal is to improve the speech segmentation algorithm based on an absolute energy threshold used in previous studies. We propose a segmenter that leverages the fundamental frequency of the voice, calculated by the PYIN algorithm. Thus, we add the context of our application to the original implementation of the segmenter, filtering out unvoiced noise or sounds outside the human voice frequency range, such as recording artifacts or medical equipment sounds. This allows for more precise segmentation and, consequently, reduces the need for manual corrections, enabling experts to focus on analyzing the acoustic parameters extracted from these segments. In this work, we also investigate the impact of the signal-to-noise ratio (SNR) on the performance of segmentation algorithms, implement variations of the energy-based segmenter, and evaluate the performance of a deep learning model for fundamental frequency estimation (CREPE) and a voice activity detection model (Silero VAD) for segmenting the recordings. Our results show that refining speech segmentations using the fundamental frequency calculated by the PYIN algorithm improved the performance (F-score) of energy-based segmentation from 95.12% to 95.64% and the precision from 94.36% to 96.47%. When evaluating the segmenters performance separately for each group in our dataset (control and patients), we observed that our proposal raised the F-score of patient speech segmentations from 92.78% to 94.56% in the patient group, where the SNR is nearly 8 dB lower than that of the control group (17.25 dB and 25.06 dB, respectively). We conclude that the proposed algorithm is a viable alternative to the energy-based segmenter, resulting in more precise segmentations and showing potential for application in noisier environments, such as hospitals, when compared to the other studied alternatives.Biblioteca Digitais de Teses e Dissertações da USPQueiroz, Marcelo Gomes deBarboza, Vinicius de Araujo2025-08-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-23T09:02:02Zoai:teses.usp.br:tde-20102025-214354Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-10-23T09:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Processamento de voz para detecção de insuficiência respiratória Voice processing for respiratory insufficiency detection
title	Processamento de voz para detecção de insuficiência respiratória
spellingShingle	Processamento de voz para detecção de insuficiência respiratória Barboza, Vinicius de Araujo Audio segmentation Digital signal processing Frequência fundamental Fundamental frequency Processamento de fala Processamento de sinais digitais Processamento de voz Segmentação de áudio Segmentação de fala Speech processing Speech segmentation Voice processing
title_short	Processamento de voz para detecção de insuficiência respiratória
title_full	Processamento de voz para detecção de insuficiência respiratória
title_fullStr	Processamento de voz para detecção de insuficiência respiratória
title_full_unstemmed	Processamento de voz para detecção de insuficiência respiratória
title_sort	Processamento de voz para detecção de insuficiência respiratória
author	Barboza, Vinicius de Araujo
author_facet	Barboza, Vinicius de Araujo
author_role	author
dc.contributor.none.fl_str_mv	Queiroz, Marcelo Gomes de
dc.contributor.author.fl_str_mv	Barboza, Vinicius de Araujo
dc.subject.por.fl_str_mv	Audio segmentation Digital signal processing Frequência fundamental Fundamental frequency Processamento de fala Processamento de sinais digitais Processamento de voz Segmentação de áudio Segmentação de fala Speech processing Speech segmentation Voice processing
topic	Audio segmentation Digital signal processing Frequência fundamental Fundamental frequency Processamento de fala Processamento de sinais digitais Processamento de voz Segmentação de áudio Segmentação de fala Speech processing Speech segmentation Voice processing
description	Esta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas.
publishDate	2025
dc.date.none.fl_str_mv	2025-08-26
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
url	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1848370475226365952

Processamento de voz para detecção de insuficiência respiratória

Registros relacionados