Processamento de voz para detecção de insuficiência respiratória
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/ |
Resumo: | Esta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas. |
| id |
USP_0b68aac81b02746bf4e24ab5c62a1b67 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-20102025-214354 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Processamento de voz para detecção de insuficiência respiratóriaVoice processing for respiratory insufficiency detectionAudio segmentationDigital signal processingFrequência fundamentalFundamental frequencyProcessamento de falaProcessamento de sinais digitaisProcessamento de vozSegmentação de áudioSegmentação de falaSpeech processingSpeech segmentationVoice processingEsta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas.This Masters thesis aims to contribute to the SPIRA project, which investigates, among other topics, the audio analysis of individuals with respiratory insufficiency. More specifically, research in the fields of speech-language pathology and linguistics explores acoustic parameters and prosodic cues to understand the differences between the speech of patients and that of healthy individuals. In this process, we perform speech segmentation of audio recordings into segments of speech and pause (silence). Currently, this segmentation is performed semi-automatically, using a digital signal processing algorithm and manual corrections made by experts. Our dataset consists of manual annotations made by experts on 194 recordings of a single sentence read aloud in Brazilian Portuguese, including 99 healthy individuals (control group) and 95 COVID-19 patients. The recordings were made using mobile devices by volunteers at home and clinical professionals in hospitals during the social isolation period of the COVID-19 pandemic. Our goal is to improve the speech segmentation algorithm based on an absolute energy threshold used in previous studies. We propose a segmenter that leverages the fundamental frequency of the voice, calculated by the PYIN algorithm. Thus, we add the context of our application to the original implementation of the segmenter, filtering out unvoiced noise or sounds outside the human voice frequency range, such as recording artifacts or medical equipment sounds. This allows for more precise segmentation and, consequently, reduces the need for manual corrections, enabling experts to focus on analyzing the acoustic parameters extracted from these segments. In this work, we also investigate the impact of the signal-to-noise ratio (SNR) on the performance of segmentation algorithms, implement variations of the energy-based segmenter, and evaluate the performance of a deep learning model for fundamental frequency estimation (CREPE) and a voice activity detection model (Silero VAD) for segmenting the recordings. Our results show that refining speech segmentations using the fundamental frequency calculated by the PYIN algorithm improved the performance (F-score) of energy-based segmentation from 95.12% to 95.64% and the precision from 94.36% to 96.47%. When evaluating the segmenters performance separately for each group in our dataset (control and patients), we observed that our proposal raised the F-score of patient speech segmentations from 92.78% to 94.56% in the patient group, where the SNR is nearly 8 dB lower than that of the control group (17.25 dB and 25.06 dB, respectively). We conclude that the proposed algorithm is a viable alternative to the energy-based segmenter, resulting in more precise segmentations and showing potential for application in noisier environments, such as hospitals, when compared to the other studied alternatives.Biblioteca Digitais de Teses e Dissertações da USPQueiroz, Marcelo Gomes deBarboza, Vinicius de Araujo2025-08-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-10-23T09:02:02Zoai:teses.usp.br:tde-20102025-214354Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-10-23T09:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Processamento de voz para detecção de insuficiência respiratória Voice processing for respiratory insufficiency detection |
| title |
Processamento de voz para detecção de insuficiência respiratória |
| spellingShingle |
Processamento de voz para detecção de insuficiência respiratória Barboza, Vinicius de Araujo Audio segmentation Digital signal processing Frequência fundamental Fundamental frequency Processamento de fala Processamento de sinais digitais Processamento de voz Segmentação de áudio Segmentação de fala Speech processing Speech segmentation Voice processing |
| title_short |
Processamento de voz para detecção de insuficiência respiratória |
| title_full |
Processamento de voz para detecção de insuficiência respiratória |
| title_fullStr |
Processamento de voz para detecção de insuficiência respiratória |
| title_full_unstemmed |
Processamento de voz para detecção de insuficiência respiratória |
| title_sort |
Processamento de voz para detecção de insuficiência respiratória |
| author |
Barboza, Vinicius de Araujo |
| author_facet |
Barboza, Vinicius de Araujo |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Queiroz, Marcelo Gomes de |
| dc.contributor.author.fl_str_mv |
Barboza, Vinicius de Araujo |
| dc.subject.por.fl_str_mv |
Audio segmentation Digital signal processing Frequência fundamental Fundamental frequency Processamento de fala Processamento de sinais digitais Processamento de voz Segmentação de áudio Segmentação de fala Speech processing Speech segmentation Voice processing |
| topic |
Audio segmentation Digital signal processing Frequência fundamental Fundamental frequency Processamento de fala Processamento de sinais digitais Processamento de voz Segmentação de áudio Segmentação de fala Speech processing Speech segmentation Voice processing |
| description |
Esta dissertação de mestrado busca contribuir com o projeto SPIRA, que estuda, entre outros temas, a análise de áudio de indivíduos com insuficiência respiratória. Mais especificamente, pesquisas do projeto nas áreas de fonoaudiologia e linguística investigam parâmetros acústicos e pistas prosódicas para entender as diferenças entre a fala de pacientes e a de indivíduos saudáveis. Nesse processo, realizamos a segmentação de áudios de fala em trechos de elocução (fala) e de pausa (silêncio). Atualmente, essa segmentação é realizada de forma semi-automática, com auxílio de um algoritmo baseado em processamento de sinais digitais e correções manuais feitas por especialistas. Nosso conjunto de dados consiste em anotações manuais realizadas por especialistas sobre 194 gravações de leituras de uma única frase em português brasileiro, sendo 99 indivíduos saudáveis (grupo de controle) e 95 pacientes de COVID-19. As gravações foram feitas com dispositivos celulares por voluntários em casa e profissionais clínicos em hospitais durante o período de isolamento social da pandemia de COVID-19. Nosso objetivo é aprimorar o algoritmo de segmentação de fala baseado em um limiar absoluto de energia utilizado em trabalhos anteriores. Propomos um segmentador de fala que utiliza a frequência fundamental da voz, calculada pelo algoritmo PYIN. Dessa forma, adicionamos o contexto de nossa aplicação à implementação original do segmentador, filtrando ruídos não-vozeados ou sons fora da faixa de frequência da voz humana, como ruídos de instrumentos de gravação ou sons de equipamentos médicos. Assim, podemos obter uma segmentação mais precisa e, consequentemente, reduzir a necessidade de correções manuais, permitindo que especialistas se dediquem à análise dos parâmetros acústicos extraídos desses segmentos. Neste trabalho, também investigamos o impacto da relação sinal-ruído (SNR) no desempenho dos algoritmos de segmentação, implementamos variações do segmentador baseado em energia e avaliamos o desempenho de um modelo de aprendizado profundo para estimar a frequência fundamental (CREPE) e de um modelo de detecção de atividade de voz (Silero VAD) para segmentar os áudios. Nossos resultados mostram que o refinamento das segmentações da fala a partir da frequência fundamental calculada pelo algoritmo PYIN foi capaz de melhorar o desempenho (F-score) da segmentação baseada em um limiar absoluto de energia de 95,12% para 95,86% e a precisão de 94,36% para 95,84%. Ao avaliar o desempenho do segmentador em cada um dos grupos de nosso conjunto de dados (controle e pacientes) separadamente, observamos que nossa proposta elevou o F-score das segmentações das falas de pacientes de 92,78% para 94,56% no grupo de pacientes, cuja SNR é quase 8 dB inferior à do grupo de controle (17,25 dB e 25,06 dB, respectivamente). Concluímos que o algoritmo proposto é uma alternativa viável ao segmentador baseado em energia, resultando em segmentações mais precisas e apresentando potencial de aplicação em ambientes mais ruidosos, como hospitais, quando comparado às outras alternativas estudadas. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08-26 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-20102025-214354/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1848370475226365952 |