Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica UTFPR |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/38020 |
Resumo: | Voice disorders affect millions of people worldwide, compromising communication abilities and often indicating underlying pathologies. The rapid diagnosis of these disorders is crucial for improving patient quality of life. Traditional methods based on visual inspection via laryngoscopy and subjective evaluations by healthcare professionals require significant resources and time. Consequently, speech processing and machine learning techniques have been applied to assist in the pre-diagnosis of laryngeal disorders with the intent of reducing the amount of invasive procedures when not strictly required. In this work, we investigate three distinct approaches. Initially, we employ feature extraction through Wavelet-Packet decomposition for the identification of Reinke’s edema, comparing the performance of SVM and MLP algorithms. Next, optimization algorithms are applied to determine the ideal number of layers and neurons per layer in the MLP, aiming to enhance the identification of Reinke’s edema. Finally, a methodology for interpretability in voice disorder classification is proposed through the careful selection of features, with the objective of identifying the most significant contributors for discriminating among multiple pathologies. Wavelet-packet features with SVM delivered 100% accuracy in the identification of Reinke’s edema with a similar performance achieved by a PSO-optimized MLP. By applying feature reduction and explainability methods, we found 16 features that resulted in F1-score of 0.62 in the most demanding cross-database analysis. Shimmer and the second coefficient of MFCC were the most relevant features for the detection of voice disorders, aligning with clinical threshold and reinforcing the relevance of the selected features. |
| id |
UTFPR-12_b83258d42abb1a120dfd5dbeefbf08f3 |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/38020 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringeFeature selection and machine learning in the detection and classification of voice disordersPatologiaAprendizado do computadorFalaPathologyMachine learningSpeechCNPQ::CIENCIAS SOCIAIS APLICADASEngenharia ElétricaVoice disorders affect millions of people worldwide, compromising communication abilities and often indicating underlying pathologies. The rapid diagnosis of these disorders is crucial for improving patient quality of life. Traditional methods based on visual inspection via laryngoscopy and subjective evaluations by healthcare professionals require significant resources and time. Consequently, speech processing and machine learning techniques have been applied to assist in the pre-diagnosis of laryngeal disorders with the intent of reducing the amount of invasive procedures when not strictly required. In this work, we investigate three distinct approaches. Initially, we employ feature extraction through Wavelet-Packet decomposition for the identification of Reinke’s edema, comparing the performance of SVM and MLP algorithms. Next, optimization algorithms are applied to determine the ideal number of layers and neurons per layer in the MLP, aiming to enhance the identification of Reinke’s edema. Finally, a methodology for interpretability in voice disorder classification is proposed through the careful selection of features, with the objective of identifying the most significant contributors for discriminating among multiple pathologies. Wavelet-packet features with SVM delivered 100% accuracy in the identification of Reinke’s edema with a similar performance achieved by a PSO-optimized MLP. By applying feature reduction and explainability methods, we found 16 features that resulted in F1-score of 0.62 in the most demanding cross-database analysis. Shimmer and the second coefficient of MFCC were the most relevant features for the detection of voice disorders, aligning with clinical threshold and reinforcing the relevance of the selected features.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Distúrbios vocais afetam milhões de pessoas globalmente, comprometendo a capacidade de comunicação e, frequentemente, indicando patologias subjacentes. O diagnóstico rápido desses distúrbios é crucial para a melhoria das condições dos pacientes. Os métodos tradicionais, baseados em inspeções visuais com laringoscopia e avaliações subjetivas dos profissionais de saúde, demandam elevados recursos e tempo. Em virtude disso, técnicas de processamento de fala e aprendizado de máquina têm sido empregadas para auxiliar no pré-diagnóstico de distúrbios da laringe com o objetivo de reduzir a quantidade de procedimentos invasivos quando não são estritamente necessários. Este trabalho investiga três abordagens distintas. Na primeira abordagem, utiliza-se a extração de atributos por meio da decomposição Wavelet-Packet para a identificação do edema de Reinke, comparando o desempenho dos algoritmos SVM e MLP. Na segunda abordagem, são aplicados algoritmos de otimização para determinar a quantidade ideal de camadas e neurônios por camada na MLP, visando aprimorar a identificação do edema de Reinke. Na terceira abordagem, propõe-se uma metodologia de interpretabilidade para a classificação de distúrbios vocais através da seleção criteriosa de atributos, com o objetivo de identificar os principais contribuintes para a discriminação de distúrbios vocais entre diferentes bancos de dados. A segunda abordagem é uma consequência da primeira, e a terceira é uma expansão do tópico da pesquisa sem ter uma conexão direta com as duas primeiras abordagens. Os atributos baseados em wavelet-packet, aliados ao SVM, alcançaram 100% de acurácia na identificação do edema de Reinke, seguido pelo resultado do MLP otimizado por PSO. Após aplicar técnicas de redução de atributos e interpretabilidade, foi selecionado um conjunto de 16 atributos que obteve F1-score de 0,62 no cenário mais desafiador entre bancos de dados. Shimmer e o segundo coeficiente MFCC surgiram como os atributos mais relevantes para a detecção de distúrbios vocais, em conformidade com limiares clínicos, reforçando a importância dos atributos escolhidos.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em Engenharia ElétricaUTFPRScalassara, Paulo Rogeriohttps://orcid.org/0000-0001-7169-954Xhttps://lattes.cnpq.br/5016119298122922Castoldi, Marcelo Favorettohttps://lattes.cnpq.br/6178029384175205Scalassara, Paulo Rogeriohttps://lattes.cnpq.br/5016119298122922Guido, Rodrigo Capobiancohttps://orcid.org/0000-0002-0924-8024http://lattes.cnpq.br/6542086226808067Souza, Wesley Angelino dehttps://lattes.cnpq.br/8594457321079718Pignelli, Rogerio2025-08-26T16:58:50Z2025-08-26T16:58:50Z2025-08-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPIGNELLI, Rogerio. Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe. 2025. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/38020enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-08-27T06:12:54Zoai:repositorio.utfpr.edu.br:1/38020Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-08-27T06:12:54Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe Feature selection and machine learning in the detection and classification of voice disorders |
| title |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe |
| spellingShingle |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe Pignelli, Rogerio Patologia Aprendizado do computador Fala Pathology Machine learning Speech CNPQ::CIENCIAS SOCIAIS APLICADAS Engenharia Elétrica |
| title_short |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe |
| title_full |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe |
| title_fullStr |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe |
| title_full_unstemmed |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe |
| title_sort |
Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe |
| author |
Pignelli, Rogerio |
| author_facet |
Pignelli, Rogerio |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Scalassara, Paulo Rogerio https://orcid.org/0000-0001-7169-954X https://lattes.cnpq.br/5016119298122922 Castoldi, Marcelo Favoretto https://lattes.cnpq.br/6178029384175205 Scalassara, Paulo Rogerio https://lattes.cnpq.br/5016119298122922 Guido, Rodrigo Capobianco https://orcid.org/0000-0002-0924-8024 http://lattes.cnpq.br/6542086226808067 Souza, Wesley Angelino de https://lattes.cnpq.br/8594457321079718 |
| dc.contributor.author.fl_str_mv |
Pignelli, Rogerio |
| dc.subject.por.fl_str_mv |
Patologia Aprendizado do computador Fala Pathology Machine learning Speech CNPQ::CIENCIAS SOCIAIS APLICADAS Engenharia Elétrica |
| topic |
Patologia Aprendizado do computador Fala Pathology Machine learning Speech CNPQ::CIENCIAS SOCIAIS APLICADAS Engenharia Elétrica |
| description |
Voice disorders affect millions of people worldwide, compromising communication abilities and often indicating underlying pathologies. The rapid diagnosis of these disorders is crucial for improving patient quality of life. Traditional methods based on visual inspection via laryngoscopy and subjective evaluations by healthcare professionals require significant resources and time. Consequently, speech processing and machine learning techniques have been applied to assist in the pre-diagnosis of laryngeal disorders with the intent of reducing the amount of invasive procedures when not strictly required. In this work, we investigate three distinct approaches. Initially, we employ feature extraction through Wavelet-Packet decomposition for the identification of Reinke’s edema, comparing the performance of SVM and MLP algorithms. Next, optimization algorithms are applied to determine the ideal number of layers and neurons per layer in the MLP, aiming to enhance the identification of Reinke’s edema. Finally, a methodology for interpretability in voice disorder classification is proposed through the careful selection of features, with the objective of identifying the most significant contributors for discriminating among multiple pathologies. Wavelet-packet features with SVM delivered 100% accuracy in the identification of Reinke’s edema with a similar performance achieved by a PSO-optimized MLP. By applying feature reduction and explainability methods, we found 16 features that resulted in F1-score of 0.62 in the most demanding cross-database analysis. Shimmer and the second coefficient of MFCC were the most relevant features for the detection of voice disorders, aligning with clinical threshold and reinforcing the relevance of the selected features. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08-26T16:58:50Z 2025-08-26T16:58:50Z 2025-08-05 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
PIGNELLI, Rogerio. Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe. 2025. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. http://repositorio.utfpr.edu.br/jspui/handle/1/38020 |
| identifier_str_mv |
PIGNELLI, Rogerio. Seleção de atributos e aprendizagem de máquina na detecção e classificação de patologias da laringe. 2025. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/38020 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Engenharia Elétrica UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498352586686464 |