Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil

Oliveira, João Paulo Scoralick de

Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Oliveira, João Paulo Scoralick de
Orientador(a):	Goliatt, Priscila Vanessa Zabala Capriles
Banca de defesa:	Bernardino, Heder Soares , Colugnati, Fernando Antonio Basile, Augusto, Douglas Adriano , Silva, Eduardo Krempser da
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação:	Programa de Pós-graduação em Modelagem Computacional
Departamento:	ICE – Instituto de Ciências Exatas
País:	Brasil
Palavras-chave em Português:	Aprendizado de máquina Algoritmo de classificação Doença renal crônica Taxa de filtração glomerular Sistema único de saúde Machine learning Classification algorithm Chronic kidney disease Glomerular filtration rate Public health system
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA
Link de acesso:	https://repositorio.ufjf.br/jspui/handle/ufjf/17794
Resumo:	A doença renal crônica (DRC) é um grave problema de saúde pública tanto no Brasil quanto no mundo. Caracterizada pela perda progressiva e irreversível da função renal, a DRC apresenta uma prevalência média projetada de 9,5% na população adulta mundial. No Brasil, milhões de indivíduos possuem o diagnóstico da doença, tendo esse número atingido um total estimado de 17 milhões em 2017. Intervenções precoces podem retardar sua progressão e reduzir a necessidade de terapias renais substitutivas. A antecipação da detecção da DRC, em cada um de seus seis estágios de gravidade, é essencial para o adequado manejo clínico dos pacientes, representando o método mais eficaz para a redução dos custos associados ao tratamento. O objetivo desta tese foi desenvolver cenários de aplicação de algoritmos e técnicas de aprendizado de máquina (AM) para a predição dos estágios da DRC, utilizando uma base de dados de saúde pública do Brasil, composta por mais de sete mil registros que incluem informações pessoais, socioeconômicas, clínicas e laboratoriais dos pacientes. A proposta foi explorar diferentes combinações de variáveis preditoras que pudessem servir de base para a aplicação de métodos de AM capazes de predizer a progressão da doença, reduzindo a dependência de marcadores tradicionais, como a creatinina sérica, amplamente utilizada nos trabalhos da literatura relacionada. A partir dessas combinações de variáveis relacionadas a exames clínicos e dados pessoais, esta tese também teve como objetivo identificar o menor conjunto viável de variáveis preditoras dos seis estágios da DRC. Para o desenvolvimento dos cenários, foram exploradas três diferentes configurações da base de dados, com o objetivo de extrair distintas perspectivas sobre a representação do conteúdo. Métodos variados foram aplicados para a inferência de dados faltantes, juntamente com técnicas voltadas ao balanceamento dos dados, seleção de variáveis relevantes e divisão dos dados para fins de classificação. Adicionalmente, uma série de algoritmos supervisionados de AM, com diferentes fundamentações e objetivos, foram empregados para permitir uma análise comparativa dos resultados. Em cada cenário proposto, os resultados obtidos variaram. No primeiro, com classificações realizadas pelo algoritmo de floresta aleatória (RF, do inglês random forest), todas as abordagens apresentaram valores elevados de acurácia, exceto o agrupamento que não incluiu a creatinina sérica como variável preditora. No segundo cenário, composto por 25 variáveis e sem a inclusão da creatinina, o algoritmo extreme gradient boosting (XGBoost) apresentou alta acurácia, comparável aos valores reportados na literatura, em estudos que fazem uso da creatinina em suas análises. No terceiro cenário, o desbalanceamento da base de dados foi tratado com diferentes métodos e a classificação considerou apenas três variáveis preditoras. Embora os resultados gerais tenham ficado aquém do esperado, alguns se revelaram promissores para a detecção dos estágios iniciais da DRC. No quarto cenário, a inferência de dados faltantes foi abordada por meio do conceito de cópulas, mas os resultados foram insatisfatórios. Por fim, o quinto cenário foi o mais completo em termos de organização, tratamento, seleção e classificação dos dados. Entretanto, as novas abordagens não resultaram em melhorias significativas nos resultados. Em conclusão, uma parte dos cenários desenvolvidos foi bem sucedida em corresponder aos objetivos delineados nesta tese, sobretudo por não prescindir do uso de marcadores tradicionais da doença. Os resultados promissores possivelmente poderiam ser avaliados para o uso na prática clínica diária e no auxílio ao diagnóstico precoce da doença renal crônica.

Metadados do item

id	UFJF_e38a32e755d199950cdbfed5ab5f79b0
oai_identifier_str	oai:hermes.cpd.ufjf.br:ufjf/17794
network_acronym_str	UFJF
network_name_str	Repositório Institucional da UFJF
repository_id_str
spelling	Goliatt, Priscila Vanessa Zabala Caprileshttp://lattes.cnpq.brFonseca, Leonardo Goliatt dahttp://lattes.cnpq.brBernardino, Heder Soareshttp://lattes.cnpq.brColugnati, Fernando Antonio Basilehttp://lattes.cnpq.brAugusto, Douglas Adrianohttp://buscatextual.cnpq.brSilva, Eduardo Krempser dahttp://lattes.cnpq.brhttp://buscatextual.cnpq.brOliveira, João Paulo Scoralick de2024-11-25T15:22:37Z2024-11-252024-11-25T15:22:37Z2024-09-12https://repositorio.ufjf.br/jspui/handle/ufjf/17794A doença renal crônica (DRC) é um grave problema de saúde pública tanto no Brasil quanto no mundo. Caracterizada pela perda progressiva e irreversível da função renal, a DRC apresenta uma prevalência média projetada de 9,5% na população adulta mundial. No Brasil, milhões de indivíduos possuem o diagnóstico da doença, tendo esse número atingido um total estimado de 17 milhões em 2017. Intervenções precoces podem retardar sua progressão e reduzir a necessidade de terapias renais substitutivas. A antecipação da detecção da DRC, em cada um de seus seis estágios de gravidade, é essencial para o adequado manejo clínico dos pacientes, representando o método mais eficaz para a redução dos custos associados ao tratamento. O objetivo desta tese foi desenvolver cenários de aplicação de algoritmos e técnicas de aprendizado de máquina (AM) para a predição dos estágios da DRC, utilizando uma base de dados de saúde pública do Brasil, composta por mais de sete mil registros que incluem informações pessoais, socioeconômicas, clínicas e laboratoriais dos pacientes. A proposta foi explorar diferentes combinações de variáveis preditoras que pudessem servir de base para a aplicação de métodos de AM capazes de predizer a progressão da doença, reduzindo a dependência de marcadores tradicionais, como a creatinina sérica, amplamente utilizada nos trabalhos da literatura relacionada. A partir dessas combinações de variáveis relacionadas a exames clínicos e dados pessoais, esta tese também teve como objetivo identificar o menor conjunto viável de variáveis preditoras dos seis estágios da DRC. Para o desenvolvimento dos cenários, foram exploradas três diferentes configurações da base de dados, com o objetivo de extrair distintas perspectivas sobre a representação do conteúdo. Métodos variados foram aplicados para a inferência de dados faltantes, juntamente com técnicas voltadas ao balanceamento dos dados, seleção de variáveis relevantes e divisão dos dados para fins de classificação. Adicionalmente, uma série de algoritmos supervisionados de AM, com diferentes fundamentações e objetivos, foram empregados para permitir uma análise comparativa dos resultados. Em cada cenário proposto, os resultados obtidos variaram. No primeiro, com classificações realizadas pelo algoritmo de floresta aleatória (RF, do inglês random forest), todas as abordagens apresentaram valores elevados de acurácia, exceto o agrupamento que não incluiu a creatinina sérica como variável preditora. No segundo cenário, composto por 25 variáveis e sem a inclusão da creatinina, o algoritmo extreme gradient boosting (XGBoost) apresentou alta acurácia, comparável aos valores reportados na literatura, em estudos que fazem uso da creatinina em suas análises. No terceiro cenário, o desbalanceamento da base de dados foi tratado com diferentes métodos e a classificação considerou apenas três variáveis preditoras. Embora os resultados gerais tenham ficado aquém do esperado, alguns se revelaram promissores para a detecção dos estágios iniciais da DRC. No quarto cenário, a inferência de dados faltantes foi abordada por meio do conceito de cópulas, mas os resultados foram insatisfatórios. Por fim, o quinto cenário foi o mais completo em termos de organização, tratamento, seleção e classificação dos dados. Entretanto, as novas abordagens não resultaram em melhorias significativas nos resultados. Em conclusão, uma parte dos cenários desenvolvidos foi bem sucedida em corresponder aos objetivos delineados nesta tese, sobretudo por não prescindir do uso de marcadores tradicionais da doença. Os resultados promissores possivelmente poderiam ser avaliados para o uso na prática clínica diária e no auxílio ao diagnóstico precoce da doença renal crônica.Chronic kidney disease (CKD) represents a significant public health concern in Brazil and globally. Characterized by the progressive and irreversible loss of kidney function, CKD has an estimated average prevalence of 9.5% among the global adult population. In Brazil, millions have been diagnosed with the disease, with the total reaching an estimated 17 million in 2017. Early interventions can slow disease progression and reduce the need for renal replacement therapies. Early detection of CKD across its six clinical stages is critical for appropriate clinical management and is the most effective approach to reducing treatment-associated costs. This thesis aimed to develop application scenarios for algorithms and machine learning (ML) techniques to predict CKD stages using a Brazilian public health database comprising over seven thousand records containing personal, socioeconomic, clinical, and laboratory information from patients. The proposal explored various combinations of predictor variables to serve as a basis for ML methods capable of predicting disease progression, thereby reducing reliance on traditional markers such as serum creatinine, commonly used in related literature. Based on these variable combinations, connected to clinical exams and personal data, this work also sought to identify the smallest viable set of predictor variables for the six stages of CKD. In developing the scenarios, three different dataset configurations were explored to derive distinct perspectives on content representation. Various methods were applied to infer missing data, along with techniques aimed at balancing the data, selecting relevant variables, and partitioning the data for classification purposes. Additionally, supervised ML algorithms with diverse theoretical foundations and objectives were employed to facilitate a comparative analysis of the results. The outcomes varied across the proposed scenarios. In the first scenario, classifications were performed using the random forest (RF) algorithm, with all approaches achieving high accuracy, except for the dataset excluding serum creatinine as a predictor variable. In the second scenario, which included 25 variables but excluded creatinine, the extreme gradient boosting (XGBoost) algorithm demonstrated high accuracy comparable to values reported in the literature, despite the latter’s inclusion of creatinine. In the third scenario, dataset imbalance was addressed using different methods, and classification was performed based on only three predictor variables. Although the overall results did not meet expectations, some findings were promising for detecting early CKD stages. In the fourth scenario, missing data inference was handled using the copula-based approach, but results were unsatisfactory. Lastly, the fifth scenario was the most comprehensive in terms of data organization, processing, selection, and classification; however, the new approaches did not lead to significant improvements in results. In conclusion, some of the developed scenarios successfully met the objectives outlined in this thesis, especially as they retained the use of traditional disease markers. The promising results may have potential applications in daily clinical practice and could assist in the early diagnosis of chronic kidney disease.porUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Modelagem ComputacionalUFJFBrasilICE – Instituto de Ciências ExatasAttribution-ShareAlike 3.0 Brazilhttp://creativecommons.org/licenses/by-sa/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRAAprendizado de máquinaAlgoritmo de classificaçãoDoença renal crônicaTaxa de filtração glomerularSistema único de saúdeMachine learningClassification algorithmChronic kidney diseaseGlomerular filtration ratePublic health systemCenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasilinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/2/license_rdf9b85e4235558a2887c2be3998124b615MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53ORIGINALjoaopauloscoralickdeoliveira.pdfjoaopauloscoralickdeoliveira.pdfapplication/pdf7244809https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/1/joaopauloscoralickdeoliveira.pdf66c778de03b3e79d01737286cbfaa9e4MD51TEXTjoaopauloscoralickdeoliveira.pdf.txtjoaopauloscoralickdeoliveira.pdf.txtExtracted texttext/plain319740https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/4/joaopauloscoralickdeoliveira.pdf.txt7011ea89c91d2c8a50e3940f4fdc1216MD54THUMBNAILjoaopauloscoralickdeoliveira.pdf.jpgjoaopauloscoralickdeoliveira.pdf.jpgGenerated Thumbnailimage/jpeg1170https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/5/joaopauloscoralickdeoliveira.pdf.jpgbbe5d5d21b761165ab03b04e0b9378a8MD55ufjf/177942024-11-26 04:06:29.462oai:hermes.cpd.ufjf.br:ufjf/17794Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2024-11-26T06:06:29Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil
title	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil
spellingShingle	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil Oliveira, João Paulo Scoralick de CNPQ::CIENCIAS EXATAS E DA TERRA Aprendizado de máquina Algoritmo de classificação Doença renal crônica Taxa de filtração glomerular Sistema único de saúde Machine learning Classification algorithm Chronic kidney disease Glomerular filtration rate Public health system
title_short	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil
title_full	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil
title_fullStr	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil
title_full_unstemmed	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil
title_sort	Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil
author	Oliveira, João Paulo Scoralick de
author_facet	Oliveira, João Paulo Scoralick de
author_role	author
dc.contributor.advisor1.fl_str_mv	Goliatt, Priscila Vanessa Zabala Capriles
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br
dc.contributor.advisor-co1.fl_str_mv	Fonseca, Leonardo Goliatt da
dc.contributor.advisor-co1Lattes.fl_str_mv	http://lattes.cnpq.br
dc.contributor.referee1.fl_str_mv	Bernardino, Heder Soares
dc.contributor.referee1Lattes.fl_str_mv	http://lattes.cnpq.br
dc.contributor.referee2.fl_str_mv	Colugnati, Fernando Antonio Basile
dc.contributor.referee2Lattes.fl_str_mv	http://lattes.cnpq.br
dc.contributor.referee3.fl_str_mv	Augusto, Douglas Adriano
dc.contributor.referee3Lattes.fl_str_mv	http://buscatextual.cnpq.br
dc.contributor.referee4.fl_str_mv	Silva, Eduardo Krempser da
dc.contributor.referee4Lattes.fl_str_mv	http://lattes.cnpq.br
dc.contributor.authorLattes.fl_str_mv	http://buscatextual.cnpq.br
dc.contributor.author.fl_str_mv	Oliveira, João Paulo Scoralick de
contributor_str_mv	Goliatt, Priscila Vanessa Zabala Capriles Fonseca, Leonardo Goliatt da Bernardino, Heder Soares Colugnati, Fernando Antonio Basile Augusto, Douglas Adriano Silva, Eduardo Krempser da
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA
topic	CNPQ::CIENCIAS EXATAS E DA TERRA Aprendizado de máquina Algoritmo de classificação Doença renal crônica Taxa de filtração glomerular Sistema único de saúde Machine learning Classification algorithm Chronic kidney disease Glomerular filtration rate Public health system
dc.subject.por.fl_str_mv	Aprendizado de máquina Algoritmo de classificação Doença renal crônica Taxa de filtração glomerular Sistema único de saúde Machine learning Classification algorithm Chronic kidney disease Glomerular filtration rate Public health system
description	A doença renal crônica (DRC) é um grave problema de saúde pública tanto no Brasil quanto no mundo. Caracterizada pela perda progressiva e irreversível da função renal, a DRC apresenta uma prevalência média projetada de 9,5% na população adulta mundial. No Brasil, milhões de indivíduos possuem o diagnóstico da doença, tendo esse número atingido um total estimado de 17 milhões em 2017. Intervenções precoces podem retardar sua progressão e reduzir a necessidade de terapias renais substitutivas. A antecipação da detecção da DRC, em cada um de seus seis estágios de gravidade, é essencial para o adequado manejo clínico dos pacientes, representando o método mais eficaz para a redução dos custos associados ao tratamento. O objetivo desta tese foi desenvolver cenários de aplicação de algoritmos e técnicas de aprendizado de máquina (AM) para a predição dos estágios da DRC, utilizando uma base de dados de saúde pública do Brasil, composta por mais de sete mil registros que incluem informações pessoais, socioeconômicas, clínicas e laboratoriais dos pacientes. A proposta foi explorar diferentes combinações de variáveis preditoras que pudessem servir de base para a aplicação de métodos de AM capazes de predizer a progressão da doença, reduzindo a dependência de marcadores tradicionais, como a creatinina sérica, amplamente utilizada nos trabalhos da literatura relacionada. A partir dessas combinações de variáveis relacionadas a exames clínicos e dados pessoais, esta tese também teve como objetivo identificar o menor conjunto viável de variáveis preditoras dos seis estágios da DRC. Para o desenvolvimento dos cenários, foram exploradas três diferentes configurações da base de dados, com o objetivo de extrair distintas perspectivas sobre a representação do conteúdo. Métodos variados foram aplicados para a inferência de dados faltantes, juntamente com técnicas voltadas ao balanceamento dos dados, seleção de variáveis relevantes e divisão dos dados para fins de classificação. Adicionalmente, uma série de algoritmos supervisionados de AM, com diferentes fundamentações e objetivos, foram empregados para permitir uma análise comparativa dos resultados. Em cada cenário proposto, os resultados obtidos variaram. No primeiro, com classificações realizadas pelo algoritmo de floresta aleatória (RF, do inglês random forest), todas as abordagens apresentaram valores elevados de acurácia, exceto o agrupamento que não incluiu a creatinina sérica como variável preditora. No segundo cenário, composto por 25 variáveis e sem a inclusão da creatinina, o algoritmo extreme gradient boosting (XGBoost) apresentou alta acurácia, comparável aos valores reportados na literatura, em estudos que fazem uso da creatinina em suas análises. No terceiro cenário, o desbalanceamento da base de dados foi tratado com diferentes métodos e a classificação considerou apenas três variáveis preditoras. Embora os resultados gerais tenham ficado aquém do esperado, alguns se revelaram promissores para a detecção dos estágios iniciais da DRC. No quarto cenário, a inferência de dados faltantes foi abordada por meio do conceito de cópulas, mas os resultados foram insatisfatórios. Por fim, o quinto cenário foi o mais completo em termos de organização, tratamento, seleção e classificação dos dados. Entretanto, as novas abordagens não resultaram em melhorias significativas nos resultados. Em conclusão, uma parte dos cenários desenvolvidos foi bem sucedida em corresponder aos objetivos delineados nesta tese, sobretudo por não prescindir do uso de marcadores tradicionais da doença. Os resultados promissores possivelmente poderiam ser avaliados para o uso na prática clínica diária e no auxílio ao diagnóstico precoce da doença renal crônica.
publishDate	2024
dc.date.accessioned.fl_str_mv	2024-11-25T15:22:37Z
dc.date.available.fl_str_mv	2024-11-25 2024-11-25T15:22:37Z
dc.date.issued.fl_str_mv	2024-09-12
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufjf.br/jspui/handle/ufjf/17794
url	https://repositorio.ufjf.br/jspui/handle/ufjf/17794
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-sa/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-ShareAlike 3.0 Brazil http://creativecommons.org/licenses/by-sa/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv	Programa de Pós-graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv	UFJF
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFJF instname:Universidade Federal de Juiz de Fora (UFJF) instacron:UFJF
instname_str	Universidade Federal de Juiz de Fora (UFJF)
instacron_str	UFJF
institution	UFJF
reponame_str	Repositório Institucional da UFJF
collection	Repositório Institucional da UFJF
bitstream.url.fl_str_mv	https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/2/license_rdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/3/license.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/1/joaopauloscoralickdeoliveira.pdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/4/joaopauloscoralickdeoliveira.pdf.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/17794/5/joaopauloscoralickdeoliveira.pdf.jpg
bitstream.checksum.fl_str_mv	9b85e4235558a2887c2be3998124b615 8a4605be74aa9ea9d79846c1fba20a33 66c778de03b3e79d01737286cbfaa9e4 7011ea89c91d2c8a50e3940f4fdc1216 bbe5d5d21b761165ab03b04e0b9378a8
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_	1833922343441793024

Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil

Registros relacionados