Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: FALCÃO, Igor Wenner Silva lattes
Orientador(a): SERUFFO, Marcos César da Rocha lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Pará
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Instituto de Tecnologia
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufpa.br/jspui/handle/2011/16790
Resumo: A hanseníase é um problema de saúde pública significativo que afeta, em grande parte, populações de baixo nível sócioeconômico. Embora a Organização Mundial da Saúde (OMS) estabeleça diretrizes para diagnóstico, prevenção e tratamento, a detecção da doença enfrenta limitacões, frequentemente resultando em diagnósticos tardios ou imprecisos e levando a complicações neurológicas graves e casos multirresistentes. Portanto, o diagnóstico precoce é essencial para reduzir a carga dessa doença. O aprendizado de máquina vem sendo largamente utilizado em diversas áreas da ciência e da indústria, mas especialmente na saúde, área em que desempenha um papel essencial na análise e tratamento de grandes volumes de dados. Neste sentido, esta tese investiga a aplicação de um modelo baseado em Ciência de Dados e Aprendizado de Máquina para atuar na especificação do perfil clínico de possíveis casos da hanseníase na Região Amazônica e, com isso, poder-se agir preventivamente no diagnóstico precoce e tratamento de pacientes em acompanhamento médico. O trabalho leva em consideracão dados clínicos de pacientes provenientes de um conjunto de dados não públicos, coletados entre 2015 e 2020 na região Norte do Brasil. Logo, esta tese propõe um modelo de aprendizado para identificar grupos clinicamente afetados pela doença usando técnicas de Agrupamento e Random Forest. Nos resultados obtidos, o modelo proposto demonstrou eficiência ao avaliar a probabilidade de indivíduos estarem doentes, alcançando uma precisão de 90,39% na avaliação de performance e identificando uma probabilidade de 83,46% de um indivíduo estar doente, considerando um conjunto de variáveis epidemiológicas e não genéricas. Essa abordagem oferece uma visão promissora para o futuro da saúde, permitindo a formulação de estratégias eficazes para a identificação precoce de possíveis casos.
id UFPA_e9b92f33533212091dc1ef2c2dce2990
oai_identifier_str oai:repositorio.ufpa.br:2011/16790
network_acronym_str UFPA
network_name_str Repositório Institucional da UFPA
repository_id_str
spelling 2025-01-30T18:05:17Z2025-01-30T18:05:17Z2024-12-18FALCÃO, Igor Wenner Silva. Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiologicas da hanseniase na Amazônia. Orientador: Marcos César da Rocha Seruffo.; Coorientador: Diego Lisboa Cardoso. 2024, 86 f. Tese (Doutorado em Engenharia Elétrica) - Instituto de Tecnologia, , Universidade Federal do Pará, Belém, 2024. Disponível em: . Acesso em:.https://repositorio.ufpa.br/jspui/handle/2011/16790A hanseníase é um problema de saúde pública significativo que afeta, em grande parte, populações de baixo nível sócioeconômico. Embora a Organização Mundial da Saúde (OMS) estabeleça diretrizes para diagnóstico, prevenção e tratamento, a detecção da doença enfrenta limitacões, frequentemente resultando em diagnósticos tardios ou imprecisos e levando a complicações neurológicas graves e casos multirresistentes. Portanto, o diagnóstico precoce é essencial para reduzir a carga dessa doença. O aprendizado de máquina vem sendo largamente utilizado em diversas áreas da ciência e da indústria, mas especialmente na saúde, área em que desempenha um papel essencial na análise e tratamento de grandes volumes de dados. Neste sentido, esta tese investiga a aplicação de um modelo baseado em Ciência de Dados e Aprendizado de Máquina para atuar na especificação do perfil clínico de possíveis casos da hanseníase na Região Amazônica e, com isso, poder-se agir preventivamente no diagnóstico precoce e tratamento de pacientes em acompanhamento médico. O trabalho leva em consideracão dados clínicos de pacientes provenientes de um conjunto de dados não públicos, coletados entre 2015 e 2020 na região Norte do Brasil. Logo, esta tese propõe um modelo de aprendizado para identificar grupos clinicamente afetados pela doença usando técnicas de Agrupamento e Random Forest. Nos resultados obtidos, o modelo proposto demonstrou eficiência ao avaliar a probabilidade de indivíduos estarem doentes, alcançando uma precisão de 90,39% na avaliação de performance e identificando uma probabilidade de 83,46% de um indivíduo estar doente, considerando um conjunto de variáveis epidemiológicas e não genéricas. Essa abordagem oferece uma visão promissora para o futuro da saúde, permitindo a formulação de estratégias eficazes para a identificação precoce de possíveis casos.Leprosy is a significant public health problem that largely affects low-income populations. Although the World Health Organization (WHO) establishes guidelines for diagnosis, prevention, and treatment, disease detection faces limitations, often resulting in late or inaccurate diagnoses and leading to serious neurological complications and multidrug-resistant cases. Therefore, early diagnosis is essential to reduce the burden of this disease. Machine learning has been widely used in several areas of science and industry, but especially in health, where it plays an essential role in the analysis and treatment of large volumes of data. In this sense, this thesis investigates the application of a model based on Data Science and Machine Learning to act in the specification of the clinical profile of possible leprosy cases in the Amazon Region and, thus, to be able to act preventively in the early diagnosis and treatment of patients under medical followup. The work takes into account clinical data of patients from a non-public dataset, collected between 2015 and 2020 in the North region of Brazil. Therefore, this thesis proposes a learning model to identify groups clinically affected by the disease using Clustering and Random Forest techniques. In the results obtained, the proposed model demonstrated efficiency in evaluating the probability of individuals being ill, achieving an accuracy of 90.39% in the performance evaluation and identifying a probability of 83.46% of an individual being ill, considering a set of epidemiological and non-generic variables. This approach offers a promising vision for the future of health, allowing the formulation of effective strategies for the early identification of possible cases.Submitted by Luciclea Silva (luci@ufpa.br) on 2025-01-30T18:05:01Z No. of bitstreams: 2 Tese_CienciaDadosAprendizado.pdf: 3238971 bytes, checksum: 5001a0f2e2b6370ec67b895208114921 (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)Approved for entry into archive by Luciclea Silva (luci@ufpa.br) on 2025-01-30T18:05:16Z (GMT) No. of bitstreams: 2 Tese_CienciaDadosAprendizado.pdf: 3238971 bytes, checksum: 5001a0f2e2b6370ec67b895208114921 (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)Made available in DSpace on 2025-01-30T18:05:17Z (GMT). No. of bitstreams: 2 Tese_CienciaDadosAprendizado.pdf: 3238971 bytes, checksum: 5001a0f2e2b6370ec67b895208114921 (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Previous issue date: 2024-12-18porUniversidade Federal do ParáPrograma de Pós-Graduação em Engenharia ElétricaUFPABrasilInstituto de TecnologiaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessDisponível na internet via correio eletrônico: bibliotecaitec@ufpa.brreponame:Repositório Institucional da UFPAinstname:Universidade Federal do Pará (UFPA)instacron:UFPACNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOESCOMPUTAÇÃO APLICADAHanseníaseCiência de dadosFloresta aleatóriaData ScienceClusteringLeprosyCiência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazôniainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisSERUFFO, Marcos César da Rochahttp://lattes.cnpq.br/3794198610723464CARDOSO, Diego Lisboahttp://lattes.cnpq.br/0507944343674734http://lattes.cnpq.br/6677376621642966FALCÃO, Igor Wenner SilvaORIGINALTese_CienciaDadosAprendizado.pdfTese_CienciaDadosAprendizado.pdfapplication/pdf3238971https://repositorio.ufpa.br/oai/bitstream/2011/16790/1/Tese_CienciaDadosAprendizado.pdf5001a0f2e2b6370ec67b895208114921MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpa.br/oai/bitstream/2011/16790/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81890https://repositorio.ufpa.br/oai/bitstream/2011/16790/3/license.txt2b55adef5313c442051bad36d3312b2bMD532011/167902025-01-30 15:12:40.262oai:repositorio.ufpa.br:2011/16790TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gUGFyw6EgKFJJVUZQQSkgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSBkaXN0cmlidWlyIGEgc3VhIHB1YmxpY2HDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gUklVRlBBIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJJVUZQQSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgZGUgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIAoKVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0byBkYSBzdWEgcHVibGljYcOnw6NvIG7Do28sIHF1ZSBzZWphIGRlIHNldSBjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIGFvIFJJVUZQQSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gCm91IG5vIGNvbnRlw7pkbyBkYSBwdWJsaWNhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgUFVCTElDQcOHw4NPIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTywgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIFJJVUZQQSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttp://repositorio.ufpa.br/oai/requestriufpabc@ufpa.bropendoar:21232025-01-30T18:12:40Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)false
dc.title.pt_BR.fl_str_mv Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
title Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
spellingShingle Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
FALCÃO, Igor Wenner Silva
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES
Hanseníase
Ciência de dados
Floresta aleatória
Data Science
Clustering
Leprosy
COMPUTAÇÃO APLICADA
title_short Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
title_full Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
title_fullStr Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
title_full_unstemmed Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
title_sort Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiológica hanseníase na Amazônia
author FALCÃO, Igor Wenner Silva
author_facet FALCÃO, Igor Wenner Silva
author_role author
dc.contributor.advisor1.fl_str_mv SERUFFO, Marcos César da Rocha
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3794198610723464
dc.contributor.advisor-co1.fl_str_mv CARDOSO, Diego Lisboa
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/0507944343674734
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6677376621642966
dc.contributor.author.fl_str_mv FALCÃO, Igor Wenner Silva
contributor_str_mv SERUFFO, Marcos César da Rocha
CARDOSO, Diego Lisboa
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES
Hanseníase
Ciência de dados
Floresta aleatória
Data Science
Clustering
Leprosy
COMPUTAÇÃO APLICADA
dc.subject.por.fl_str_mv Hanseníase
Ciência de dados
Floresta aleatória
dc.subject.eng.fl_str_mv Data Science
Clustering
Leprosy
dc.subject.areadeconcentracao.pt_BR.fl_str_mv COMPUTAÇÃO APLICADA
description A hanseníase é um problema de saúde pública significativo que afeta, em grande parte, populações de baixo nível sócioeconômico. Embora a Organização Mundial da Saúde (OMS) estabeleça diretrizes para diagnóstico, prevenção e tratamento, a detecção da doença enfrenta limitacões, frequentemente resultando em diagnósticos tardios ou imprecisos e levando a complicações neurológicas graves e casos multirresistentes. Portanto, o diagnóstico precoce é essencial para reduzir a carga dessa doença. O aprendizado de máquina vem sendo largamente utilizado em diversas áreas da ciência e da indústria, mas especialmente na saúde, área em que desempenha um papel essencial na análise e tratamento de grandes volumes de dados. Neste sentido, esta tese investiga a aplicação de um modelo baseado em Ciência de Dados e Aprendizado de Máquina para atuar na especificação do perfil clínico de possíveis casos da hanseníase na Região Amazônica e, com isso, poder-se agir preventivamente no diagnóstico precoce e tratamento de pacientes em acompanhamento médico. O trabalho leva em consideracão dados clínicos de pacientes provenientes de um conjunto de dados não públicos, coletados entre 2015 e 2020 na região Norte do Brasil. Logo, esta tese propõe um modelo de aprendizado para identificar grupos clinicamente afetados pela doença usando técnicas de Agrupamento e Random Forest. Nos resultados obtidos, o modelo proposto demonstrou eficiência ao avaliar a probabilidade de indivíduos estarem doentes, alcançando uma precisão de 90,39% na avaliação de performance e identificando uma probabilidade de 83,46% de um indivíduo estar doente, considerando um conjunto de variáveis epidemiológicas e não genéricas. Essa abordagem oferece uma visão promissora para o futuro da saúde, permitindo a formulação de estratégias eficazes para a identificação precoce de possíveis casos.
publishDate 2024
dc.date.issued.fl_str_mv 2024-12-18
dc.date.accessioned.fl_str_mv 2025-01-30T18:05:17Z
dc.date.available.fl_str_mv 2025-01-30T18:05:17Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FALCÃO, Igor Wenner Silva. Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiologicas da hanseniase na Amazônia. Orientador: Marcos César da Rocha Seruffo.; Coorientador: Diego Lisboa Cardoso. 2024, 86 f. Tese (Doutorado em Engenharia Elétrica) - Instituto de Tecnologia, , Universidade Federal do Pará, Belém, 2024. Disponível em: . Acesso em:.
dc.identifier.uri.fl_str_mv https://repositorio.ufpa.br/jspui/handle/2011/16790
identifier_str_mv FALCÃO, Igor Wenner Silva. Ciência de dados e aprendizado de máquina aplicados ao estudo de variáveis epidemiologicas da hanseniase na Amazônia. Orientador: Marcos César da Rocha Seruffo.; Coorientador: Diego Lisboa Cardoso. 2024, 86 f. Tese (Doutorado em Engenharia Elétrica) - Instituto de Tecnologia, , Universidade Federal do Pará, Belém, 2024. Disponível em: . Acesso em:.
url https://repositorio.ufpa.br/jspui/handle/2011/16790
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Pará
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFPA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Tecnologia
publisher.none.fl_str_mv Universidade Federal do Pará
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPA
instname:Universidade Federal do Pará (UFPA)
instacron:UFPA
instname_str Universidade Federal do Pará (UFPA)
instacron_str UFPA
institution UFPA
reponame_str Repositório Institucional da UFPA
collection Repositório Institucional da UFPA
dc.source.uri.pt_BR.fl_str_mv Disponível na internet via correio eletrônico: bibliotecaitec@ufpa.br
bitstream.url.fl_str_mv https://repositorio.ufpa.br/oai/bitstream/2011/16790/1/Tese_CienciaDadosAprendizado.pdf
https://repositorio.ufpa.br/oai/bitstream/2011/16790/2/license_rdf
https://repositorio.ufpa.br/oai/bitstream/2011/16790/3/license.txt
bitstream.checksum.fl_str_mv 5001a0f2e2b6370ec67b895208114921
e39d27027a6cc9cb039ad269a5db8e34
2b55adef5313c442051bad36d3312b2b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)
repository.mail.fl_str_mv riufpabc@ufpa.br
_version_ 1842907982415790080