Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Moreira, Lucas Pinheiro Badaró
Orientador(a): Simões, Sergio Nery
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Serra
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ifes.edu.br/handle/123456789/5800
Resumo: Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de Modelos
id IFES-2_4e6225b0b540332440405c5b753f772d
oai_identifier_str oai:repositorio.ifes.edu.br:123456789/5800
network_acronym_str IFES-2
network_name_str Repositório Institucional do IFES
repository_id_str
spelling Moreira, Lucas Pinheiro BadaróColovati, Veronica Luiza Vale EuclydesOliveira, Hilario Tomaz Alves deSimões, Sergio Nery2025-03-06T18:01:40Z2025-03-06T18:01:40Z2024Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024.https://repositorio.ifes.edu.br/handle/123456789/580030004012075P4Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de ModelosOver the past two decades, the volume of biological and clinical data has grown exponen tially, driven by technological advancements such as next-generation sequencing (NGS) and large-scale initiatives like the Human Genome Project (1990–2003) and The Cancer Genome Atlas (TCGA, 2006–2018). In the last decade alone, TCGA has generated more than 2.5 petabytes of genomic, epigenomic, transcriptomic, and proteomic data related to 33 types of cancer. This growth has intensified the demand for data science techniques to enable advanced analyses and the discovery of meaningful patterns. Machine learning (ML) has played a crucial role in healthcare, with applications including risk prediction, assisted diagnosis, drug discovery, and hospital resource optimization. For instance, ML algorithms have been used to identify genetic mutations associated with specific types of cancer in genomic data, aiding in early diagnosis and personalized treatments. However, applying ML involves complex pipelines encompassing preparation, modeling, validation, and explainability analysis—critical steps in clinical settings that require trust and trans parency. Additionally, many clinical datasets have hierarchical (multisection) structures, increasing the complexity of exploratory and predictive analyses. Performing experiments with diverse combinations of input and output variables can also be labor-intensive and error-prone. To address these challenges, the framework AutoBioLearn was developed to automate ML processes, from preprocessing to model evaluation and explainability. The framework incorporates explainability techniques (XAI), such as SHAP, and is designed to simplify experiment setup, promoting greater efficiency and transparency in analytical processes. The AutoBioLearn source code is available as an open-source project, encour aging adoption and improvement by the scientific community. The methodology involved developing integrated modules for preparation, modeling, and explainability, validated using public clinical datasets. In tests conducted, AutoBioLearn reduced the lines of code required to configure pipelines by up to 90% while maintaining performance comparable to similar state-of-the-art frameworks. Thus, AutoBioLearn emerges as a promising solution to accelerate analyses performed by data scientists and healthcare professionals, enabling explainable analyses of clinical data and allowing greater focus on result interpretation and the generation of relevant insights. Keywords: Framework, Machine Learning, Clinical Data, Explainability (XAI), Model Interpretation128 f.Aprendizado de máquinaMachine LearningSaúdeDados clínicosExplainable Artificial Intelligence (XAI)AutoBioLearnAutobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/87bb6518-4242-40b1-90e0-f52cba951725/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTLucas Pinheiro Badaró Moreira.pdf.txtLucas Pinheiro Badaró Moreira.pdf.txtExtracted texttext/plain253558https://repositorio.ifes.edu.br/bitstreams/a78c45ea-a8c0-4b85-a9da-dff7fcd3256d/download9dbd4fdf0d06e68774f540e12bdf6ab5MD53falseAnonymousREADTHUMBNAILLucas Pinheiro Badaró Moreira.pdf.jpgLucas Pinheiro Badaró Moreira.pdf.jpgGenerated Thumbnailimage/jpeg2272https://repositorio.ifes.edu.br/bitstreams/c1081f96-e6bb-4879-b6ec-0fcb9898ceac/downloadeb4ce3e89724f8d894e538143877808cMD54falseAnonymousREADORIGINALLucas Pinheiro Badaró Moreira.pdfLucas Pinheiro Badaró Moreira.pdfapplication/pdf8665532https://repositorio.ifes.edu.br/bitstreams/32416dd3-cd4c-4e77-b140-b0d601d6acbc/download09119ecafde1fdc6b82ce463e6b85d4fMD51trueAnonymousREAD123456789/58002025-08-27T18:07:20.292Zopen.accessoai:repositorio.ifes.edu.br:123456789/5800https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-08-27T18:07:20Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
spellingShingle Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
Moreira, Lucas Pinheiro Badaró
Aprendizado de máquina
Machine Learning
Saúde
Dados clínicos
Explainable Artificial Intelligence (XAI)
AutoBioLearn
title_short Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_full Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_fullStr Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_full_unstemmed Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_sort Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
author Moreira, Lucas Pinheiro Badaró
author_facet Moreira, Lucas Pinheiro Badaró
author_role author
dc.contributor.member.none.fl_str_mv Colovati, Veronica Luiza Vale Euclydes
Oliveira, Hilario Tomaz Alves de
dc.contributor.author.fl_str_mv Moreira, Lucas Pinheiro Badaró
dc.contributor.advisor1.fl_str_mv Simões, Sergio Nery
contributor_str_mv Simões, Sergio Nery
dc.subject.por.fl_str_mv Aprendizado de máquina
Machine Learning
Saúde
Dados clínicos
Explainable Artificial Intelligence (XAI)
AutoBioLearn
topic Aprendizado de máquina
Machine Learning
Saúde
Dados clínicos
Explainable Artificial Intelligence (XAI)
AutoBioLearn
description Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de Modelos
publishDate 2024
dc.date.issued.fl_str_mv 2024
dc.date.accessioned.fl_str_mv 2025-03-06T18:01:40Z
dc.date.available.fl_str_mv 2025-03-06T18:01:40Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024.
dc.identifier.uri.fl_str_mv https://repositorio.ifes.edu.br/handle/123456789/5800
dc.identifier.capes.pt_BR.fl_str_mv 30004012075P4
identifier_str_mv Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024.
30004012075P4
url https://repositorio.ifes.edu.br/handle/123456789/5800
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 128 f.
dc.publisher.none.fl_str_mv Serra
publisher.none.fl_str_mv Serra
dc.source.none.fl_str_mv reponame:Repositório Institucional do IFES
instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron:IFES
instname_str Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str IFES
institution IFES
reponame_str Repositório Institucional do IFES
collection Repositório Institucional do IFES
bitstream.url.fl_str_mv https://repositorio.ifes.edu.br/bitstreams/87bb6518-4242-40b1-90e0-f52cba951725/download
https://repositorio.ifes.edu.br/bitstreams/a78c45ea-a8c0-4b85-a9da-dff7fcd3256d/download
https://repositorio.ifes.edu.br/bitstreams/c1081f96-e6bb-4879-b6ec-0fcb9898ceac/download
https://repositorio.ifes.edu.br/bitstreams/32416dd3-cd4c-4e77-b140-b0d601d6acbc/download
bitstream.checksum.fl_str_mv ac7cb971050ed632be934da23d966924
9dbd4fdf0d06e68774f540e12bdf6ab5
eb4ce3e89724f8d894e538143877808c
09119ecafde1fdc6b82ce463e6b85d4f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv repositorio@ifes.edu.br
_version_ 1865654665994043392