Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos

Moreira, Lucas Pinheiro Badaró

Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Moreira, Lucas Pinheiro Badaró
Orientador(a):	Simões, Sergio Nery
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Serra
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado de máquina Machine Learning Saúde Dados clínicos Explainable Artificial Intelligence (XAI) AutoBioLearn
Link de acesso:	https://repositorio.ifes.edu.br/handle/123456789/5800
Resumo:	Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de Modelos

Metadados do item

id	IFES-2_4e6225b0b540332440405c5b753f772d
oai_identifier_str	oai:repositorio.ifes.edu.br:123456789/5800
network_acronym_str	IFES-2
network_name_str	Repositório Institucional do IFES
repository_id_str
spelling	Moreira, Lucas Pinheiro BadaróColovati, Veronica Luiza Vale EuclydesOliveira, Hilario Tomaz Alves deSimões, Sergio Nery2025-03-06T18:01:40Z2025-03-06T18:01:40Z2024Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024.https://repositorio.ifes.edu.br/handle/123456789/580030004012075P4Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de ModelosOver the past two decades, the volume of biological and clinical data has grown exponen tially, driven by technological advancements such as next-generation sequencing (NGS) and large-scale initiatives like the Human Genome Project (1990–2003) and The Cancer Genome Atlas (TCGA, 2006–2018). In the last decade alone, TCGA has generated more than 2.5 petabytes of genomic, epigenomic, transcriptomic, and proteomic data related to 33 types of cancer. This growth has intensified the demand for data science techniques to enable advanced analyses and the discovery of meaningful patterns. Machine learning (ML) has played a crucial role in healthcare, with applications including risk prediction, assisted diagnosis, drug discovery, and hospital resource optimization. For instance, ML algorithms have been used to identify genetic mutations associated with specific types of cancer in genomic data, aiding in early diagnosis and personalized treatments. However, applying ML involves complex pipelines encompassing preparation, modeling, validation, and explainability analysis—critical steps in clinical settings that require trust and trans parency. Additionally, many clinical datasets have hierarchical (multisection) structures, increasing the complexity of exploratory and predictive analyses. Performing experiments with diverse combinations of input and output variables can also be labor-intensive and error-prone. To address these challenges, the framework AutoBioLearn was developed to automate ML processes, from preprocessing to model evaluation and explainability. The framework incorporates explainability techniques (XAI), such as SHAP, and is designed to simplify experiment setup, promoting greater efficiency and transparency in analytical processes. The AutoBioLearn source code is available as an open-source project, encour aging adoption and improvement by the scientific community. The methodology involved developing integrated modules for preparation, modeling, and explainability, validated using public clinical datasets. In tests conducted, AutoBioLearn reduced the lines of code required to configure pipelines by up to 90% while maintaining performance comparable to similar state-of-the-art frameworks. Thus, AutoBioLearn emerges as a promising solution to accelerate analyses performed by data scientists and healthcare professionals, enabling explainable analyses of clinical data and allowing greater focus on result interpretation and the generation of relevant insights. Keywords: Framework, Machine Learning, Clinical Data, Explainability (XAI), Model Interpretation128 f.Aprendizado de máquinaMachine LearningSaúdeDados clínicosExplainable Artificial Intelligence (XAI)AutoBioLearnAutobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/87bb6518-4242-40b1-90e0-f52cba951725/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTLucas Pinheiro Badaró Moreira.pdf.txtLucas Pinheiro Badaró Moreira.pdf.txtExtracted texttext/plain253558https://repositorio.ifes.edu.br/bitstreams/a78c45ea-a8c0-4b85-a9da-dff7fcd3256d/download9dbd4fdf0d06e68774f540e12bdf6ab5MD53falseAnonymousREADTHUMBNAILLucas Pinheiro Badaró Moreira.pdf.jpgLucas Pinheiro Badaró Moreira.pdf.jpgGenerated Thumbnailimage/jpeg2272https://repositorio.ifes.edu.br/bitstreams/c1081f96-e6bb-4879-b6ec-0fcb9898ceac/downloadeb4ce3e89724f8d894e538143877808cMD54falseAnonymousREADORIGINALLucas Pinheiro Badaró Moreira.pdfLucas Pinheiro Badaró Moreira.pdfapplication/pdf8665532https://repositorio.ifes.edu.br/bitstreams/32416dd3-cd4c-4e77-b140-b0d601d6acbc/download09119ecafde1fdc6b82ce463e6b85d4fMD51trueAnonymousREAD123456789/58002025-08-27T18:07:20.292Zopen.accessoai:repositorio.ifes.edu.br:123456789/5800https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-08-27T18:07:20Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg==
dc.title.pt_BR.fl_str_mv	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
spellingShingle	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos Moreira, Lucas Pinheiro Badaró Aprendizado de máquina Machine Learning Saúde Dados clínicos Explainable Artificial Intelligence (XAI) AutoBioLearn
title_short	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_full	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_fullStr	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_full_unstemmed	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
title_sort	Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
author	Moreira, Lucas Pinheiro Badaró
author_facet	Moreira, Lucas Pinheiro Badaró
author_role	author
dc.contributor.member.none.fl_str_mv	Colovati, Veronica Luiza Vale Euclydes Oliveira, Hilario Tomaz Alves de
dc.contributor.author.fl_str_mv	Moreira, Lucas Pinheiro Badaró
dc.contributor.advisor1.fl_str_mv	Simões, Sergio Nery
contributor_str_mv	Simões, Sergio Nery
dc.subject.por.fl_str_mv	Aprendizado de máquina Machine Learning Saúde Dados clínicos Explainable Artificial Intelligence (XAI) AutoBioLearn
topic	Aprendizado de máquina Machine Learning Saúde Dados clínicos Explainable Artificial Intelligence (XAI) AutoBioLearn
description	Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de Modelos
publishDate	2024
dc.date.issued.fl_str_mv	2024
dc.date.accessioned.fl_str_mv	2025-03-06T18:01:40Z
dc.date.available.fl_str_mv	2025-03-06T18:01:40Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024.
dc.identifier.uri.fl_str_mv	https://repositorio.ifes.edu.br/handle/123456789/5800
dc.identifier.capes.pt_BR.fl_str_mv	30004012075P4
identifier_str_mv	Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024. 30004012075P4
url	https://repositorio.ifes.edu.br/handle/123456789/5800
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	128 f.
dc.publisher.none.fl_str_mv	Serra
publisher.none.fl_str_mv	Serra
dc.source.none.fl_str_mv	reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES
instname_str	Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
instacron_str	IFES
institution	IFES
reponame_str	Repositório Institucional do IFES
collection	Repositório Institucional do IFES
bitstream.url.fl_str_mv	https://repositorio.ifes.edu.br/bitstreams/87bb6518-4242-40b1-90e0-f52cba951725/download https://repositorio.ifes.edu.br/bitstreams/a78c45ea-a8c0-4b85-a9da-dff7fcd3256d/download https://repositorio.ifes.edu.br/bitstreams/c1081f96-e6bb-4879-b6ec-0fcb9898ceac/download https://repositorio.ifes.edu.br/bitstreams/32416dd3-cd4c-4e77-b140-b0d601d6acbc/download
bitstream.checksum.fl_str_mv	ac7cb971050ed632be934da23d966924 9dbd4fdf0d06e68774f540e12bdf6ab5 eb4ce3e89724f8d894e538143877808c 09119ecafde1fdc6b82ce463e6b85d4f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)
repository.mail.fl_str_mv	repositorio@ifes.edu.br
_version_	1865654665994043392

Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos

Registros relacionados