Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Serra
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ifes.edu.br/handle/123456789/5800 |
Resumo: | Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de Modelos |
| id |
IFES-2_4e6225b0b540332440405c5b753f772d |
|---|---|
| oai_identifier_str |
oai:repositorio.ifes.edu.br:123456789/5800 |
| network_acronym_str |
IFES-2 |
| network_name_str |
Repositório Institucional do IFES |
| repository_id_str |
|
| spelling |
Moreira, Lucas Pinheiro BadaróColovati, Veronica Luiza Vale EuclydesOliveira, Hilario Tomaz Alves deSimões, Sergio Nery2025-03-06T18:01:40Z2025-03-06T18:01:40Z2024Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024.https://repositorio.ifes.edu.br/handle/123456789/580030004012075P4Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de ModelosOver the past two decades, the volume of biological and clinical data has grown exponen tially, driven by technological advancements such as next-generation sequencing (NGS) and large-scale initiatives like the Human Genome Project (1990–2003) and The Cancer Genome Atlas (TCGA, 2006–2018). In the last decade alone, TCGA has generated more than 2.5 petabytes of genomic, epigenomic, transcriptomic, and proteomic data related to 33 types of cancer. This growth has intensified the demand for data science techniques to enable advanced analyses and the discovery of meaningful patterns. Machine learning (ML) has played a crucial role in healthcare, with applications including risk prediction, assisted diagnosis, drug discovery, and hospital resource optimization. For instance, ML algorithms have been used to identify genetic mutations associated with specific types of cancer in genomic data, aiding in early diagnosis and personalized treatments. However, applying ML involves complex pipelines encompassing preparation, modeling, validation, and explainability analysis—critical steps in clinical settings that require trust and trans parency. Additionally, many clinical datasets have hierarchical (multisection) structures, increasing the complexity of exploratory and predictive analyses. Performing experiments with diverse combinations of input and output variables can also be labor-intensive and error-prone. To address these challenges, the framework AutoBioLearn was developed to automate ML processes, from preprocessing to model evaluation and explainability. The framework incorporates explainability techniques (XAI), such as SHAP, and is designed to simplify experiment setup, promoting greater efficiency and transparency in analytical processes. The AutoBioLearn source code is available as an open-source project, encour aging adoption and improvement by the scientific community. The methodology involved developing integrated modules for preparation, modeling, and explainability, validated using public clinical datasets. In tests conducted, AutoBioLearn reduced the lines of code required to configure pipelines by up to 90% while maintaining performance comparable to similar state-of-the-art frameworks. Thus, AutoBioLearn emerges as a promising solution to accelerate analyses performed by data scientists and healthcare professionals, enabling explainable analyses of clinical data and allowing greater focus on result interpretation and the generation of relevant insights. Keywords: Framework, Machine Learning, Clinical Data, Explainability (XAI), Model Interpretation128 f.Aprendizado de máquinaMachine LearningSaúdeDados clínicosExplainable Artificial Intelligence (XAI)AutoBioLearnAutobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSerrainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional do IFESinstname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)instacron:IFESCampus SerraLICENSElicense.txtlicense.txttext/plain; charset=utf-8934https://repositorio.ifes.edu.br/bitstreams/87bb6518-4242-40b1-90e0-f52cba951725/downloadac7cb971050ed632be934da23d966924MD52falseAnonymousREADTEXTLucas Pinheiro Badaró Moreira.pdf.txtLucas Pinheiro Badaró Moreira.pdf.txtExtracted texttext/plain253558https://repositorio.ifes.edu.br/bitstreams/a78c45ea-a8c0-4b85-a9da-dff7fcd3256d/download9dbd4fdf0d06e68774f540e12bdf6ab5MD53falseAnonymousREADTHUMBNAILLucas Pinheiro Badaró Moreira.pdf.jpgLucas Pinheiro Badaró Moreira.pdf.jpgGenerated Thumbnailimage/jpeg2272https://repositorio.ifes.edu.br/bitstreams/c1081f96-e6bb-4879-b6ec-0fcb9898ceac/downloadeb4ce3e89724f8d894e538143877808cMD54falseAnonymousREADORIGINALLucas Pinheiro Badaró Moreira.pdfLucas Pinheiro Badaró Moreira.pdfapplication/pdf8665532https://repositorio.ifes.edu.br/bitstreams/32416dd3-cd4c-4e77-b140-b0d601d6acbc/download09119ecafde1fdc6b82ce463e6b85d4fMD51trueAnonymousREAD123456789/58002025-08-27T18:07:20.292Zopen.accessoai:repositorio.ifes.edu.br:123456789/5800https://repositorio.ifes.edu.brRepositório InstitucionalPUBhttps://repositorio.ifes.edu.br/server/oai/requestrepositorio@ifes.edu.bropendoar:2025-08-27T18:07:20Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES)falseQXV0b3JlcyBxdWUgc3VibWV0ZW0gYSBlc3RhIGNvbmZlcsOqbmNpYSBjb25jb3JkYW0gY29tIG9zIHNlZ3VpbnRlcyB0ZXJtb3M6CmEpIEF1dG9yZXMgbWFudMOpbSBvcyBkaXJlaXRvcyBhdXRvcmFpcyBzb2JyZSBvIHRyYWJhbGhvLCBwZXJtaXRpbmRvIMOgIGNvbmZlcsOqbmNpYSBjb2xvY8OhLWxvIHNvYiB1bWEgbGljZW7Dp2EgTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbiwgcXVlIHBlcm1pdGUgbGl2cmVtZW50ZSBhIG91dHJvcyBhY2Vzc2FyLCB1c2FyIGUgY29tcGFydGlsaGFyIG8gdHJhYmFsaG8gY29tIG8gY3LDqWRpdG8gZGUgYXV0b3JpYSBlIGFwcmVzZW50YcOnw6NvIGluaWNpYWwgbmVzdGEgY29uZmVyw6puY2lhLgpiKSBBdXRvcmVzIHBvZGVtIGFicmlyIG3Do28gZG9zIHRlcm1vcyBkYSBsaWNlbsOnYSBDQyBlIGRlZmluaXIgY29udHJhdG9zIGFkaWNpb25haXMgcGFyYSBhIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhIGUgc3Vic2Vxw7xlbnRlIHB1YmxpY2HDp8OjbyBkZXN0ZSB0cmFiYWxobyAoZXguOiBwdWJsaWNhciB1bWEgdmVyc8OjbyBhdHVhbGl6YWRhIGVtIHVtIHBlcmnDs2RpY28sIGRpc3BvbmliaWxpemFyIGVtIHJlcG9zaXTDs3JpbyBpbnN0aXR1Y2lvbmFsLCBvdSBwdWJsaWPDoS1sbyBlbSBsaXZybyksIGNvbSBvIGNyw6lkaXRvIGRlIGF1dG9yaWEgZSBhcHJlc2VudGHDp8OjbyBpbmljaWFsIG5lc3RhIGNvbmZlcsOqbmNpYS4KYykgQWzDqW0gZGlzc28sIGF1dG9yZXMgc8OjbyBpbmNlbnRpdmFkb3MgYSBwdWJsaWNhciBlIGNvbXBhcnRpbGhhciBzZXVzIHRyYWJhbGhvcyBvbmxpbmUgKGV4LjogZW0gcmVwb3NpdMOzcmlvIGluc3RpdHVjaW9uYWwgb3UgZW0gc3VhIHDDoWdpbmEgcGVzc29hbCkgYSBxdWFscXVlciBtb21lbnRvIGFudGVzIGUgZGVwb2lzIGRhIGNvbmZlcsOqCg== |
| dc.title.pt_BR.fl_str_mv |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos |
| title |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos |
| spellingShingle |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos Moreira, Lucas Pinheiro Badaró Aprendizado de máquina Machine Learning Saúde Dados clínicos Explainable Artificial Intelligence (XAI) AutoBioLearn |
| title_short |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos |
| title_full |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos |
| title_fullStr |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos |
| title_full_unstemmed |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos |
| title_sort |
Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos |
| author |
Moreira, Lucas Pinheiro Badaró |
| author_facet |
Moreira, Lucas Pinheiro Badaró |
| author_role |
author |
| dc.contributor.member.none.fl_str_mv |
Colovati, Veronica Luiza Vale Euclydes Oliveira, Hilario Tomaz Alves de |
| dc.contributor.author.fl_str_mv |
Moreira, Lucas Pinheiro Badaró |
| dc.contributor.advisor1.fl_str_mv |
Simões, Sergio Nery |
| contributor_str_mv |
Simões, Sergio Nery |
| dc.subject.por.fl_str_mv |
Aprendizado de máquina Machine Learning Saúde Dados clínicos Explainable Artificial Intelligence (XAI) AutoBioLearn |
| topic |
Aprendizado de máquina Machine Learning Saúde Dados clínicos Explainable Artificial Intelligence (XAI) AutoBioLearn |
| description |
Nas últimas duas décadas, o volume de dados biológicos e clínicos cresceu exponencialmente, impulsionado por avanços tecnológicos, como o sequenciamento de nova geração (NGS), e por iniciativas de grande escala, como o Projeto Genoma Humano (1990–2003) e o The Cancer Genome Atlas (TCGA, 2006–2018). Apenas na última década, o TCGA gerou mais de 2,5 petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos relacionados a 33 tipos de câncer. Esse crescimento intensificou a demanda por técnicas de ciência de dados para análises avançadas e descoberta de padrões significativos. O aprendizado de máquina (ML) tem desempenhado um papel crucial na área da saúde, com aplicações que incluem predição de riscos, diagnósticos assistidos, descoberta de medicamentos e otimização de recursos hospitalares. Por exemplo, algoritmos de ML têm sido utilizados para identificar mutações genéticas associadas a determinados tipos de câncer em dados genômicos, auxiliando no diagnóstico precoce e em tratamentos personalizados. No entanto, a aplicação de ML envolve pipelines complexos que abrangem preparação, modelagem, validação e análise de explicabilidade, etapas críticas em cenários clínicos que demandam confiança e transparência. Além disso, muitos conjuntos de dados clínicos possuem estruturas hierárquicas (multisseção), o que aumenta a complexidade das análises exploratórias e preditivas, enquanto a realização de experimentos com diversas combinações de variáveis de entrada e saída pode ser trabalhosa e suscetível a erros. Para enfrentar esses desafios, foi desenvolvido o AutoBioLearn, um arcabouço que automatiza as etapas de aprendizado de máquina, desde o pré-processamento até a avaliação e explicabilidade dos modelos. O arcabouço incorpora técnicas de explicabilidade (XAI), como SHAP, e foi projetado para simplificar a configuração de experimentos, promovendo maior eficiência e transparência nos processos analíticos. O código-fonte do AutoBioLearn está disponível como projeto de código aberto, incentivando sua utilização e aprimoramento pela comunidade científica. A metodologia incluiu o desenvolvimento de módulos integrados para preparação, modelagem e explicabilidade, validados em bases públicas de dados clínicos. Em testes realizados, o AutoBioLearn reduziu em até 90% o número de linhas de código necessárias para configurar pipelines, mantendo desempenho comparável ao de arcabouços similares do estado da arte. Assim, o AutoBioLearn apresenta-se como uma solução promissora para acelerar análises realizadas por cientistas de dados e profissionais da saúde, facilitando análises explicáveis de dados clínicos e permitindo maior foco na interpretação de resultados e geração de insights relevantes. Palavras-chave: Arcabouço, Aprendizado de Máquina, Dados Clínicos, Explicabilidade (XAI), Interpretação de Modelos |
| publishDate |
2024 |
| dc.date.issued.fl_str_mv |
2024 |
| dc.date.accessioned.fl_str_mv |
2025-03-06T18:01:40Z |
| dc.date.available.fl_str_mv |
2025-03-06T18:01:40Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ifes.edu.br/handle/123456789/5800 |
| dc.identifier.capes.pt_BR.fl_str_mv |
30004012075P4 |
| identifier_str_mv |
Moreira, Lucas Pinheiro Badaró. Autobiolearn : um arcabouço para automação de modelos de aprendizado de máquina e explicabilidade em dados clínicos. 2024. 128 f. Dissertação (Mestrado em Computação Aplicada ) - Instituto Federal do Espírito Santo, Serra, 2024. 30004012075P4 |
| url |
https://repositorio.ifes.edu.br/handle/123456789/5800 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
128 f. |
| dc.publisher.none.fl_str_mv |
Serra |
| publisher.none.fl_str_mv |
Serra |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional do IFES instname:Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) instacron:IFES |
| instname_str |
Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) |
| instacron_str |
IFES |
| institution |
IFES |
| reponame_str |
Repositório Institucional do IFES |
| collection |
Repositório Institucional do IFES |
| bitstream.url.fl_str_mv |
https://repositorio.ifes.edu.br/bitstreams/87bb6518-4242-40b1-90e0-f52cba951725/download https://repositorio.ifes.edu.br/bitstreams/a78c45ea-a8c0-4b85-a9da-dff7fcd3256d/download https://repositorio.ifes.edu.br/bitstreams/c1081f96-e6bb-4879-b6ec-0fcb9898ceac/download https://repositorio.ifes.edu.br/bitstreams/32416dd3-cd4c-4e77-b140-b0d601d6acbc/download |
| bitstream.checksum.fl_str_mv |
ac7cb971050ed632be934da23d966924 9dbd4fdf0d06e68774f540e12bdf6ab5 eb4ce3e89724f8d894e538143877808c 09119ecafde1fdc6b82ce463e6b85d4f |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional do IFES - Instituto Federal de Educação, Ciência e Tecnologia do Espírito Santo (IFES) |
| repository.mail.fl_str_mv |
repositorio@ifes.edu.br |
| _version_ |
1865654665994043392 |