[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE

LUCAS GOMES MADDALENA

[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	LUCAS GOMES MADDALENA
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	MAXWELL
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	[pt] BERT [pt] ESTRUTURA VETORIAL SEMANTICAMENTE ENRIQUECIDA [pt] PREDICAO DE SEPSE [pt] LLM LARGE LANGUAGE MODEL [en] BERT [en] SEMANTICALLY-ENRICHED EMBEDDING [en] SEPSE PREDICTION [en] LLM LARGE LANGUAGE MODEL
Link de acesso:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=2 http://doi.org/10.17771/PUCRio.acad.70205
Resumo:	[pt] A detecção precoce e precisa de sepse durante a hospitalização é crucial, pois trata-se de uma condição com risco de vida e implicações significativas para os desfechos dos pacientes. Os Registros Eletrônicos de Saúde (EHRs) oferecem uma vasta quantidade de informações, incluindo dados textuais não estruturados, que frequentemente contêm insights mais detalhados do que os dados estruturados convencionais. Para processar esses dados textuais, uma variedade de métodos de Processamento de Linguagem Natural (NLP) tem sido empregada, embora com eficácia limitada. Avanços recentes em recursos computacionais levaram ao desenvolvimento dos Modelos Grandes de Linguagem (LLMs), capazes de processar grandes volumes de texto, identificar relações e padrões entre palavras e estruturá-los em embeddings. Isso permite que os LLMs extraiam insights significativos dentro de domínios específicos. Apesar desses avanços, os LLMs enfrentam desafios para capturar a semântica do mundo real em textos clínicos, essencial para compreender as interconexões complexas entre os termos e garantir precisão terminológica. Este trabalho propõe um estudo de caso utilizando o Clinical KB BERT, uma abordagem para criar estruturas vetoriais, chamadas de embeddings, das notas clínicas de pacientes em UTI que incorpora informações semânticas da ontologia do Unified Medical Language System (UMLS). Ao integrar conhecimento específico do domínio proveniente do UMLS, o Clinical KB BERT busca melhorar a compreensão semântica dos dados clínicos, aprimorando o desempenho preditivo dos modelos resultantes. O presente estudo compara o Clinical KB BERT com o Clinical BERT, um modelo amplamente utilizado no domínio da saúde. Os resultados experimentais demonstram que embeddings semanticamente enriquecidos produziram um modelo mais preciso e com menor incerteza para a predição precoce de sepse. Especificamente, o modelo aumentou a Área sob a Curva Característica de Operação do Receptor (AUC-ROC) de 0,826 para 0,853, enquanto a entropia preditiva média para todo o conjunto de teste diminuiu de 0,159 para 0,142. Além disso, a redução da entropia preditiva média foi ainda mais pronunciada nos casos em que ambos os modelos fizeram previsões corretas, diminuindo de 0,148 para 0,129. Vale destacar que os impactos práticos dessas melhorias incluem uma redução substancial no número de falsos negativos (de 162 para 128, em um total de 227 casos de sepse), enfatizando a capacidade do modelo semanticamente consciente de reduzir diagnósticos precoces perdidos e melhorar os desfechos dos pacientes.

Metadados do item

id	PUC_RIO-1_10a25d1bc51bed7d87d154c82969bb5e
oai_identifier_str	oai:MAXWELL.puc-rio.br:70205
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE[en] EVALUATING ONTOLOGICALLY-AWARE LARGE LANGUAGE MODELS: AN EXPERIMENT IN SEPSIS PREDICTION[pt] BERT[pt] ESTRUTURA VETORIAL SEMANTICAMENTE ENRIQUECIDA[pt] PREDICAO DE SEPSE[pt] LLM LARGE LANGUAGE MODEL[en] BERT[en] SEMANTICALLY-ENRICHED EMBEDDING[en] SEPSE PREDICTION[en] LLM LARGE LANGUAGE MODEL[pt] A detecção precoce e precisa de sepse durante a hospitalização é crucial, pois trata-se de uma condição com risco de vida e implicações significativas para os desfechos dos pacientes. Os Registros Eletrônicos de Saúde (EHRs) oferecem uma vasta quantidade de informações, incluindo dados textuais não estruturados, que frequentemente contêm insights mais detalhados do que os dados estruturados convencionais. Para processar esses dados textuais, uma variedade de métodos de Processamento de Linguagem Natural (NLP) tem sido empregada, embora com eficácia limitada. Avanços recentes em recursos computacionais levaram ao desenvolvimento dos Modelos Grandes de Linguagem (LLMs), capazes de processar grandes volumes de texto, identificar relações e padrões entre palavras e estruturá-los em embeddings. Isso permite que os LLMs extraiam insights significativos dentro de domínios específicos. Apesar desses avanços, os LLMs enfrentam desafios para capturar a semântica do mundo real em textos clínicos, essencial para compreender as interconexões complexas entre os termos e garantir precisão terminológica. Este trabalho propõe um estudo de caso utilizando o Clinical KB BERT, uma abordagem para criar estruturas vetoriais, chamadas de embeddings, das notas clínicas de pacientes em UTI que incorpora informações semânticas da ontologia do Unified Medical Language System (UMLS). Ao integrar conhecimento específico do domínio proveniente do UMLS, o Clinical KB BERT busca melhorar a compreensão semântica dos dados clínicos, aprimorando o desempenho preditivo dos modelos resultantes. O presente estudo compara o Clinical KB BERT com o Clinical BERT, um modelo amplamente utilizado no domínio da saúde. Os resultados experimentais demonstram que embeddings semanticamente enriquecidos produziram um modelo mais preciso e com menor incerteza para a predição precoce de sepse. Especificamente, o modelo aumentou a Área sob a Curva Característica de Operação do Receptor (AUC-ROC) de 0,826 para 0,853, enquanto a entropia preditiva média para todo o conjunto de teste diminuiu de 0,159 para 0,142. Além disso, a redução da entropia preditiva média foi ainda mais pronunciada nos casos em que ambos os modelos fizeram previsões corretas, diminuindo de 0,148 para 0,129. Vale destacar que os impactos práticos dessas melhorias incluem uma redução substancial no número de falsos negativos (de 162 para 128, em um total de 227 casos de sepse), enfatizando a capacidade do modelo semanticamente consciente de reduzir diagnósticos precoces perdidos e melhorar os desfechos dos pacientes.[en] Early and accurate detection of sepsis during hospitalization is critical, as it is a life-threatening condition with significant implications for patient outcomes. Electronic Health Records (EHRs) offer a wealth of information, including unstructured textual data, often containing more nuanced insights than regular structured data. To process such textual data, a variety of Natural Language Processing (NLP) methods have been employed with limited effectiveness. Recent advancements in computational resources have led to the development of Large Language Models (LLMs), which can effectively process vast amounts of text to identify relationships and patterns between words and structure them into embeddings. This enables LLMs to extract meaningful insights within specific domains. Despite these advances, LLMs face challenges in capturing the real-world semantics of clinical texts, which are critical for understanding the complex interconnections among terms and ensuring terminological precision. This work proposes a case study using Clinical KB BERT, an approach for embedding clinical notes of ICU patients that incorporates semantic information from the Unified Medical Language System (UMLS) ontology. By integrating domain-specific knowledge from UMLS, Clinical KB BERT aims to improve the semantic understanding of clinical data, thus enhancing the predictive performance of the resulting models. The present study compares Clinical KB BERT against Clinical BERT, a widely used model in the healthcare domain. The experimental results demonstrate that semantically enriched embeddings produced a more accurate and less uncertain model for the early prediction of sepsis. Specifically, it increased the Area Under the Receiver Operating Characteristic Curve (AUC-ROC) from 0.826 to 0.853, while the mean predictive entropy for the entire test dataset decreased from 0.159 to 0.142. Furthermore, the reduction in mean predictive entropy was even more pronounced in cases where both models made correct predictions, decreasing from 0.148 to 0.129. Noteworthy, the practical impacts of these improvements include a substantial decrease in the number of false negatives (from 162 to 128, out of 227 septic cases), emphasizing the ability of the semantically aware model in reducing missed early diagnoses, and improving patient outcomes.MAXWELLFERNANDA ARAUJO BAIAO AMORIMFERNANDA ARAUJO BAIAO AMORIMLUCAS GOMES MADDALENA2025-05-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=2http://doi.org/10.17771/PUCRio.acad.70205engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2025-05-02T00:00:00Zoai:MAXWELL.puc-rio.br:70205Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342025-05-02T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE [en] EVALUATING ONTOLOGICALLY-AWARE LARGE LANGUAGE MODELS: AN EXPERIMENT IN SEPSIS PREDICTION
title	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE
spellingShingle	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE LUCAS GOMES MADDALENA [pt] BERT [pt] ESTRUTURA VETORIAL SEMANTICAMENTE ENRIQUECIDA [pt] PREDICAO DE SEPSE [pt] LLM LARGE LANGUAGE MODEL [en] BERT [en] SEMANTICALLY-ENRICHED EMBEDDING [en] SEPSE PREDICTION [en] LLM LARGE LANGUAGE MODEL
title_short	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE
title_full	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE
title_fullStr	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE
title_full_unstemmed	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE
title_sort	[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE
author	LUCAS GOMES MADDALENA
author_facet	LUCAS GOMES MADDALENA
author_role	author
dc.contributor.none.fl_str_mv	FERNANDA ARAUJO BAIAO AMORIM FERNANDA ARAUJO BAIAO AMORIM
dc.contributor.author.fl_str_mv	LUCAS GOMES MADDALENA
dc.subject.por.fl_str_mv	[pt] BERT [pt] ESTRUTURA VETORIAL SEMANTICAMENTE ENRIQUECIDA [pt] PREDICAO DE SEPSE [pt] LLM LARGE LANGUAGE MODEL [en] BERT [en] SEMANTICALLY-ENRICHED EMBEDDING [en] SEPSE PREDICTION [en] LLM LARGE LANGUAGE MODEL
topic	[pt] BERT [pt] ESTRUTURA VETORIAL SEMANTICAMENTE ENRIQUECIDA [pt] PREDICAO DE SEPSE [pt] LLM LARGE LANGUAGE MODEL [en] BERT [en] SEMANTICALLY-ENRICHED EMBEDDING [en] SEPSE PREDICTION [en] LLM LARGE LANGUAGE MODEL
description	[pt] A detecção precoce e precisa de sepse durante a hospitalização é crucial, pois trata-se de uma condição com risco de vida e implicações significativas para os desfechos dos pacientes. Os Registros Eletrônicos de Saúde (EHRs) oferecem uma vasta quantidade de informações, incluindo dados textuais não estruturados, que frequentemente contêm insights mais detalhados do que os dados estruturados convencionais. Para processar esses dados textuais, uma variedade de métodos de Processamento de Linguagem Natural (NLP) tem sido empregada, embora com eficácia limitada. Avanços recentes em recursos computacionais levaram ao desenvolvimento dos Modelos Grandes de Linguagem (LLMs), capazes de processar grandes volumes de texto, identificar relações e padrões entre palavras e estruturá-los em embeddings. Isso permite que os LLMs extraiam insights significativos dentro de domínios específicos. Apesar desses avanços, os LLMs enfrentam desafios para capturar a semântica do mundo real em textos clínicos, essencial para compreender as interconexões complexas entre os termos e garantir precisão terminológica. Este trabalho propõe um estudo de caso utilizando o Clinical KB BERT, uma abordagem para criar estruturas vetoriais, chamadas de embeddings, das notas clínicas de pacientes em UTI que incorpora informações semânticas da ontologia do Unified Medical Language System (UMLS). Ao integrar conhecimento específico do domínio proveniente do UMLS, o Clinical KB BERT busca melhorar a compreensão semântica dos dados clínicos, aprimorando o desempenho preditivo dos modelos resultantes. O presente estudo compara o Clinical KB BERT com o Clinical BERT, um modelo amplamente utilizado no domínio da saúde. Os resultados experimentais demonstram que embeddings semanticamente enriquecidos produziram um modelo mais preciso e com menor incerteza para a predição precoce de sepse. Especificamente, o modelo aumentou a Área sob a Curva Característica de Operação do Receptor (AUC-ROC) de 0,826 para 0,853, enquanto a entropia preditiva média para todo o conjunto de teste diminuiu de 0,159 para 0,142. Além disso, a redução da entropia preditiva média foi ainda mais pronunciada nos casos em que ambos os modelos fizeram previsões corretas, diminuindo de 0,148 para 0,129. Vale destacar que os impactos práticos dessas melhorias incluem uma redução substancial no número de falsos negativos (de 162 para 128, em um total de 227 casos de sepse), enfatizando a capacidade do modelo semanticamente consciente de reduzir diagnósticos precoces perdidos e melhorar os desfechos dos pacientes.
publishDate	2025
dc.date.none.fl_str_mv	2025-05-02
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=2 http://doi.org/10.17771/PUCRio.acad.70205
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70205&idi=2 http://doi.org/10.17771/PUCRio.acad.70205
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1856395971295969280

[pt] AVALIANDO GRANDES MODELOS DE LINGUAGEM COMPROMETIDOS ONTOLOGICAMENTE: UM EXPERIMENTO EM PREDIÇÃO DE SEPSE

Registros relacionados