A semantic interoperability model based on NLP for nonstructured health data

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Mello, Blanda Helena de
Orientador(a): Rigo, Sandro José
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação Aplicada
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.jesuita.org.br/handle/UNISINOS/13608
Resumo: O domínio da saúde enfrenta desafios significativos no gerenciamento do crescente volume de dados gerados diariamente, particularmente na coleta e compartilhamento dessas informações. Profissionais de saúde, como médicos, enfermeiros, radiologistas, cardiologistas, cirurgiões e outros especialistas frequentemente inserem dados de pacientes em sistemas eletrônicos, geralmente em um formato textual aberto e não estruturado. Uma revisão da literatura revela vários desafios no processamento de dados do mundo real, com uma questão crítica sendo a escassez de ferramentas e dicionários disponíveis em português para o setor de saúde. Essa lacuna, juntamente com os desafios únicos inerentes ao processamento de dados de saúde, adiciona considerável complexidade à extração e estruturação de informações essenciais de registros clínicos. Além disso, garantir a interoperabilidade de dados entre diferentes provedores de saúde se torna desafiador quando esses provedores não visam inicialmente a interoperabilidade durante a coleta de dados. Observando esses desafios, esta pesquisa propôs um modelo para permitir a interoperabilidade semântica de notas clínicas de sistemas de prontuários eletrônicos. A metodologia usada nesta pesquisa tem um caráter aplicado e exploratório, e foi avaliada por meio do desenvolvimento de um protótipo. Esta abordagem visa mapear as limitações atuais no processamento e integração de dados, especificamente no contexto de notas clínicas em português brasileiro, e criar um modelo flexível que possa tratar dados do mundo real de forma mais eficaz na estruturação e compartilhamento de dados. Esta pesquisa faz parte do projeto MinhaSaudeDigital (MSD), uma colaboração entre a universidade e seis hospitais de Porto Alegre, que forneceram dados de pacientes hospitalizados que testaram positivo para COVID-19, garantindo um problema do mundo real para o contexto de dados de saúde. Foram analisadas as características dos dados com relação à interoperabilidade entre provedores e proposto um modelo que envolve técnicas híbridas para extração de informações, normalização lexical e estruturação de dados para harmonização de padrões. Assim, definiu-se um conjunto de experimentos que emprega o aprendizado de máquina, combinando a arquitetura Transformers para reconhecimento de entidades com processamento de linguagem natural para normalização lexical e correspondência semântica, por adotando ontologias OWL como uma estrutura de representação intermediária. Os experimentos revelaram três contribuições principais. Primeiro, o desenvolvimento de um conjunto de dados anotados especializados, classificando seis entidades com 18.666 anotações validadas por especialistas em 314 documentos. Em segundo lugar, conduzidos experimentos usando modelos BERT ajustados em um pequeno conjunto de dados para reconhecimento de entidades, alcançando 95% de precisão, com taxas de precisão de 90% para classificar entidades relacionadas a Procedimentos Invasivos ou Terapêuticos e 89% para Doenças ou Síndromes e Procedimentos Diagnósticos. Esses resultados demonstram a eficácia do modelo na extração de informações relevantes de notas clínicas não estruturadas. Terceiro, ontologias como estruturas de representação intermediárias garantiram a consistência semântica necessária à interoperabilidade mantendo um formato independente. As limitações e oportunidades para estudos futuros desta pesquisa incluem a aplicação do modelo a dados de diferentes domínios, como notas de enfermagem, odontologia, contexto clínico e registros de responsabilidade. Outro tópico é a lacuna na desambiguação de termos e alinhamento semântico em dados de saúde, com foco na vinculação de terminologias a dados estruturados, garantindo codificação internacional para dados clínicos e permitindo a interoperabilidade entre fronteiras. Finalmente, esta pesquisa visa contribuir para a continuidade do cuidado e saúde do cidadão e orientar desenvolvedores e provedores na construção de plataformas robustas e complexas que implementem o uso de padrões de saúde. Também espera-se que cada vez mais profissionais e gestores de saúde melhorem a assistência médica em todo o mundo por meio da adoção de padrões internacionais em sistemas de prontuários eletrônicos.
id USIN_7e8ac8c8b2b4a5d780f3eadfb64b02b4
oai_identifier_str oai:www.repositorio.jesuita.org.br:UNISINOS/13608
network_acronym_str USIN
network_name_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling 2025-04-03T11:50:20Z2025-04-03T11:50:20Z2024-11-13Submitted by Jeferson Carlos da Veiga Rodrigues (jveigar@unisinos.br) on 2025-04-03T11:50:20Z No. of bitstreams: 1 Blanda Helena de Mello_.pdf: 7623793 bytes, checksum: 87a407b519957b82b3fc2570710d8ed8 (MD5)Made available in DSpace on 2025-04-03T11:50:20Z (GMT). No. of bitstreams: 1 Blanda Helena de Mello_.pdf: 7623793 bytes, checksum: 87a407b519957b82b3fc2570710d8ed8 (MD5) Previous issue date: 2024-11-13O domínio da saúde enfrenta desafios significativos no gerenciamento do crescente volume de dados gerados diariamente, particularmente na coleta e compartilhamento dessas informações. Profissionais de saúde, como médicos, enfermeiros, radiologistas, cardiologistas, cirurgiões e outros especialistas frequentemente inserem dados de pacientes em sistemas eletrônicos, geralmente em um formato textual aberto e não estruturado. Uma revisão da literatura revela vários desafios no processamento de dados do mundo real, com uma questão crítica sendo a escassez de ferramentas e dicionários disponíveis em português para o setor de saúde. Essa lacuna, juntamente com os desafios únicos inerentes ao processamento de dados de saúde, adiciona considerável complexidade à extração e estruturação de informações essenciais de registros clínicos. Além disso, garantir a interoperabilidade de dados entre diferentes provedores de saúde se torna desafiador quando esses provedores não visam inicialmente a interoperabilidade durante a coleta de dados. Observando esses desafios, esta pesquisa propôs um modelo para permitir a interoperabilidade semântica de notas clínicas de sistemas de prontuários eletrônicos. A metodologia usada nesta pesquisa tem um caráter aplicado e exploratório, e foi avaliada por meio do desenvolvimento de um protótipo. Esta abordagem visa mapear as limitações atuais no processamento e integração de dados, especificamente no contexto de notas clínicas em português brasileiro, e criar um modelo flexível que possa tratar dados do mundo real de forma mais eficaz na estruturação e compartilhamento de dados. Esta pesquisa faz parte do projeto MinhaSaudeDigital (MSD), uma colaboração entre a universidade e seis hospitais de Porto Alegre, que forneceram dados de pacientes hospitalizados que testaram positivo para COVID-19, garantindo um problema do mundo real para o contexto de dados de saúde. Foram analisadas as características dos dados com relação à interoperabilidade entre provedores e proposto um modelo que envolve técnicas híbridas para extração de informações, normalização lexical e estruturação de dados para harmonização de padrões. Assim, definiu-se um conjunto de experimentos que emprega o aprendizado de máquina, combinando a arquitetura Transformers para reconhecimento de entidades com processamento de linguagem natural para normalização lexical e correspondência semântica, por adotando ontologias OWL como uma estrutura de representação intermediária. Os experimentos revelaram três contribuições principais. Primeiro, o desenvolvimento de um conjunto de dados anotados especializados, classificando seis entidades com 18.666 anotações validadas por especialistas em 314 documentos. Em segundo lugar, conduzidos experimentos usando modelos BERT ajustados em um pequeno conjunto de dados para reconhecimento de entidades, alcançando 95% de precisão, com taxas de precisão de 90% para classificar entidades relacionadas a Procedimentos Invasivos ou Terapêuticos e 89% para Doenças ou Síndromes e Procedimentos Diagnósticos. Esses resultados demonstram a eficácia do modelo na extração de informações relevantes de notas clínicas não estruturadas. Terceiro, ontologias como estruturas de representação intermediárias garantiram a consistência semântica necessária à interoperabilidade mantendo um formato independente. As limitações e oportunidades para estudos futuros desta pesquisa incluem a aplicação do modelo a dados de diferentes domínios, como notas de enfermagem, odontologia, contexto clínico e registros de responsabilidade. Outro tópico é a lacuna na desambiguação de termos e alinhamento semântico em dados de saúde, com foco na vinculação de terminologias a dados estruturados, garantindo codificação internacional para dados clínicos e permitindo a interoperabilidade entre fronteiras. Finalmente, esta pesquisa visa contribuir para a continuidade do cuidado e saúde do cidadão e orientar desenvolvedores e provedores na construção de plataformas robustas e complexas que implementem o uso de padrões de saúde. Também espera-se que cada vez mais profissionais e gestores de saúde melhorem a assistência médica em todo o mundo por meio da adoção de padrões internacionais em sistemas de prontuários eletrônicos.The healthcare domain faces significant challenges in managing the rapidly growing volume of data generated daily, particularly in the collection and sharing of this information. Healthcare professionals such as physicians, nurses, radiologists, cardiologists, surgeons, and other specialists frequently enter patient data into electronic systems, often in an open, unstructured textual format. We conducted a literature review that reveals several challenges in processing real-world data, with one critical issue being the scarcity of tools and dictionaries available in Portuguese for the healthcare sector. This gap, coupled with the unique challenges inherent in healthcare data processing, adds considerable complexity to extracting and structuring essential information from clinical records. Additionally, ensuring data interoperability between different healthcare providers becomes challenging when these providers do not initially aim for interoperability during input data. Observing these challenges, this research proposed a model to enable semantic interoperability of clinical notes from electronic health record systems. The methodology used in this research has an applied and exploratory character, and it has been evaluated through the development of a prototype. This approach aims to address some of the current limitations in data processing and integration, specifically within the Portuguese healthcare context, and to create a flexible model that can treat real-world data more effectively in structuring and sharing data. This research is part of the MyDigitalHealth project, a collaboration between the university and six hospitals in Porto Alegre, which provided data from hospitalized patients who tested positive for COVID-19, ensuring a real-world context for data issues. We analyzed the characteristics of the data with respect to interoperability between providers and proposed a model that involves hybrid techniques for information extraction, lexical normalization, and structure for standard harmonization. Thus, we defined a set of experiments using machine learning, combining the Transformers architecture for entity recognition with natural language processing for lexical normalization and semantic matching and adopting OWL ontologies as an intermediary representation structure. The experiments revealed three main contributions. First, we developed a specialized annotated dataset, classifying six entities with 18,666 validated annotations by specialists in 314 documents. Second, we conducted experiments using BERT models fine-tuned on our small dataset for entity recognition, achieving 95% accuracy, with precision rates of 90% for classifying entities related to Invasive or Therapeutic Procedures and 89% for Disease or Syndrome and Diagnostic Procedures. These results demonstrate the model’s effectiveness in extracting relevant information from unstructured clinical notes. Third, ontologies as intermediary representation structures ensured semantic consistency and enhanced interoperability in an independent format. The limitations and opportunities for future studies from this research include applying the model to data from different domains, such as nursing notes, odontology, clinic context, and accountability records. Another topic is the gap in term disambiguation and semantic alignment in healthcare data, focusing on linking terminologies to structured data, ensuring international coding for clinical data, and enabling interoperability across borders. Finally, this research aims to contribute to the continuity of citizen healthcare and guide developers and providers in building robust and complex platforms that implement the use of healthcare standards. We also expect more and more professionals and health managers to improve healthcare worldwide through the adoption of international standards within electronic health record systems.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorMello, Blanda Helena dehttp://lattes.cnpq.br/4431420798042695http://lattes.cnpq.br/3914159735707328Costa, Cristiano André dahttp://lattes.cnpq.br/9637121030877187Rigo, Sandro JoséUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaA semantic interoperability model based on NLP for nonstructured health dataACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoInteroperabilidade semânticaRegistro eletrônico de saúdeOntologiaProcessamento de Linguagem NaturalAprendizado de máquinaSemantic interoperabilityElectronic health recordOntologyNatural Language ProcessingMachine learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://repositorio.jesuita.org.br/handle/UNISINOS/13608info:eu-repo/semantics/openAccessengreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSLICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/13608/2/license.txt320e21f23402402ac4988605e1edd177MD52ORIGINALBlanda Helena de Mello_.pdfBlanda Helena de Mello_.pdfapplication/pdf7623793http://repositorio.jesuita.org.br/bitstream/UNISINOS/13608/1/Blanda+Helena+de+Mello_.pdf87a407b519957b82b3fc2570710d8ed8MD51UNISINOS/136082025-04-03 08:58:39.433oai:www.repositorio.jesuita.org.br:UNISINOS/13608Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e DissertaçõesPRIhttp://www.repositorio.jesuita.org.br/oai/requestmaicons@unisinos.br ||dspace@unisinos.bropendoar:2025-04-03T11:58:39Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv A semantic interoperability model based on NLP for nonstructured health data
title A semantic interoperability model based on NLP for nonstructured health data
spellingShingle A semantic interoperability model based on NLP for nonstructured health data
Mello, Blanda Helena de
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Interoperabilidade semântica
Registro eletrônico de saúde
Ontologia
Processamento de Linguagem Natural
Aprendizado de máquina
Semantic interoperability
Electronic health record
Ontology
Natural Language Processing
Machine learning
title_short A semantic interoperability model based on NLP for nonstructured health data
title_full A semantic interoperability model based on NLP for nonstructured health data
title_fullStr A semantic interoperability model based on NLP for nonstructured health data
title_full_unstemmed A semantic interoperability model based on NLP for nonstructured health data
title_sort A semantic interoperability model based on NLP for nonstructured health data
author Mello, Blanda Helena de
author_facet Mello, Blanda Helena de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4431420798042695
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3914159735707328
dc.contributor.author.fl_str_mv Mello, Blanda Helena de
dc.contributor.advisor-co1.fl_str_mv Costa, Cristiano André da
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/9637121030877187
dc.contributor.advisor1.fl_str_mv Rigo, Sandro José
contributor_str_mv Costa, Cristiano André da
Rigo, Sandro José
dc.subject.cnpq.fl_str_mv ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Interoperabilidade semântica
Registro eletrônico de saúde
Ontologia
Processamento de Linguagem Natural
Aprendizado de máquina
Semantic interoperability
Electronic health record
Ontology
Natural Language Processing
Machine learning
dc.subject.por.fl_str_mv Interoperabilidade semântica
Registro eletrônico de saúde
Ontologia
Processamento de Linguagem Natural
Aprendizado de máquina
dc.subject.eng.fl_str_mv Semantic interoperability
Electronic health record
Ontology
Natural Language Processing
Machine learning
description O domínio da saúde enfrenta desafios significativos no gerenciamento do crescente volume de dados gerados diariamente, particularmente na coleta e compartilhamento dessas informações. Profissionais de saúde, como médicos, enfermeiros, radiologistas, cardiologistas, cirurgiões e outros especialistas frequentemente inserem dados de pacientes em sistemas eletrônicos, geralmente em um formato textual aberto e não estruturado. Uma revisão da literatura revela vários desafios no processamento de dados do mundo real, com uma questão crítica sendo a escassez de ferramentas e dicionários disponíveis em português para o setor de saúde. Essa lacuna, juntamente com os desafios únicos inerentes ao processamento de dados de saúde, adiciona considerável complexidade à extração e estruturação de informações essenciais de registros clínicos. Além disso, garantir a interoperabilidade de dados entre diferentes provedores de saúde se torna desafiador quando esses provedores não visam inicialmente a interoperabilidade durante a coleta de dados. Observando esses desafios, esta pesquisa propôs um modelo para permitir a interoperabilidade semântica de notas clínicas de sistemas de prontuários eletrônicos. A metodologia usada nesta pesquisa tem um caráter aplicado e exploratório, e foi avaliada por meio do desenvolvimento de um protótipo. Esta abordagem visa mapear as limitações atuais no processamento e integração de dados, especificamente no contexto de notas clínicas em português brasileiro, e criar um modelo flexível que possa tratar dados do mundo real de forma mais eficaz na estruturação e compartilhamento de dados. Esta pesquisa faz parte do projeto MinhaSaudeDigital (MSD), uma colaboração entre a universidade e seis hospitais de Porto Alegre, que forneceram dados de pacientes hospitalizados que testaram positivo para COVID-19, garantindo um problema do mundo real para o contexto de dados de saúde. Foram analisadas as características dos dados com relação à interoperabilidade entre provedores e proposto um modelo que envolve técnicas híbridas para extração de informações, normalização lexical e estruturação de dados para harmonização de padrões. Assim, definiu-se um conjunto de experimentos que emprega o aprendizado de máquina, combinando a arquitetura Transformers para reconhecimento de entidades com processamento de linguagem natural para normalização lexical e correspondência semântica, por adotando ontologias OWL como uma estrutura de representação intermediária. Os experimentos revelaram três contribuições principais. Primeiro, o desenvolvimento de um conjunto de dados anotados especializados, classificando seis entidades com 18.666 anotações validadas por especialistas em 314 documentos. Em segundo lugar, conduzidos experimentos usando modelos BERT ajustados em um pequeno conjunto de dados para reconhecimento de entidades, alcançando 95% de precisão, com taxas de precisão de 90% para classificar entidades relacionadas a Procedimentos Invasivos ou Terapêuticos e 89% para Doenças ou Síndromes e Procedimentos Diagnósticos. Esses resultados demonstram a eficácia do modelo na extração de informações relevantes de notas clínicas não estruturadas. Terceiro, ontologias como estruturas de representação intermediárias garantiram a consistência semântica necessária à interoperabilidade mantendo um formato independente. As limitações e oportunidades para estudos futuros desta pesquisa incluem a aplicação do modelo a dados de diferentes domínios, como notas de enfermagem, odontologia, contexto clínico e registros de responsabilidade. Outro tópico é a lacuna na desambiguação de termos e alinhamento semântico em dados de saúde, com foco na vinculação de terminologias a dados estruturados, garantindo codificação internacional para dados clínicos e permitindo a interoperabilidade entre fronteiras. Finalmente, esta pesquisa visa contribuir para a continuidade do cuidado e saúde do cidadão e orientar desenvolvedores e provedores na construção de plataformas robustas e complexas que implementem o uso de padrões de saúde. Também espera-se que cada vez mais profissionais e gestores de saúde melhorem a assistência médica em todo o mundo por meio da adoção de padrões internacionais em sistemas de prontuários eletrônicos.
publishDate 2024
dc.date.issued.fl_str_mv 2024-11-13
dc.date.accessioned.fl_str_mv 2025-04-03T11:50:20Z
dc.date.available.fl_str_mv 2025-04-03T11:50:20Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.jesuita.org.br/handle/UNISINOS/13608
url http://repositorio.jesuita.org.br/handle/UNISINOS/13608
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv Unisinos
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
instname:Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron:UNISINOS
instname_str Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str UNISINOS
institution UNISINOS
reponame_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv http://repositorio.jesuita.org.br/bitstream/UNISINOS/13608/2/license.txt
http://repositorio.jesuita.org.br/bitstream/UNISINOS/13608/1/Blanda+Helena+de+Mello_.pdf
bitstream.checksum.fl_str_mv 320e21f23402402ac4988605e1edd177
87a407b519957b82b3fc2570710d8ed8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv maicons@unisinos.br ||dspace@unisinos.br
_version_ 1853242107264761856