Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre

Oliveira, Jezer Machado de

Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Oliveira, Jezer Machado de
Orientador(a):	Costa, Cristiano André da
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação:	Programa de Pós-Graduação em Computação Aplicada
Departamento:	Escola Politécnica
País:	Brasil
Palavras-chave em Português:	Informática médica Processamento de Linguagem Natural Prontuário eletrônico Estruturação de informação
Palavras-chave em Inglês:	Medical informatics Natural Language Processing Electronic health record Data structuring
Área do conhecimento CNPq:	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Link de acesso:	http://repositorio.jesuita.org.br/handle/UNISINOS/13421
Resumo:	A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.

Metadados do item

id	USIN_0c9606b2a4b433d5bc24275cfb4b52a8
oai_identifier_str	oai:www.repositorio.jesuita.org.br:UNISINOS/13421
network_acronym_str	USIN
network_name_str	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling	2024-12-19T14:37:51Z2024-12-19T14:37:51Z2024-07-31Submitted by Jeferson Carlos da Veiga Rodrigues (jveigar@unisinos.br) on 2024-12-19T14:37:51Z No. of bitstreams: 1 Jezer Machado de Oliveira_PROTEGIDO.pdf: 1355609 bytes, checksum: c16bc5999c7ea383b8b67c7f2ca5cc8b (MD5)Made available in DSpace on 2024-12-19T14:37:51Z (GMT). No. of bitstreams: 1 Jezer Machado de Oliveira_PROTEGIDO.pdf: 1355609 bytes, checksum: c16bc5999c7ea383b8b67c7f2ca5cc8b (MD5) Previous issue date: 2024-07-31A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.The medical field has undergone a series of transformations with the adoption of new technologies. One aspect that has seen significant changes is how patient information is stored. Electronic health records have brought a series of advantages, but they still present some issues. One of these issues is of structuring of the information contained in clinical notes. These notes can be stored in free text, that is, in an unstructured form; in a semi-structured form, containing a list of free-text fields to categorize each piece of information; in a structured form, where each piece of information has a series of specific fields; or a combination of these forms. Greater structuring brings a wealth of information and ease of automated consultation. On the other hand, the medical staff must dedicate more attention when managing clinical notes due to the rules to maintain its structure. This problem is more evident when migrating from a less structured record to a more structured record, given the impracticality of direct migration. Considering these aspects, this study arises from a concrete need, related to the migration of an electronic health record software from a company that used unstructured clinical notes to an electronic health record with structured and semi-structured records. For this migration to be effective, the following software requirements are imperative: that all relevant information is maintained and that it is at least semi-structured and, when possible, fully structured. Through a systematic review to find the state of the art in the field, no proposal was found that satisfactorily meets these requirements. Considering this context, this work proposes a multi-level model for structuring progress notes written in free text in the Portuguese language. The main requirements of the model are that, in the structuring process, all relevant information from the clinical notes is maintained, that the information is structured at least at the sentence level, and that, when possible, each entity in the sentence is also structured. The model consists of a pipeline with two main components: the first is responsible for structuring the information at the sentence level, by dividing the text and individually classifying each sentence in the SOAP notes. At the second level, if possible, structuring is done at the level of its entities, identifying and relating them. To evaluate the viability of the model, a prototype of the pipeline was implemented, using natural language processing and machine learning techniques, such as BERT models, associating its subcomponents with classic NLP tasks such as sentence boundary detection, sentence classification, named entity recognition, relation extraction, and ontology matching. For training and evaluating the pipeline and networks, a database provided by the company that motivated the study was used. The database contains 10,000 records and 234,673 clinical notes, of which 15,883 were divided into 100,021 sentences, classified, and structured through a Graphical User Interface (GUI) developed for this task, forming the gold standard for network training. After a series of training and evaluations, the best networks were selected, and the pipeline was implemented. For the final evaluation of this pipeline, 721 records with a total of 10,013 sentences were used, which were also classified using the GUI, forming the gold standard for the final evaluation. The results obtained were compared with those of the pipeline, achieving an accuracy of 0.8641, precision of 0.9493, and F-score of 0.9029 for the first level of structuring, and an accuracy of 0.8354, precision of 0.9382, and F-score of 0.8815 for the second level of structuring.IFRS - Instituto Federal do Rio Grande do SulOliveira, Jezer Machado dehttp://lattes.cnpq.br/5814851519682023http://lattes.cnpq.br/9637121030877187Antunes, Rodolfo Stoffelhttp://lattes.cnpq.br/2364296914395793Costa, Cristiano André daUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaUm modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livreACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoInformática médicaProcessamento de Linguagem NaturalProntuário eletrônicoEstruturação de informaçãoMedical informaticsNatural Language ProcessingElectronic health recordData structuringinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://repositorio.jesuita.org.br/handle/UNISINOS/13421info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSLICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/2/license.txt320e21f23402402ac4988605e1edd177MD52ORIGINALJezer Machado de Oliveira_PROTEGIDO.pdfJezer Machado de Oliveira_PROTEGIDO.pdfapplication/pdf1355609http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/1/Jezer+Machado+de+Oliveira_PROTEGIDO.pdfc16bc5999c7ea383b8b67c7f2ca5cc8bMD51UNISINOS/134212024-12-19 11:39:02.918oai:www.repositorio.jesuita.org.br:UNISINOS/13421Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e DissertaçõesPRIhttp://www.repositorio.jesuita.org.br/oai/requestmaicons@unisinos.br \|\|dspace@unisinos.bropendoar:2024-12-19T14:39:02Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
spellingShingle	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre Oliveira, Jezer Machado de ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Informática médica Processamento de Linguagem Natural Prontuário eletrônico Estruturação de informação Medical informatics Natural Language Processing Electronic health record Data structuring
title_short	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_full	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_fullStr	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_full_unstemmed	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_sort	Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
author	Oliveira, Jezer Machado de
author_facet	Oliveira, Jezer Machado de
author_role	author
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/5814851519682023
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/9637121030877187
dc.contributor.author.fl_str_mv	Oliveira, Jezer Machado de
dc.contributor.advisor-co1.fl_str_mv	Antunes, Rodolfo Stoffel
dc.contributor.advisor-co1Lattes.fl_str_mv	http://lattes.cnpq.br/2364296914395793
dc.contributor.advisor1.fl_str_mv	Costa, Cristiano André da
contributor_str_mv	Antunes, Rodolfo Stoffel Costa, Cristiano André da
dc.subject.cnpq.fl_str_mv	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Informática médica Processamento de Linguagem Natural Prontuário eletrônico Estruturação de informação Medical informatics Natural Language Processing Electronic health record Data structuring
dc.subject.por.fl_str_mv	Informática médica Processamento de Linguagem Natural Prontuário eletrônico Estruturação de informação
dc.subject.eng.fl_str_mv	Medical informatics Natural Language Processing Electronic health record Data structuring
description	A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.
publishDate	2024
dc.date.accessioned.fl_str_mv	2024-12-19T14:37:51Z
dc.date.available.fl_str_mv	2024-12-19T14:37:51Z
dc.date.issued.fl_str_mv	2024-07-31
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://repositorio.jesuita.org.br/handle/UNISINOS/13421
url	http://repositorio.jesuita.org.br/handle/UNISINOS/13421
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv	Unisinos
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Escola Politécnica
publisher.none.fl_str_mv	Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) instname:Universidade do Vale do Rio dos Sinos (UNISINOS) instacron:UNISINOS
instname_str	Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str	UNISINOS
institution	UNISINOS
reponame_str	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv	http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/2/license.txt http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/1/Jezer+Machado+de+Oliveira_PROTEGIDO.pdf
bitstream.checksum.fl_str_mv	320e21f23402402ac4988605e1edd177 c16bc5999c7ea383b8b67c7f2ca5cc8b
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv	maicons@unisinos.br \|\|dspace@unisinos.br
_version_	1853242105360547840

Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre

Registros relacionados