Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Oliveira, Jezer Machado de
Orientador(a): Costa, Cristiano André da
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação Aplicada
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.jesuita.org.br/handle/UNISINOS/13421
Resumo: A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.
id USIN_0c9606b2a4b433d5bc24275cfb4b52a8
oai_identifier_str oai:www.repositorio.jesuita.org.br:UNISINOS/13421
network_acronym_str USIN
network_name_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling 2024-12-19T14:37:51Z2024-12-19T14:37:51Z2024-07-31Submitted by Jeferson Carlos da Veiga Rodrigues (jveigar@unisinos.br) on 2024-12-19T14:37:51Z No. of bitstreams: 1 Jezer Machado de Oliveira_PROTEGIDO.pdf: 1355609 bytes, checksum: c16bc5999c7ea383b8b67c7f2ca5cc8b (MD5)Made available in DSpace on 2024-12-19T14:37:51Z (GMT). No. of bitstreams: 1 Jezer Machado de Oliveira_PROTEGIDO.pdf: 1355609 bytes, checksum: c16bc5999c7ea383b8b67c7f2ca5cc8b (MD5) Previous issue date: 2024-07-31A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.The medical field has undergone a series of transformations with the adoption of new technologies. One aspect that has seen significant changes is how patient information is stored. Electronic health records have brought a series of advantages, but they still present some issues. One of these issues is of structuring of the information contained in clinical notes. These notes can be stored in free text, that is, in an unstructured form; in a semi-structured form, containing a list of free-text fields to categorize each piece of information; in a structured form, where each piece of information has a series of specific fields; or a combination of these forms. Greater structuring brings a wealth of information and ease of automated consultation. On the other hand, the medical staff must dedicate more attention when managing clinical notes due to the rules to maintain its structure. This problem is more evident when migrating from a less structured record to a more structured record, given the impracticality of direct migration. Considering these aspects, this study arises from a concrete need, related to the migration of an electronic health record software from a company that used unstructured clinical notes to an electronic health record with structured and semi-structured records. For this migration to be effective, the following software requirements are imperative: that all relevant information is maintained and that it is at least semi-structured and, when possible, fully structured. Through a systematic review to find the state of the art in the field, no proposal was found that satisfactorily meets these requirements. Considering this context, this work proposes a multi-level model for structuring progress notes written in free text in the Portuguese language. The main requirements of the model are that, in the structuring process, all relevant information from the clinical notes is maintained, that the information is structured at least at the sentence level, and that, when possible, each entity in the sentence is also structured. The model consists of a pipeline with two main components: the first is responsible for structuring the information at the sentence level, by dividing the text and individually classifying each sentence in the SOAP notes. At the second level, if possible, structuring is done at the level of its entities, identifying and relating them. To evaluate the viability of the model, a prototype of the pipeline was implemented, using natural language processing and machine learning techniques, such as BERT models, associating its subcomponents with classic NLP tasks such as sentence boundary detection, sentence classification, named entity recognition, relation extraction, and ontology matching. For training and evaluating the pipeline and networks, a database provided by the company that motivated the study was used. The database contains 10,000 records and 234,673 clinical notes, of which 15,883 were divided into 100,021 sentences, classified, and structured through a Graphical User Interface (GUI) developed for this task, forming the gold standard for network training. After a series of training and evaluations, the best networks were selected, and the pipeline was implemented. For the final evaluation of this pipeline, 721 records with a total of 10,013 sentences were used, which were also classified using the GUI, forming the gold standard for the final evaluation. The results obtained were compared with those of the pipeline, achieving an accuracy of 0.8641, precision of 0.9493, and F-score of 0.9029 for the first level of structuring, and an accuracy of 0.8354, precision of 0.9382, and F-score of 0.8815 for the second level of structuring.IFRS - Instituto Federal do Rio Grande do SulOliveira, Jezer Machado dehttp://lattes.cnpq.br/5814851519682023http://lattes.cnpq.br/9637121030877187Antunes, Rodolfo Stoffelhttp://lattes.cnpq.br/2364296914395793Costa, Cristiano André daUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaUm modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livreACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoInformática médicaProcessamento de Linguagem NaturalProntuário eletrônicoEstruturação de informaçãoMedical informaticsNatural Language ProcessingElectronic health recordData structuringinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://repositorio.jesuita.org.br/handle/UNISINOS/13421info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSLICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/2/license.txt320e21f23402402ac4988605e1edd177MD52ORIGINALJezer Machado de Oliveira_PROTEGIDO.pdfJezer Machado de Oliveira_PROTEGIDO.pdfapplication/pdf1355609http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/1/Jezer+Machado+de+Oliveira_PROTEGIDO.pdfc16bc5999c7ea383b8b67c7f2ca5cc8bMD51UNISINOS/134212024-12-19 11:39:02.918oai:www.repositorio.jesuita.org.br:UNISINOS/13421Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e DissertaçõesPRIhttp://www.repositorio.jesuita.org.br/oai/requestmaicons@unisinos.br ||dspace@unisinos.bropendoar:2024-12-19T14:39:02Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
spellingShingle Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
Oliveira, Jezer Machado de
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Informática médica
Processamento de Linguagem Natural
Prontuário eletrônico
Estruturação de informação
Medical informatics
Natural Language Processing
Electronic health record
Data structuring
title_short Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_full Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_fullStr Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_full_unstemmed Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
title_sort Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre
author Oliveira, Jezer Machado de
author_facet Oliveira, Jezer Machado de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5814851519682023
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9637121030877187
dc.contributor.author.fl_str_mv Oliveira, Jezer Machado de
dc.contributor.advisor-co1.fl_str_mv Antunes, Rodolfo Stoffel
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/2364296914395793
dc.contributor.advisor1.fl_str_mv Costa, Cristiano André da
contributor_str_mv Antunes, Rodolfo Stoffel
Costa, Cristiano André da
dc.subject.cnpq.fl_str_mv ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Informática médica
Processamento de Linguagem Natural
Prontuário eletrônico
Estruturação de informação
Medical informatics
Natural Language Processing
Electronic health record
Data structuring
dc.subject.por.fl_str_mv Informática médica
Processamento de Linguagem Natural
Prontuário eletrônico
Estruturação de informação
dc.subject.eng.fl_str_mv Medical informatics
Natural Language Processing
Electronic health record
Data structuring
description A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-12-19T14:37:51Z
dc.date.available.fl_str_mv 2024-12-19T14:37:51Z
dc.date.issued.fl_str_mv 2024-07-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.jesuita.org.br/handle/UNISINOS/13421
url http://repositorio.jesuita.org.br/handle/UNISINOS/13421
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv Unisinos
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
instname:Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron:UNISINOS
instname_str Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str UNISINOS
institution UNISINOS
reponame_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/2/license.txt
http://repositorio.jesuita.org.br/bitstream/UNISINOS/13421/1/Jezer+Machado+de+Oliveira_PROTEGIDO.pdf
bitstream.checksum.fl_str_mv 320e21f23402402ac4988605e1edd177
c16bc5999c7ea383b8b67c7f2ca5cc8b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv maicons@unisinos.br ||dspace@unisinos.br
_version_ 1853242105360547840