Exploring text classification methods in oncological medical notes using machine learning and deep learning

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Schwertner, Marco Antonio
Orientador(a): Rigo, Sandro José
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade do Vale do Rio dos Sinos
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação Aplicada
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://www.repositorio.jesuita.org.br/handle/UNISINOS/9461
Resumo: Com os avanços na medicina preventiva e personalizada, e as melhorias tecnológicas permitindo melhor interação do paciente com suas informações de saúde, o volume coletado de dados de saúde tem aumentado. Uma parte importante desses dados é armazenada em formato não estruturado em texto livre em linguagem natural, dificultando o processamento desses dados pelos Sistemas de Apoio à Decisão Clínica (SADC). Consequentemente, os profissionais de saúde ficam sobrecarregados tentando manter-se atualizados com as informações de saúde dos seus pacientes porque precisam de mais tempo para coletar e analisar esses dados manualmente. Definir um diagnóstico e tratamento oncológico é um processo de tomada de decisão complexo, pois é afetado por uma ampla gama de parâmetros. Para ajudar neste processo de tomado de decisão, esta pesquisa possui como principal objetivo aplicar diversos métodos de classificação de textos em corpora com registros médicos não sintéticos, para aprender e sugerir o diagnóstico baseado no histórico clínico do paciente. Primeiro, os corpora foram obtidos de um S-RES (Sistema de Registro Eletrônico em Saúde) Oncológico de três diferentes clínicas de oncologia. Foram criadas duas versões dos corpora: a versão por-evento-clínico com um registro médico de paciente por registro; e a versão porpaciente com um registro por paciente com seus registros médicos. Então, os corpora foram pré-processados para alavancar o desempenho dos classificadores. Por fim, diversos métodos de classificação de texto de aprendizagem de máquina e aprendizagem profunda foram treinados utilizando os corpora junto com o diagnóstico de cada paciente como dados enriquecidos. Diversos experimentos foram realizados, avaliando os seguintes métodos de classificação de textos de aprendizagem de máquina e de aprendizagem profunda: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). Um experimento adicional com um classificador MLP foi realizado para avaliar a influência da etapa de pré-processamento nos resultados, e foi encontrado que a acurácia média do classificador foi alavancada de 26,1% para 86,7% com o uso do corpus por-evento-clínico, e 93,9% com o corpus por-paciente. O classificador com melhor desempenho foi o MLP com duas camadas ocultas (800 e 500 neurônios), que atingiu 93,90% de acurácia, um escore Macro F1 de 93,61%, e um escore Weighted F1 de 93,99%. Os experimentos foram realizados num conjunto de dados com 3.308 registros médicos de uma clínica de oncologia pequena.
id USIN_c7c695a02293eb504230f47fc146c354
oai_identifier_str oai:www.repositorio.jesuita.org.br:UNISINOS/9461
network_acronym_str USIN
network_name_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling 2020-11-25T17:48:54Z2020-11-25T17:48:54Z2020-08-24Submitted by Tatiane Vieira da Costa (tatianec) on 2020-11-25T17:48:54Z No. of bitstreams: 1 Marco Antônio Schwertner_.pdf: 4127467 bytes, checksum: c6e7aeeba688e0b908c7a977d0736822 (MD5)Made available in DSpace on 2020-11-25T17:48:54Z (GMT). No. of bitstreams: 1 Marco Antônio Schwertner_.pdf: 4127467 bytes, checksum: c6e7aeeba688e0b908c7a977d0736822 (MD5) Previous issue date: 2020-08-24Com os avanços na medicina preventiva e personalizada, e as melhorias tecnológicas permitindo melhor interação do paciente com suas informações de saúde, o volume coletado de dados de saúde tem aumentado. Uma parte importante desses dados é armazenada em formato não estruturado em texto livre em linguagem natural, dificultando o processamento desses dados pelos Sistemas de Apoio à Decisão Clínica (SADC). Consequentemente, os profissionais de saúde ficam sobrecarregados tentando manter-se atualizados com as informações de saúde dos seus pacientes porque precisam de mais tempo para coletar e analisar esses dados manualmente. Definir um diagnóstico e tratamento oncológico é um processo de tomada de decisão complexo, pois é afetado por uma ampla gama de parâmetros. Para ajudar neste processo de tomado de decisão, esta pesquisa possui como principal objetivo aplicar diversos métodos de classificação de textos em corpora com registros médicos não sintéticos, para aprender e sugerir o diagnóstico baseado no histórico clínico do paciente. Primeiro, os corpora foram obtidos de um S-RES (Sistema de Registro Eletrônico em Saúde) Oncológico de três diferentes clínicas de oncologia. Foram criadas duas versões dos corpora: a versão por-evento-clínico com um registro médico de paciente por registro; e a versão porpaciente com um registro por paciente com seus registros médicos. Então, os corpora foram pré-processados para alavancar o desempenho dos classificadores. Por fim, diversos métodos de classificação de texto de aprendizagem de máquina e aprendizagem profunda foram treinados utilizando os corpora junto com o diagnóstico de cada paciente como dados enriquecidos. Diversos experimentos foram realizados, avaliando os seguintes métodos de classificação de textos de aprendizagem de máquina e de aprendizagem profunda: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). Um experimento adicional com um classificador MLP foi realizado para avaliar a influência da etapa de pré-processamento nos resultados, e foi encontrado que a acurácia média do classificador foi alavancada de 26,1% para 86,7% com o uso do corpus por-evento-clínico, e 93,9% com o corpus por-paciente. O classificador com melhor desempenho foi o MLP com duas camadas ocultas (800 e 500 neurônios), que atingiu 93,90% de acurácia, um escore Macro F1 de 93,61%, e um escore Weighted F1 de 93,99%. Os experimentos foram realizados num conjunto de dados com 3.308 registros médicos de uma clínica de oncologia pequena.With the preventive and personalized medicine advances, and technological improvements enabling better interaction from patients with their healthcare information, the volume of healthcare data gathered has increased. A relevant part of these data is recorded as an unstructured format in natural language free-text, making it harder for Clinical Decision Support Systems (CDSS) to process these data. Consequently, healthcare professionals get overwhelmed keeping themselves updated with the patient’s healthcare information because they need more time to gather and analyze it manually. Furthermore, to define an oncology diagnosis and its treatment plan is a complex decision-making process because it is affected by a broad range of parameters. This research’s main objective is to apply several text classification methods in non-synthetic oncology clinical notes corpora to help with this decision-making process. First, the corpora were obtained from an Oncology EHR system from three different oncology clinics. Two corpora versions were created: the per-clinical-event version with each patient’s medical note per record; and the per-patient version with one record per patient with his or her medical notes. Then, these corpora were preprocessed to leverage the performance of the classifiers. As the last step, several machine learning and one deep learning text classification methods were trained using these corpora with each patient’s diagnosis as enriched data. The following machine learning and deep learning classification methods were applied: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). An additional experiment with an MLP classifier was performed to evaluate the preprocessing step’s influence on the results, and it found that the classifier’s mean accuracy was leveraged from 26.1% to 86.7% with the per-clinical-event corpus, and 93.9% with the perpatient corpus. The classifier that best performed was the MLP with 2 hidden layers (800 and 500 neurons), which achieved 93.90% accuracy, a Macro F1 score of 93.61%, and a Weighted F1 score of 93.99%. The experiments were performed in a dataset with 3,308 medical notes from a small oncology clinic.NenhumaSchwertner, Marco Antoniohttp://lattes.cnpq.br/2302177858082034http://lattes.cnpq.br/3914159735707328Rigo, Sandro JoséUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaExploring text classification methods in oncological medical notes using machine learning and deep learningACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoInteligência artificialAprendizagem profundaAprendizagem de máquinaSaúdeOncologiaArtificial intelligenceDeep learningMachine learningHealthcareOncologyinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/9461info:eu-repo/semantics/openAccessengreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSORIGINALMarco Antônio Schwertner_.pdfMarco Antônio Schwertner_.pdfapplication/pdf4127467http://repositorio.jesuita.org.br/bitstream/UNISINOS/9461/1/Marco+Ant%C3%B4nio+Schwertner_.pdfc6e7aeeba688e0b908c7a977d0736822MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/9461/2/license.txt320e21f23402402ac4988605e1edd177MD52UNISINOS/94612021-11-09 16:37:22.568oai:www.repositorio.jesuita.org.br:UNISINOS/9461Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttp://www.repositorio.jesuita.org.br/oai/requestopendoar:2021-11-09T19:37:22Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.en.fl_str_mv Exploring text classification methods in oncological medical notes using machine learning and deep learning
title Exploring text classification methods in oncological medical notes using machine learning and deep learning
spellingShingle Exploring text classification methods in oncological medical notes using machine learning and deep learning
Schwertner, Marco Antonio
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Inteligência artificial
Aprendizagem profunda
Aprendizagem de máquina
Saúde
Oncologia
Artificial intelligence
Deep learning
Machine learning
Healthcare
Oncology
title_short Exploring text classification methods in oncological medical notes using machine learning and deep learning
title_full Exploring text classification methods in oncological medical notes using machine learning and deep learning
title_fullStr Exploring text classification methods in oncological medical notes using machine learning and deep learning
title_full_unstemmed Exploring text classification methods in oncological medical notes using machine learning and deep learning
title_sort Exploring text classification methods in oncological medical notes using machine learning and deep learning
author Schwertner, Marco Antonio
author_facet Schwertner, Marco Antonio
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2302177858082034
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3914159735707328
dc.contributor.author.fl_str_mv Schwertner, Marco Antonio
dc.contributor.advisor1.fl_str_mv Rigo, Sandro José
contributor_str_mv Rigo, Sandro José
dc.subject.cnpq.fl_str_mv ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
topic ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação
Inteligência artificial
Aprendizagem profunda
Aprendizagem de máquina
Saúde
Oncologia
Artificial intelligence
Deep learning
Machine learning
Healthcare
Oncology
dc.subject.por.fl_str_mv Inteligência artificial
Aprendizagem profunda
Aprendizagem de máquina
Saúde
Oncologia
dc.subject.eng.fl_str_mv Artificial intelligence
Deep learning
Machine learning
Healthcare
Oncology
description Com os avanços na medicina preventiva e personalizada, e as melhorias tecnológicas permitindo melhor interação do paciente com suas informações de saúde, o volume coletado de dados de saúde tem aumentado. Uma parte importante desses dados é armazenada em formato não estruturado em texto livre em linguagem natural, dificultando o processamento desses dados pelos Sistemas de Apoio à Decisão Clínica (SADC). Consequentemente, os profissionais de saúde ficam sobrecarregados tentando manter-se atualizados com as informações de saúde dos seus pacientes porque precisam de mais tempo para coletar e analisar esses dados manualmente. Definir um diagnóstico e tratamento oncológico é um processo de tomada de decisão complexo, pois é afetado por uma ampla gama de parâmetros. Para ajudar neste processo de tomado de decisão, esta pesquisa possui como principal objetivo aplicar diversos métodos de classificação de textos em corpora com registros médicos não sintéticos, para aprender e sugerir o diagnóstico baseado no histórico clínico do paciente. Primeiro, os corpora foram obtidos de um S-RES (Sistema de Registro Eletrônico em Saúde) Oncológico de três diferentes clínicas de oncologia. Foram criadas duas versões dos corpora: a versão por-evento-clínico com um registro médico de paciente por registro; e a versão porpaciente com um registro por paciente com seus registros médicos. Então, os corpora foram pré-processados para alavancar o desempenho dos classificadores. Por fim, diversos métodos de classificação de texto de aprendizagem de máquina e aprendizagem profunda foram treinados utilizando os corpora junto com o diagnóstico de cada paciente como dados enriquecidos. Diversos experimentos foram realizados, avaliando os seguintes métodos de classificação de textos de aprendizagem de máquina e de aprendizagem profunda: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). Um experimento adicional com um classificador MLP foi realizado para avaliar a influência da etapa de pré-processamento nos resultados, e foi encontrado que a acurácia média do classificador foi alavancada de 26,1% para 86,7% com o uso do corpus por-evento-clínico, e 93,9% com o corpus por-paciente. O classificador com melhor desempenho foi o MLP com duas camadas ocultas (800 e 500 neurônios), que atingiu 93,90% de acurácia, um escore Macro F1 de 93,61%, e um escore Weighted F1 de 93,99%. Os experimentos foram realizados num conjunto de dados com 3.308 registros médicos de uma clínica de oncologia pequena.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-11-25T17:48:54Z
dc.date.available.fl_str_mv 2020-11-25T17:48:54Z
dc.date.issued.fl_str_mv 2020-08-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.repositorio.jesuita.org.br/handle/UNISINOS/9461
url http://www.repositorio.jesuita.org.br/handle/UNISINOS/9461
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Computação Aplicada
dc.publisher.initials.fl_str_mv Unisinos
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
instname:Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron:UNISINOS
instname_str Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str UNISINOS
institution UNISINOS
reponame_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv http://repositorio.jesuita.org.br/bitstream/UNISINOS/9461/1/Marco+Ant%C3%B4nio+Schwertner_.pdf
http://repositorio.jesuita.org.br/bitstream/UNISINOS/9461/2/license.txt
bitstream.checksum.fl_str_mv c6e7aeeba688e0b908c7a977d0736822
320e21f23402402ac4988605e1edd177
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv
_version_ 1797220903518470144