Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica

Martha, Amilton Souza [UNIFESP]

Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica

Detalhes bibliográficos
Ano de defesa:	2005
Autor(a) principal:	Martha, Amilton Souza [UNIFESP]
Orientador(a):	Campos, Carlos José Reis de [UNIFESP]
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
dARK ID:	ark:/48912/001300002n5h6
Idioma:	por
Instituição de defesa:	Universidade Federal de São Paulo (UNIFESP)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Armazenamento e Recuperação da Informação Sistemas Computadorizados de Registros Médicos
Link de acesso:	http://repositorio.unifesp.br/handle/11600/21233
Resumo:	A Recuperação de Informações é a ciência que estuda a criação de algoritmos para recuperar informações, principalmente provenientes de textos livres, que constituem a maior parte da informação em forma digital disponível nos dias atuais, sobretudo após a Internet. É evidente a necessidade de técnicas para recuperar informações dessa grande massa. Mecanismos de busca como Google®, Altavista®, Yahoo® e outros são indispensáveis para encontrar informações espalhadas na Internet em páginas da Web (arquivos PDF, TXT, HTML e outros) nos dias atuais. Na área da saúde, muitas informações também se encontram na forma de textos livres como os artigos científicos em bases de dados específicas da saúde como o Medline que possuem ferramentas de busca como Pubmed. Prontuários Eletrônicos do Paciente (PEP) também possuem informações em textos livres como o histórico ou evolução do paciente. Os profissionais da saúde que inserem informações podem utilizar termos sinônimos, jargões médicos, abreviaturas ou mesmo terem erros de ortografia. Para esses casos, a recuperação de informações com essas variações pode ser algo não trivial. Foram utilizadas duas bases de dados de PEP´s de clínicas distintas, sendo a primeira com 6732 histórias clínicas e a segunda com 26072 histórias. Foi desenvolvido um software chamado SIRIMED (Sistema de Indexação e Recuperação de Informações Médicas) que permitiu mostrar que a recuperação de informações baseada em semelhança semântica com um thesaurus médico (DeCS – Descritores em Ciências da Saúde) e semelhança ortográfica, baseada em um algoritmo de stemming, juntamente com edit distance, pode melhorar a quantidade de termos recuperados numa busca, em média de 30% comparada com a busca tradicional direta, que faz somente a busca do termo exato. A média de falsos positivos encontrados é menor que 0,5% nas duas bases de dados, o que não compromete o resultado do aumento de recuperação conseguido.

Metadados do item

id	UFSP_2fa9bf09e6824835cf36e30b52234d5d
oai_identifier_str	oai:repositorio.unifesp.br:11600/21233
network_acronym_str	UFSP
network_name_str	Repositório Institucional da UNIFESP
repository_id_str
spelling	Martha, Amilton Souza [UNIFESP]Universidade Federal de São Paulo (UNIFESP)Campos, Carlos José Reis de [UNIFESP]2015-12-06T23:44:25Z2015-12-06T23:44:25Z2005A Recuperação de Informações é a ciência que estuda a criação de algoritmos para recuperar informações, principalmente provenientes de textos livres, que constituem a maior parte da informação em forma digital disponível nos dias atuais, sobretudo após a Internet. É evidente a necessidade de técnicas para recuperar informações dessa grande massa. Mecanismos de busca como Google®, Altavista®, Yahoo® e outros são indispensáveis para encontrar informações espalhadas na Internet em páginas da Web (arquivos PDF, TXT, HTML e outros) nos dias atuais. Na área da saúde, muitas informações também se encontram na forma de textos livres como os artigos científicos em bases de dados específicas da saúde como o Medline que possuem ferramentas de busca como Pubmed. Prontuários Eletrônicos do Paciente (PEP) também possuem informações em textos livres como o histórico ou evolução do paciente. Os profissionais da saúde que inserem informações podem utilizar termos sinônimos, jargões médicos, abreviaturas ou mesmo terem erros de ortografia. Para esses casos, a recuperação de informações com essas variações pode ser algo não trivial. Foram utilizadas duas bases de dados de PEP´s de clínicas distintas, sendo a primeira com 6732 histórias clínicas e a segunda com 26072 histórias. Foi desenvolvido um software chamado SIRIMED (Sistema de Indexação e Recuperação de Informações Médicas) que permitiu mostrar que a recuperação de informações baseada em semelhança semântica com um thesaurus médico (DeCS – Descritores em Ciências da Saúde) e semelhança ortográfica, baseada em um algoritmo de stemming, juntamente com edit distance, pode melhorar a quantidade de termos recuperados numa busca, em média de 30% comparada com a busca tradicional direta, que faz somente a busca do termo exato. A média de falsos positivos encontrados é menor que 0,5% nas duas bases de dados, o que não compromete o resultado do aumento de recuperação conseguido.Information retrieval is a science that investigates models and techniques to recover information, mainly from free texts, that are the majority digital information after the internet advent. The necessity of techniques to recover information from this great mass of data is evident. Search engines like Google®, Altavista®, Yahoo® and others are indispensable to find information at Internet in PDF, TXT or HTML files. In the health context, a lot of information is registered as free texts like scientific articles into specific health databases like Medline which has specific search engines (Pubmed). Electronic Record Patient (ERP) has also free text information to describe patient’s history or evolution. The health professional who inserts information can use synonymous or medical terms, abbreviations or even make orthography mistake. In these cases, the recovery of the information with these variations could be not trivial. Two ERP databases from distinct clinics had been used. The first one had 6732 clinical histories and second had 26072 histories. A software called SIRIMED (Sistema de Indexação e Recuperação de Informações Médicas) was developed to show that recovery of the information based in both similarity semantics with a medical thesaurus (DeCS – Descritores em Ciências da Saúde) and approximate string matching (based on stemming and edit distance algorithm) can improve approximately 30% the amount of terms recovered if compared to traditional method, which searches only the exact string matching. The false positives average is less than 0.5% for both databases and, therefore, it doesn’t prejudice the obtained results.BV UNIFESP: Teses e dissertações85 p.MARTHA, Amilton Souza. Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica. 2005. 85 p. Dissertação (Mestrado em Ciências) - Escola Paulista de Medicina, Universidade Federal de São Paulo, São Paulo, 2005.epm-20060921082702GARCIA.pdfPublico-21233.pdfhttp://repositorio.unifesp.br/handle/11600/21233ark:/48912/001300002n5h6porUniversidade Federal de São Paulo (UNIFESP)info:eu-repo/semantics/openAccessArmazenamento e Recuperação da InformaçãoSistemas Computadorizados de Registros MédicosRecuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográficaInformation retrieval from free text of eletronic patient records based on semantic similarity and approximate string matchinginfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPEscola Paulista de Medicina (EPM)Gestão e Informática em Saúde - EPMORIGINALPublico-21233.pdfPublico-21233.pdfapplication/pdf823701https://repositorio.unifesp.br/bitstreams/9dd8b353-f228-40a9-8da9-f67775727f76/downloade15a603f55a0840cb6a5edb321ae894fMD51TEXTPublico-21233.pdf.txtPublico-21233.pdf.txtExtracted texttext/plain103842https://repositorio.unifesp.br/bitstreams/b5cd1207-a623-4301-bc8c-fa03aa75dacd/download55b9bcf7da8398b031f610f959be5746MD53THUMBNAILPublico-21233.pdf.jpgPublico-21233.pdf.jpgGenerated Thumbnailimage/jpeg3089https://repositorio.unifesp.br/bitstreams/73f49857-711c-4317-8e7f-7e698844d61a/download5bdcd862ba2cdda7501cd3ecbbdecfddMD5411600/212332024-08-04 09:05:40.523oai:repositorio.unifesp.br:11600/21233https://repositorio.unifesp.brRepositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-04T09:05:40Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.pt.fl_str_mv	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica
dc.title.alternative.en.fl_str_mv	Information retrieval from free text of eletronic patient records based on semantic similarity and approximate string matching
title	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica
spellingShingle	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica Martha, Amilton Souza [UNIFESP] Armazenamento e Recuperação da Informação Sistemas Computadorizados de Registros Médicos
title_short	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica
title_full	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica
title_fullStr	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica
title_full_unstemmed	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica
title_sort	Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica
author	Martha, Amilton Souza [UNIFESP]
author_facet	Martha, Amilton Souza [UNIFESP]
author_role	author
dc.contributor.institution.none.fl_str_mv	Universidade Federal de São Paulo (UNIFESP)
dc.contributor.author.fl_str_mv	Martha, Amilton Souza [UNIFESP]
dc.contributor.advisor1.fl_str_mv	Campos, Carlos José Reis de [UNIFESP]
contributor_str_mv	Campos, Carlos José Reis de [UNIFESP]
dc.subject.por.fl_str_mv	Armazenamento e Recuperação da Informação Sistemas Computadorizados de Registros Médicos
topic	Armazenamento e Recuperação da Informação Sistemas Computadorizados de Registros Médicos
description	A Recuperação de Informações é a ciência que estuda a criação de algoritmos para recuperar informações, principalmente provenientes de textos livres, que constituem a maior parte da informação em forma digital disponível nos dias atuais, sobretudo após a Internet. É evidente a necessidade de técnicas para recuperar informações dessa grande massa. Mecanismos de busca como Google®, Altavista®, Yahoo® e outros são indispensáveis para encontrar informações espalhadas na Internet em páginas da Web (arquivos PDF, TXT, HTML e outros) nos dias atuais. Na área da saúde, muitas informações também se encontram na forma de textos livres como os artigos científicos em bases de dados específicas da saúde como o Medline que possuem ferramentas de busca como Pubmed. Prontuários Eletrônicos do Paciente (PEP) também possuem informações em textos livres como o histórico ou evolução do paciente. Os profissionais da saúde que inserem informações podem utilizar termos sinônimos, jargões médicos, abreviaturas ou mesmo terem erros de ortografia. Para esses casos, a recuperação de informações com essas variações pode ser algo não trivial. Foram utilizadas duas bases de dados de PEP´s de clínicas distintas, sendo a primeira com 6732 histórias clínicas e a segunda com 26072 histórias. Foi desenvolvido um software chamado SIRIMED (Sistema de Indexação e Recuperação de Informações Médicas) que permitiu mostrar que a recuperação de informações baseada em semelhança semântica com um thesaurus médico (DeCS – Descritores em Ciências da Saúde) e semelhança ortográfica, baseada em um algoritmo de stemming, juntamente com edit distance, pode melhorar a quantidade de termos recuperados numa busca, em média de 30% comparada com a busca tradicional direta, que faz somente a busca do termo exato. A média de falsos positivos encontrados é menor que 0,5% nas duas bases de dados, o que não compromete o resultado do aumento de recuperação conseguido.
publishDate	2005
dc.date.issued.fl_str_mv	2005
dc.date.accessioned.fl_str_mv	2015-12-06T23:44:25Z
dc.date.available.fl_str_mv	2015-12-06T23:44:25Z
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	MARTHA, Amilton Souza. Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica. 2005. 85 p. Dissertação (Mestrado em Ciências) - Escola Paulista de Medicina, Universidade Federal de São Paulo, São Paulo, 2005.
dc.identifier.uri.fl_str_mv	http://repositorio.unifesp.br/handle/11600/21233
dc.identifier.dark.fl_str_mv	ark:/48912/001300002n5h6
dc.identifier.file.none.fl_str_mv	epm-20060921082702GARCIA.pdf Publico-21233.pdf
identifier_str_mv	MARTHA, Amilton Souza. Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica. 2005. 85 p. Dissertação (Mestrado em Ciências) - Escola Paulista de Medicina, Universidade Federal de São Paulo, São Paulo, 2005. epm-20060921082702GARCIA.pdf Publico-21233.pdf ark:/48912/001300002n5h6
url	http://repositorio.unifesp.br/handle/11600/21233
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	85 p.
dc.publisher.none.fl_str_mv	Universidade Federal de São Paulo (UNIFESP)
publisher.none.fl_str_mv	Universidade Federal de São Paulo (UNIFESP)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP
instname_str	Universidade Federal de São Paulo (UNIFESP)
instacron_str	UNIFESP
institution	UNIFESP
reponame_str	Repositório Institucional da UNIFESP
collection	Repositório Institucional da UNIFESP
bitstream.url.fl_str_mv	https://repositorio.unifesp.br/bitstreams/9dd8b353-f228-40a9-8da9-f67775727f76/download https://repositorio.unifesp.br/bitstreams/b5cd1207-a623-4301-bc8c-fa03aa75dacd/download https://repositorio.unifesp.br/bitstreams/73f49857-711c-4317-8e7f-7e698844d61a/download
bitstream.checksum.fl_str_mv	e15a603f55a0840cb6a5edb321ae894f 55b9bcf7da8398b031f610f959be5746 5bdcd862ba2cdda7501cd3ecbbdecfdd
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv	biblioteca.csp@unifesp.br
_version_	1863846419034537984

Recuperação de informação em campos de texto livre de prontuario eletrônicos do paciente baseada em semelhança semântica e ortográfica

Registros relacionados