Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural.
| Ano de defesa: | 2010 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.teses.usp.br/teses/disponiveis/3/3142/tde-16082010-173040/ |
Resumo: | Este trabalho promove um estudo em informática em saúde no qual se analisam laudos de radiologia torácica através de métodos de processamento estatístico de linguagem natural com o intuito de subsidiar a interoperabilidade entre sistemas de saúde. Foram utilizados 2000 laudos de radiologia do tórax para a extração de conhecimento identificando-se as palavras, n-gramas e frases que os compõem. Foi calculado o índice de Zipf e verificou-se que poucas palavras compõem a maioria dos laudos e que a maioria das palavras não tem representatividade estatística A partir dos termos identificados foi realizada a tradução e a comparação da existência desses em um vocabulário médico padronizado com terminologia internacional, o SNOMEDCT. Os termos que tinham uma relação completa e direta com os termos traduzidos foram incorporados nos termos de referência juntamente com a classe à qual o termo pertence e seu identificador. Foram selecionados outros 200 laudos de radiologia de tórax para realizar o experimento de rotulação dos termos em relação à referência. A eficiência obtida neste estágio, que é o percentual de rotulação dos laudos, foi de 45,55%. A partir de então foram incorporados aos termos de referência, sob a classe de conceito de ligação, artigos, preposições e pronomes. É importante ressaltar que esses termos não adicionam conhecimento de saúde ao texto. A eficiência obtida foi de 73,23%, aumentando significativamente a eficiência obtida anteriormente. Finalizamos o trabalho com algumas formas de aplicação dos laudos rotulados para a interoperabilidade de sistemas, utilizando para isto ontologias, o HL7 CDA (Clinical Documents Architecture) e o modelo de arquétipos da Fundação OpenEHR. |
| id |
USP_7a1cd198cf1dd1c3febc45910c23ac19 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-16082010-173040 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural.Knowledge extraction from reports of radiology thoracic using techniques of statistical processing of natural language.Health informaticsHealth knowledge representationInformática em saúdeProcessamento estatístico de linguagem naturalRepresentação do conhecimento em saúdeStatistical natural language processingEste trabalho promove um estudo em informática em saúde no qual se analisam laudos de radiologia torácica através de métodos de processamento estatístico de linguagem natural com o intuito de subsidiar a interoperabilidade entre sistemas de saúde. Foram utilizados 2000 laudos de radiologia do tórax para a extração de conhecimento identificando-se as palavras, n-gramas e frases que os compõem. Foi calculado o índice de Zipf e verificou-se que poucas palavras compõem a maioria dos laudos e que a maioria das palavras não tem representatividade estatística A partir dos termos identificados foi realizada a tradução e a comparação da existência desses em um vocabulário médico padronizado com terminologia internacional, o SNOMEDCT. Os termos que tinham uma relação completa e direta com os termos traduzidos foram incorporados nos termos de referência juntamente com a classe à qual o termo pertence e seu identificador. Foram selecionados outros 200 laudos de radiologia de tórax para realizar o experimento de rotulação dos termos em relação à referência. A eficiência obtida neste estágio, que é o percentual de rotulação dos laudos, foi de 45,55%. A partir de então foram incorporados aos termos de referência, sob a classe de conceito de ligação, artigos, preposições e pronomes. É importante ressaltar que esses termos não adicionam conhecimento de saúde ao texto. A eficiência obtida foi de 73,23%, aumentando significativamente a eficiência obtida anteriormente. Finalizamos o trabalho com algumas formas de aplicação dos laudos rotulados para a interoperabilidade de sistemas, utilizando para isto ontologias, o HL7 CDA (Clinical Documents Architecture) e o modelo de arquétipos da Fundação OpenEHR.This work promotes a study in health informatics technology which analyses reports of chest X-ray through statistical natural language processing methods for the purpose of supporting the interoperability between health systems. Two thousand radiology reports were used for the extraction of knowledge by identifying the words, n-grams and phrases of reports. Zipfs constant was studied and it was determined that few words make up the majority of the reports and that most of the words do not have statistical significance. The translation and comparison with exisiting standardized medical vocabulary with international terminology, called SNOMED-CT, was done based on the terms identified. The terms that had a complete and direct correlation with the translated terms were incorporated into the reference terms along with its class and the word identifier. Another 200 reports of chest x-rays were selected to perform the terms tagging experiment of with respect to the reference. The efficiency obtained, which is the percentage of labeling of the reports, was 45.55%. Subsequentely, articles, prepositions and pronouns were incorporated into the terms of reference under the linkage concept of class. It is important to note that these terms do not carry health knowledge to the text. Thus, the efficiency ratio was 73.23%, significantly increasing the efficiency obtained previously. The study was concluded with some forms of application of the reports tagged for system interoperability, using different ontologies, the HL7 CDA (Clinical Documents Architecture) and the archetypes at OpenEHR Fondation.Biblioteca Digitais de Teses e Dissertações da USPMoura Junior, Lincoln de AssisZerbinatti, Leandro2010-04-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/3/3142/tde-16082010-173040/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:10:09Zoai:teses.usp.br:tde-16082010-173040Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:10:09Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. Knowledge extraction from reports of radiology thoracic using techniques of statistical processing of natural language. |
| title |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. |
| spellingShingle |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. Zerbinatti, Leandro Health informatics Health knowledge representation Informática em saúde Processamento estatístico de linguagem natural Representação do conhecimento em saúde Statistical natural language processing |
| title_short |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. |
| title_full |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. |
| title_fullStr |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. |
| title_full_unstemmed |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. |
| title_sort |
Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. |
| author |
Zerbinatti, Leandro |
| author_facet |
Zerbinatti, Leandro |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Moura Junior, Lincoln de Assis |
| dc.contributor.author.fl_str_mv |
Zerbinatti, Leandro |
| dc.subject.por.fl_str_mv |
Health informatics Health knowledge representation Informática em saúde Processamento estatístico de linguagem natural Representação do conhecimento em saúde Statistical natural language processing |
| topic |
Health informatics Health knowledge representation Informática em saúde Processamento estatístico de linguagem natural Representação do conhecimento em saúde Statistical natural language processing |
| description |
Este trabalho promove um estudo em informática em saúde no qual se analisam laudos de radiologia torácica através de métodos de processamento estatístico de linguagem natural com o intuito de subsidiar a interoperabilidade entre sistemas de saúde. Foram utilizados 2000 laudos de radiologia do tórax para a extração de conhecimento identificando-se as palavras, n-gramas e frases que os compõem. Foi calculado o índice de Zipf e verificou-se que poucas palavras compõem a maioria dos laudos e que a maioria das palavras não tem representatividade estatística A partir dos termos identificados foi realizada a tradução e a comparação da existência desses em um vocabulário médico padronizado com terminologia internacional, o SNOMEDCT. Os termos que tinham uma relação completa e direta com os termos traduzidos foram incorporados nos termos de referência juntamente com a classe à qual o termo pertence e seu identificador. Foram selecionados outros 200 laudos de radiologia de tórax para realizar o experimento de rotulação dos termos em relação à referência. A eficiência obtida neste estágio, que é o percentual de rotulação dos laudos, foi de 45,55%. A partir de então foram incorporados aos termos de referência, sob a classe de conceito de ligação, artigos, preposições e pronomes. É importante ressaltar que esses termos não adicionam conhecimento de saúde ao texto. A eficiência obtida foi de 73,23%, aumentando significativamente a eficiência obtida anteriormente. Finalizamos o trabalho com algumas formas de aplicação dos laudos rotulados para a interoperabilidade de sistemas, utilizando para isto ontologias, o HL7 CDA (Clinical Documents Architecture) e o modelo de arquétipos da Fundação OpenEHR. |
| publishDate |
2010 |
| dc.date.none.fl_str_mv |
2010-04-15 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/3/3142/tde-16082010-173040/ |
| url |
http://www.teses.usp.br/teses/disponiveis/3/3142/tde-16082010-173040/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865491117913407488 |