Metadata extraction from scientific documents in PDF

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Souza, Alan Pinto
Orientador(a): Heuser, Carlos Alberto
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
PDF
Link de acesso: http://hdl.handle.net/10183/108005
Resumo: A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.
id URGS_2b6d38f3d24784cf13368bb0eda1d341
oai_identifier_str oai:www.lume.ufrgs.br:10183/108005
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Souza, Alan PintoHeuser, Carlos AlbertoMoreira, Viviane Pereira2014-12-10T02:20:00Z2014http://hdl.handle.net/10183/108005000947623A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.application/pdfengRecuperacao : InformacaoBanco : DadosExtracao : DadosMetadata extractionPDFMachine learningMetadata extraction from scientific documents in PDFExtração de metadados em artigos científicos no formato PDF info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2014mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000947623.pdf000947623.pdfTexto completo (inglês)application/pdf1379620http://www.lume.ufrgs.br/bitstream/10183/108005/1/000947623.pdfc39327729c69e08de44d6228e1811b78MD51TEXT000947623.pdf.txt000947623.pdf.txtExtracted Texttext/plain120550http://www.lume.ufrgs.br/bitstream/10183/108005/2/000947623.pdf.txt80d73b98ec060850ae24736d2214f6d6MD52THUMBNAIL000947623.pdf.jpg000947623.pdf.jpgGenerated Thumbnailimage/jpeg1034http://www.lume.ufrgs.br/bitstream/10183/108005/3/000947623.pdf.jpge14a4d855e90656d9766bd980f0209d0MD5310183/1080052021-05-26 04:37:32.265417oai:www.lume.ufrgs.br:10183/108005Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:37:32Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Metadata extraction from scientific documents in PDF
dc.title.alternative.pt.fl_str_mv Extração de metadados em artigos científicos no formato PDF
title Metadata extraction from scientific documents in PDF
spellingShingle Metadata extraction from scientific documents in PDF
Souza, Alan Pinto
Recuperacao : Informacao
Banco : Dados
Extracao : Dados
Metadata extraction
PDF
Machine learning
title_short Metadata extraction from scientific documents in PDF
title_full Metadata extraction from scientific documents in PDF
title_fullStr Metadata extraction from scientific documents in PDF
title_full_unstemmed Metadata extraction from scientific documents in PDF
title_sort Metadata extraction from scientific documents in PDF
author Souza, Alan Pinto
author_facet Souza, Alan Pinto
author_role author
dc.contributor.author.fl_str_mv Souza, Alan Pinto
dc.contributor.advisor1.fl_str_mv Heuser, Carlos Alberto
dc.contributor.advisor-co1.fl_str_mv Moreira, Viviane Pereira
contributor_str_mv Heuser, Carlos Alberto
Moreira, Viviane Pereira
dc.subject.por.fl_str_mv Recuperacao : Informacao
Banco : Dados
Extracao : Dados
topic Recuperacao : Informacao
Banco : Dados
Extracao : Dados
Metadata extraction
PDF
Machine learning
dc.subject.eng.fl_str_mv Metadata extraction
PDF
Machine learning
description A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.
publishDate 2014
dc.date.accessioned.fl_str_mv 2014-12-10T02:20:00Z
dc.date.issued.fl_str_mv 2014
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/108005
dc.identifier.nrb.pt_BR.fl_str_mv 000947623
url http://hdl.handle.net/10183/108005
identifier_str_mv 000947623
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/108005/1/000947623.pdf
http://www.lume.ufrgs.br/bitstream/10183/108005/2/000947623.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/108005/3/000947623.pdf.jpg
bitstream.checksum.fl_str_mv c39327729c69e08de44d6228e1811b78
80d73b98ec060850ae24736d2214f6d6
e14a4d855e90656d9766bd980f0209d0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831315957305311232