Metadata extraction from scientific documents in PDF

Souza, Alan Pinto

Metadata extraction from scientific documents in PDF

Detalhes bibliográficos
Ano de defesa:	2014
Autor(a) principal:	Souza, Alan Pinto
Orientador(a):	Heuser, Carlos Alberto
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Recuperacao : Informacao Banco : Dados Extracao : Dados
Palavras-chave em Inglês:	Metadata extraction PDF Machine learning
Link de acesso:	http://hdl.handle.net/10183/108005
Resumo:	A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.

Metadados do item

id	URGS_2b6d38f3d24784cf13368bb0eda1d341
oai_identifier_str	oai:www.lume.ufrgs.br:10183/108005
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Souza, Alan PintoHeuser, Carlos AlbertoMoreira, Viviane Pereira2014-12-10T02:20:00Z2014http://hdl.handle.net/10183/108005000947623A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.application/pdfengRecuperacao : InformacaoBanco : DadosExtracao : DadosMetadata extractionPDFMachine learningMetadata extraction from scientific documents in PDFExtração de metadados em artigos científicos no formato PDF info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2014mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000947623.pdf000947623.pdfTexto completo (inglês)application/pdf1379620http://www.lume.ufrgs.br/bitstream/10183/108005/1/000947623.pdfc39327729c69e08de44d6228e1811b78MD51TEXT000947623.pdf.txt000947623.pdf.txtExtracted Texttext/plain120550http://www.lume.ufrgs.br/bitstream/10183/108005/2/000947623.pdf.txt80d73b98ec060850ae24736d2214f6d6MD52THUMBNAIL000947623.pdf.jpg000947623.pdf.jpgGenerated Thumbnailimage/jpeg1034http://www.lume.ufrgs.br/bitstream/10183/108005/3/000947623.pdf.jpge14a4d855e90656d9766bd980f0209d0MD5310183/1080052021-05-26 04:37:32.265417oai:www.lume.ufrgs.br:10183/108005Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532021-05-26T07:37:32Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Metadata extraction from scientific documents in PDF
dc.title.alternative.pt.fl_str_mv	Extração de metadados em artigos científicos no formato PDF
title	Metadata extraction from scientific documents in PDF
spellingShingle	Metadata extraction from scientific documents in PDF Souza, Alan Pinto Recuperacao : Informacao Banco : Dados Extracao : Dados Metadata extraction PDF Machine learning
title_short	Metadata extraction from scientific documents in PDF
title_full	Metadata extraction from scientific documents in PDF
title_fullStr	Metadata extraction from scientific documents in PDF
title_full_unstemmed	Metadata extraction from scientific documents in PDF
title_sort	Metadata extraction from scientific documents in PDF
author	Souza, Alan Pinto
author_facet	Souza, Alan Pinto
author_role	author
dc.contributor.author.fl_str_mv	Souza, Alan Pinto
dc.contributor.advisor1.fl_str_mv	Heuser, Carlos Alberto
dc.contributor.advisor-co1.fl_str_mv	Moreira, Viviane Pereira
contributor_str_mv	Heuser, Carlos Alberto Moreira, Viviane Pereira
dc.subject.por.fl_str_mv	Recuperacao : Informacao Banco : Dados Extracao : Dados
topic	Recuperacao : Informacao Banco : Dados Extracao : Dados Metadata extraction PDF Machine learning
dc.subject.eng.fl_str_mv	Metadata extraction PDF Machine learning
description	A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.
publishDate	2014
dc.date.accessioned.fl_str_mv	2014-12-10T02:20:00Z
dc.date.issued.fl_str_mv	2014
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/108005
dc.identifier.nrb.pt_BR.fl_str_mv	000947623
url	http://hdl.handle.net/10183/108005
identifier_str_mv	000947623
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/108005/1/000947623.pdf http://www.lume.ufrgs.br/bitstream/10183/108005/2/000947623.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/108005/3/000947623.pdf.jpg
bitstream.checksum.fl_str_mv	c39327729c69e08de44d6228e1811b78 80d73b98ec060850ae24736d2214f6d6 e14a4d855e90656d9766bd980f0209d0
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1831315957305311232

Metadata extraction from scientific documents in PDF

Registros relacionados