Metadata extraction from scientific documents in PDF
| Ano de defesa: | 2014 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/108005 |
Resumo: | A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. |
| id |
URGS_2b6d38f3d24784cf13368bb0eda1d341 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/108005 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Souza, Alan PintoHeuser, Carlos AlbertoMoreira, Viviane Pereira2014-12-10T02:20:00Z2014http://hdl.handle.net/10183/108005000947623A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.application/pdfengRecuperacao : InformacaoBanco : DadosExtracao : DadosMetadata extractionPDFMachine learningMetadata extraction from scientific documents in PDFExtração de metadados em artigos científicos no formato PDF info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2014mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000947623.pdf000947623.pdfTexto completo (inglês)application/pdf1379620http://www.lume.ufrgs.br/bitstream/10183/108005/1/000947623.pdfc39327729c69e08de44d6228e1811b78MD51TEXT000947623.pdf.txt000947623.pdf.txtExtracted Texttext/plain120550http://www.lume.ufrgs.br/bitstream/10183/108005/2/000947623.pdf.txt80d73b98ec060850ae24736d2214f6d6MD52THUMBNAIL000947623.pdf.jpg000947623.pdf.jpgGenerated Thumbnailimage/jpeg1034http://www.lume.ufrgs.br/bitstream/10183/108005/3/000947623.pdf.jpge14a4d855e90656d9766bd980f0209d0MD5310183/1080052021-05-26 04:37:32.265417oai:www.lume.ufrgs.br:10183/108005Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:37:32Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Metadata extraction from scientific documents in PDF |
| dc.title.alternative.pt.fl_str_mv |
Extração de metadados em artigos científicos no formato PDF |
| title |
Metadata extraction from scientific documents in PDF |
| spellingShingle |
Metadata extraction from scientific documents in PDF Souza, Alan Pinto Recuperacao : Informacao Banco : Dados Extracao : Dados Metadata extraction Machine learning |
| title_short |
Metadata extraction from scientific documents in PDF |
| title_full |
Metadata extraction from scientific documents in PDF |
| title_fullStr |
Metadata extraction from scientific documents in PDF |
| title_full_unstemmed |
Metadata extraction from scientific documents in PDF |
| title_sort |
Metadata extraction from scientific documents in PDF |
| author |
Souza, Alan Pinto |
| author_facet |
Souza, Alan Pinto |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Souza, Alan Pinto |
| dc.contributor.advisor1.fl_str_mv |
Heuser, Carlos Alberto |
| dc.contributor.advisor-co1.fl_str_mv |
Moreira, Viviane Pereira |
| contributor_str_mv |
Heuser, Carlos Alberto Moreira, Viviane Pereira |
| dc.subject.por.fl_str_mv |
Recuperacao : Informacao Banco : Dados Extracao : Dados |
| topic |
Recuperacao : Informacao Banco : Dados Extracao : Dados Metadata extraction Machine learning |
| dc.subject.eng.fl_str_mv |
Metadata extraction Machine learning |
| description |
A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. |
| publishDate |
2014 |
| dc.date.accessioned.fl_str_mv |
2014-12-10T02:20:00Z |
| dc.date.issued.fl_str_mv |
2014 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/108005 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
000947623 |
| url |
http://hdl.handle.net/10183/108005 |
| identifier_str_mv |
000947623 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/108005/1/000947623.pdf http://www.lume.ufrgs.br/bitstream/10183/108005/2/000947623.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/108005/3/000947623.pdf.jpg |
| bitstream.checksum.fl_str_mv |
c39327729c69e08de44d6228e1811b78 80d73b98ec060850ae24736d2214f6d6 e14a4d855e90656d9766bd980f0209d0 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831315957305311232 |