Indexação automática por atribuição de artigos científicos da área de ciência da informação

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: BANDIM, Marcio Aercio Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Informacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/25272
Resumo: Investiga o processo de indexação automática por atribuiçãona representaçãode documentos no contexto da construção de base de dados científicana área de Ciência da Informação, visando a associação entre palavras-chaves e o conhecimento registrado em artigos científicos. O problema de pesquisa deste trabalho está configurado na análise do processo e da qualidade resultante na representação do assunto mediante a indexação automática por atribuição de artigos científicos na área da Ciência da Informação. Realiza levantamento das linguagens documentárias e tipo de indexação automática utilizadas em bases de dados científicas. Investiga o uso do Tesauro Brasileiro em Ciência da Informação (TBCI) conjuntamente com o Sistema de Indexação Semi-Automática (SISA), na indexação automática por atribuição de publicações científicas da área de Ciência da Informação.Utiliza como metodologia a pesquisa exploratória, com base em revisão da literatura brasileira em Ciência da Informação sobre indexação automática por atribuição e em estudo de caso via experimento. Utiliza o corpus composto por 60 artigos científicos referenciados na tese de doutorado de Souza (2005) para comparar as palavras-chave destes artigos com os termos atribuídos pelo sistema SISA usando o vocabulário controlado Tesauro TBCI.Na etapa pragmática desta pesquisafoi realizada a indexação automática por atribuição do corpus formado por estes 60 artigos científicos, bem como, análise e avaliação intrínseca qualitativa, via índices de consistência e, avaliação extrínseca quantitativa, via índices de precisão, revocação e medida F, dos termos propostos para indexação.Ao se avaliar os índices de consistência, adotando-se o critério de consistência relaxada, foi constatada uma média de 15 % nos índices de consistência, com uma variação de um mínimo de 0% a um máximo de 42 %.Quanto aos índices de revocação, precisão e medida F analisados neste experimento foram obtidos os seguintes resultados: Precisão média de 20 %; Revocação média de 42 % e Medida F média de 25 %. Os resultados da pesquisa permitem concluirsobre a importância do emprego do vocabulário controlado em um sistema indexação automática por atribuição uma vez que o Tesauro tem forte influência nos resultados da indexação automática. Também é possível afirmar que neste tipo de indexação feita pelo sistema SISA a habilitação do arquivo de termos gerais TCITG tem forte influência nos índices de qualidade os quais foram analisados pelos valores médios obtidos pelos indicadores de qualidade ou índices de consistência. Foi constatado ainda, que o uso de palavras-chave como termos de indexação precisa ser melhor estudado e pesquisado no sentido de se criar instrumentos que propiciem aos autores dos artigos científicos melhor definição conceitual destes termos e maior controle terminológico.
id UFPE_3e6fada0fefc87e1740fb460d4267c9b
oai_identifier_str oai:repositorio.ufpe.br:123456789/25272
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Indexação automática por atribuição de artigos científicos da área de ciência da informaçãoIndexação automáticaIndexação automática por atribuiçãoVocabulário controladoSistemas de indexação automáticaBase de dados científicasInvestiga o processo de indexação automática por atribuiçãona representaçãode documentos no contexto da construção de base de dados científicana área de Ciência da Informação, visando a associação entre palavras-chaves e o conhecimento registrado em artigos científicos. O problema de pesquisa deste trabalho está configurado na análise do processo e da qualidade resultante na representação do assunto mediante a indexação automática por atribuição de artigos científicos na área da Ciência da Informação. Realiza levantamento das linguagens documentárias e tipo de indexação automática utilizadas em bases de dados científicas. Investiga o uso do Tesauro Brasileiro em Ciência da Informação (TBCI) conjuntamente com o Sistema de Indexação Semi-Automática (SISA), na indexação automática por atribuição de publicações científicas da área de Ciência da Informação.Utiliza como metodologia a pesquisa exploratória, com base em revisão da literatura brasileira em Ciência da Informação sobre indexação automática por atribuição e em estudo de caso via experimento. Utiliza o corpus composto por 60 artigos científicos referenciados na tese de doutorado de Souza (2005) para comparar as palavras-chave destes artigos com os termos atribuídos pelo sistema SISA usando o vocabulário controlado Tesauro TBCI.Na etapa pragmática desta pesquisafoi realizada a indexação automática por atribuição do corpus formado por estes 60 artigos científicos, bem como, análise e avaliação intrínseca qualitativa, via índices de consistência e, avaliação extrínseca quantitativa, via índices de precisão, revocação e medida F, dos termos propostos para indexação.Ao se avaliar os índices de consistência, adotando-se o critério de consistência relaxada, foi constatada uma média de 15 % nos índices de consistência, com uma variação de um mínimo de 0% a um máximo de 42 %.Quanto aos índices de revocação, precisão e medida F analisados neste experimento foram obtidos os seguintes resultados: Precisão média de 20 %; Revocação média de 42 % e Medida F média de 25 %. Os resultados da pesquisa permitem concluirsobre a importância do emprego do vocabulário controlado em um sistema indexação automática por atribuição uma vez que o Tesauro tem forte influência nos resultados da indexação automática. Também é possível afirmar que neste tipo de indexação feita pelo sistema SISA a habilitação do arquivo de termos gerais TCITG tem forte influência nos índices de qualidade os quais foram analisados pelos valores médios obtidos pelos indicadores de qualidade ou índices de consistência. Foi constatado ainda, que o uso de palavras-chave como termos de indexação precisa ser melhor estudado e pesquisado no sentido de se criar instrumentos que propiciem aos autores dos artigos científicos melhor definição conceitual destes termos e maior controle terminológico.This work investigates the process of automatic indexing by attribution in the representation of documents within the context of scientific database construction in the area of Information Science, aiming to associate keywords to the knowledge recorded in scientific papers. This work‟s research problem is the analysis of the process and the resulting quality in the representation of the subject through automatic indexing by attribution of scientific papers in the area of Information Science. It appraises documentary language and type of automatic indexing used in scientific databases. Investigates the use of the Brazilian Thesaurus of Information Science (TBCI) along with the Semi-Automatic Indexing System (SISA) in automatic indexing by attribution of scientific publications in the area of Information Science. Its methodology is exploratory research, based on the revision of Brazilian Information Science literature on automatic indexing by attribution and a case study through an experiment. Utilizes the corpus made up of 60 scientific papers referenced in Souza‟s doctorate thesis to compare the keywords used in those papers with the terms attributed by SISA using the TBCI controlled vocabulary. In the pragmatic stage of this research, automatic indexing by attribution of the 60-paper corpus was used, as well as intrinsic qualitative analysis and evaluation, through consistency indices, and extrinsic quantitative evaluation, through precision, recall and F-measure indices of the terms proposed for indexing. Evaluation of the consistency indices, adopting the relaxed consistency criteria, showed an average of 15% in the consistency indices, with a variation going from a minimum of 0% to a maximum of 42%. As to recall, precision and F-measure indices analyzed in this experiment, the following results were obtained: average precision of 20%; average recall of 42%; and average F-measure of 25%. The research results allow us to conclude the importance of the use of controlled vocabulary in an automatic indexing by attribution system since the thesaurus has a strong influence in the results of automatic indexing. It is also possible to assert that in this type of indexing by the SISA system, the habilitation of the general terms archive has a strong influence in the quality indices, which were analyzed through the average values obtained by quality indicators as consistency indices. It was also evidenced that the use of keywords as indexing terms needs to be further studied and researched in order to create tools that provide the authors of scientific papers with a better conceptual definition of these terms and better terminology control.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da InformacaoCORRÊA, Renato Fernandeshttp://lattes.cnpq.br/6288647476558772http://lattes.cnpq.br/7536537827447217BANDIM, Marcio Aercio Silva2018-07-30T18:30:33Z2018-07-30T18:30:33Z2017-02-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio.ufpe.br/handle/123456789/25272porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2019-10-25T12:01:42Zoai:repositorio.ufpe.br:123456789/25272Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T12:01:42Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Indexação automática por atribuição de artigos científicos da área de ciência da informação
title Indexação automática por atribuição de artigos científicos da área de ciência da informação
spellingShingle Indexação automática por atribuição de artigos científicos da área de ciência da informação
BANDIM, Marcio Aercio Silva
Indexação automática
Indexação automática por atribuição
Vocabulário controlado
Sistemas de indexação automática
Base de dados científicas
title_short Indexação automática por atribuição de artigos científicos da área de ciência da informação
title_full Indexação automática por atribuição de artigos científicos da área de ciência da informação
title_fullStr Indexação automática por atribuição de artigos científicos da área de ciência da informação
title_full_unstemmed Indexação automática por atribuição de artigos científicos da área de ciência da informação
title_sort Indexação automática por atribuição de artigos científicos da área de ciência da informação
author BANDIM, Marcio Aercio Silva
author_facet BANDIM, Marcio Aercio Silva
author_role author
dc.contributor.none.fl_str_mv CORRÊA, Renato Fernandes
http://lattes.cnpq.br/6288647476558772
http://lattes.cnpq.br/7536537827447217
dc.contributor.author.fl_str_mv BANDIM, Marcio Aercio Silva
dc.subject.por.fl_str_mv Indexação automática
Indexação automática por atribuição
Vocabulário controlado
Sistemas de indexação automática
Base de dados científicas
topic Indexação automática
Indexação automática por atribuição
Vocabulário controlado
Sistemas de indexação automática
Base de dados científicas
description Investiga o processo de indexação automática por atribuiçãona representaçãode documentos no contexto da construção de base de dados científicana área de Ciência da Informação, visando a associação entre palavras-chaves e o conhecimento registrado em artigos científicos. O problema de pesquisa deste trabalho está configurado na análise do processo e da qualidade resultante na representação do assunto mediante a indexação automática por atribuição de artigos científicos na área da Ciência da Informação. Realiza levantamento das linguagens documentárias e tipo de indexação automática utilizadas em bases de dados científicas. Investiga o uso do Tesauro Brasileiro em Ciência da Informação (TBCI) conjuntamente com o Sistema de Indexação Semi-Automática (SISA), na indexação automática por atribuição de publicações científicas da área de Ciência da Informação.Utiliza como metodologia a pesquisa exploratória, com base em revisão da literatura brasileira em Ciência da Informação sobre indexação automática por atribuição e em estudo de caso via experimento. Utiliza o corpus composto por 60 artigos científicos referenciados na tese de doutorado de Souza (2005) para comparar as palavras-chave destes artigos com os termos atribuídos pelo sistema SISA usando o vocabulário controlado Tesauro TBCI.Na etapa pragmática desta pesquisafoi realizada a indexação automática por atribuição do corpus formado por estes 60 artigos científicos, bem como, análise e avaliação intrínseca qualitativa, via índices de consistência e, avaliação extrínseca quantitativa, via índices de precisão, revocação e medida F, dos termos propostos para indexação.Ao se avaliar os índices de consistência, adotando-se o critério de consistência relaxada, foi constatada uma média de 15 % nos índices de consistência, com uma variação de um mínimo de 0% a um máximo de 42 %.Quanto aos índices de revocação, precisão e medida F analisados neste experimento foram obtidos os seguintes resultados: Precisão média de 20 %; Revocação média de 42 % e Medida F média de 25 %. Os resultados da pesquisa permitem concluirsobre a importância do emprego do vocabulário controlado em um sistema indexação automática por atribuição uma vez que o Tesauro tem forte influência nos resultados da indexação automática. Também é possível afirmar que neste tipo de indexação feita pelo sistema SISA a habilitação do arquivo de termos gerais TCITG tem forte influência nos índices de qualidade os quais foram analisados pelos valores médios obtidos pelos indicadores de qualidade ou índices de consistência. Foi constatado ainda, que o uso de palavras-chave como termos de indexação precisa ser melhor estudado e pesquisado no sentido de se criar instrumentos que propiciem aos autores dos artigos científicos melhor definição conceitual destes termos e maior controle terminológico.
publishDate 2017
dc.date.none.fl_str_mv 2017-02-20
2018-07-30T18:30:33Z
2018-07-30T18:30:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/25272
url https://repositorio.ufpe.br/handle/123456789/25272
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Informacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Informacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856041967912222720