Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros

Detalhes bibliográficos
Ano de defesa: 2010
Autor(a) principal: Ana Paula Ladeira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1843/ECID-8B3Q6C
Resumo: Natural language processing researchs (NLP) has being made by researchers from areas as computer science, information science and linguistics. This thesis aims to use the knowledge accumulated over the past 40 years in NLP and published in ARIST, as a reference to select and to analyze the scientific production of the Brazilian academic community in the area. Brazilian publications about NLP were collected automatically from Lattes database (http://lattes.cnpq.br/). The tool forautomatic selection of NLP publications from Brazilian Lattes database was built by analyzing the subject of review articles of ARIST. A total of 621 publications were automatically related to NLP area and were retrieved from Lattes database. A randomly sample of 68 papers from this total was submitted to content analysis. This analysis allowed identifying the main issues about NLP discussed by the Brazilian scientific community. We observed that the majority of Brazilian publications were published after the year 2000. Moreover, the participation of information science hasbeen very modest in NLP publication. However, computer science and linguistics were responsible for almost 85% of Brazilian production. Twelve investigators were responsible for more than 20% of all Brazilian production, and among them, nine were from computer science, two from linguistics, and one from electrical engineering. Besides, it is noteworthy that among the twelve main researchers, seven were part of just one research group that works with computational linguistics, the NILC - Núcleo Interinstitucional de Lingüística Computacional (http://nilc.icmc.sc.usp.br/). Among the most discussed issues, we observed the following: translation was discussed intensively in the 90's, indexing studies decreased after the 80's, studies about classification became inactive during the 90s, and there is a clear trend in the area of NLP to develop automatic summarization. Another aspect revealed by the analysis was that information science has focused mainly on automatic indexing and content analysis, while computer science has focused primarily on automatic translation and summarization. The content analysis performed on 68 sample publications showed that retrieval information was the issue most prominent in Brazilian scientific production. Only two papers that worked with summarization used a deep approach to produce summaries. The most research in automatic summarization emphasized on empirical approach to generate extracts.Researches on automatic translation using statistical methods and transfers rules obtained very similar results. Brazilian studies on NLP involve different disciplines from information science. These studies should to be well known by the researchers from information science whose can benefit from the computational tools developed that can be applied in classical processes such as cataloging, information representation and retrieval.
id UFMG_c3edfe7ef59304213f08b5cb9830608c
oai_identifier_str oai:repositorio.ufmg.br:1843/ECID-8B3Q6C
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling 2019-08-12T13:41:25Z2025-09-08T23:27:30Z2019-08-12T13:41:25Z2010-11-05https://hdl.handle.net/1843/ECID-8B3Q6CNatural language processing researchs (NLP) has being made by researchers from areas as computer science, information science and linguistics. This thesis aims to use the knowledge accumulated over the past 40 years in NLP and published in ARIST, as a reference to select and to analyze the scientific production of the Brazilian academic community in the area. Brazilian publications about NLP were collected automatically from Lattes database (http://lattes.cnpq.br/). The tool forautomatic selection of NLP publications from Brazilian Lattes database was built by analyzing the subject of review articles of ARIST. A total of 621 publications were automatically related to NLP area and were retrieved from Lattes database. A randomly sample of 68 papers from this total was submitted to content analysis. This analysis allowed identifying the main issues about NLP discussed by the Brazilian scientific community. We observed that the majority of Brazilian publications were published after the year 2000. Moreover, the participation of information science hasbeen very modest in NLP publication. However, computer science and linguistics were responsible for almost 85% of Brazilian production. Twelve investigators were responsible for more than 20% of all Brazilian production, and among them, nine were from computer science, two from linguistics, and one from electrical engineering. Besides, it is noteworthy that among the twelve main researchers, seven were part of just one research group that works with computational linguistics, the NILC - Núcleo Interinstitucional de Lingüística Computacional (http://nilc.icmc.sc.usp.br/). Among the most discussed issues, we observed the following: translation was discussed intensively in the 90's, indexing studies decreased after the 80's, studies about classification became inactive during the 90s, and there is a clear trend in the area of NLP to develop automatic summarization. Another aspect revealed by the analysis was that information science has focused mainly on automatic indexing and content analysis, while computer science has focused primarily on automatic translation and summarization. The content analysis performed on 68 sample publications showed that retrieval information was the issue most prominent in Brazilian scientific production. Only two papers that worked with summarization used a deep approach to produce summaries. The most research in automatic summarization emphasized on empirical approach to generate extracts.Researches on automatic translation using statistical methods and transfers rules obtained very similar results. Brazilian studies on NLP involve different disciplines from information science. These studies should to be well known by the researchers from information science whose can benefit from the computational tools developed that can be applied in classical processes such as cataloging, information representation and retrieval.Universidade Federal de Minas GeraisLinguagem naturalProdução científica dos pesquisadores brasileirosRecuperação da informaçãoCiência da informaçãoProcessamento da linguagem natural (Computação)Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileirosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisAna Paula Ladeirainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGLidia AlvarengaMarisa Brascher Basílio MedeirosAna Maria Rezende CabralBeatriz Valadares CendonMarlene de OliveiraRenato Rocha SouzaSinais evidentes de contribuições de grandes campos disciplinares marcaram e têm influenciado fortemente as pesquisas na área de processamento de linguagem natural (PLN), dentre eles a ciência da computação, a ciência da informação e a linguística. Sendo assim, a presente tese pretendeu utilizar o conhecimento acumulado ao longo dos últimos 40 anos em PLN e revelado no ARIST, como referência para selecionar e analisar a produção científica da comunidade acadêmica nacional da área. As publicações nacionais foram coletadasautomaticamente da Plataforma Lattes, e um instrumento de seleção automática foi construído a partir da análise de assunto dos artigos de revisão do ARIST. Este instrumento foi utilizado para selecionar, de maneira automática, as publicações nacionais atinentes para a área de PLN. Dentre as 621 publicações consideradas da área, definiu-se o material empírico, constituído por uma amostra de 68 trabalhos, que foi submetido à análise de conteúdo. Essa análise permitiu elucidar as temáticas discutidas pela comunidade científica nacional. Ao analisar todas as publicações atinentes para a área de PLN, observou-se que a grande maioria da produção científica foi publicada depois do ano 2.000. Além disso, a participação da ciência da informação tem sido muito modesta, sendo que a ciência da computação e a linguística foram responsáveis por quase 85% da produção nacional. Doze pesquisadores foram responsáveis por mais de 20% de toda a produção nacional, sendo que dentre eles, nove são da ciência da computação, dois da linguística, e um é da engenharia elétrica. Além disso, vale destacar que dentre esses doze pesquisadores, sete fazem parte do grupo de pesquisa NILC. Dentre as problemáticas mais discutidas, foi possível observar que: a tradução foi intensamente abordada na década de 90; os estudos com indexação diminuíram apartir da década de 80; e que as pesquisas sobre classificação passaram por um período de dormência na década de 90; e que existe uma tendência clara na área de PLN de desenvolvimento de pesquisas em sumarização automática. Outro aspecto que a pesquisa revelou foi que a ciência da informação tem priorizado as pesquisas em indexação automática, seguido da análise de conteúdo, enquanto que a ciência da computação tem priorizado as pesquisas em tradução e sumarização. A análise de conteúdo realizada nas 68 publicações selecionadaspermitiu revelou que a recuperação de informação foi a problemática que teve maior destaque na produção científica nacional. Dos trabalhos analisados sobre sumarização, observou-se que somente dois usaram a abordagem profunda e produziram sumários, e que a maioria das pesquisas em sumarização automática tem privilegiado a abordagemempírica (para gerar extratos). As pesquisas em tradução automática têm utilizados métodos estatísticos e regras de transferências, com resultados muito próximos. Apesar das pesquisas em PLN estarem ocorrendo em campos disciplinares diferentes da ciência da informação, os estudos realizados precisam ser conhecidos, pois esta última pode se beneficiar das ferramentas computacionais desenvolvidas, aplicando-as em processos clássicos inerentes ao campo, tais como catalogação, recuperação e representação de informação.UFMGORIGINALtese_anapaulaladeira_cd.pdfapplication/pdf13619203https://repositorio.ufmg.br//bitstreams/664d48f2-c701-4171-842b-cd1e183487e0/downloadab92b46dbcc925cba03f3ce3092a9f9cMD51trueAnonymousREADTEXTtese_anapaulaladeira_cd.pdf.txttext/plain612824https://repositorio.ufmg.br//bitstreams/5c9668fe-df77-40ca-955a-b55481629f7a/downloada8b968e6eefb5a40dd3b845818934c3bMD52falseAnonymousREAD1843/ECID-8B3Q6C2025-09-08 20:27:30.593open.accessoai:repositorio.ufmg.br:1843/ECID-8B3Q6Chttps://repositorio.ufmg.br/Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-08T23:27:30Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
title Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
spellingShingle Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
Ana Paula Ladeira
Recuperação da informação
Ciência da informação
Processamento da linguagem natural (Computação)
Linguagem natural
Produção científica dos pesquisadores brasileiros
title_short Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
title_full Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
title_fullStr Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
title_full_unstemmed Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
title_sort Processamento de linguagem natural: caracterizacao da produção científica dos pesquisadores brasileiros
author Ana Paula Ladeira
author_facet Ana Paula Ladeira
author_role author
dc.contributor.author.fl_str_mv Ana Paula Ladeira
dc.subject.por.fl_str_mv Recuperação da informação
Ciência da informação
Processamento da linguagem natural (Computação)
topic Recuperação da informação
Ciência da informação
Processamento da linguagem natural (Computação)
Linguagem natural
Produção científica dos pesquisadores brasileiros
dc.subject.other.none.fl_str_mv Linguagem natural
Produção científica dos pesquisadores brasileiros
description Natural language processing researchs (NLP) has being made by researchers from areas as computer science, information science and linguistics. This thesis aims to use the knowledge accumulated over the past 40 years in NLP and published in ARIST, as a reference to select and to analyze the scientific production of the Brazilian academic community in the area. Brazilian publications about NLP were collected automatically from Lattes database (http://lattes.cnpq.br/). The tool forautomatic selection of NLP publications from Brazilian Lattes database was built by analyzing the subject of review articles of ARIST. A total of 621 publications were automatically related to NLP area and were retrieved from Lattes database. A randomly sample of 68 papers from this total was submitted to content analysis. This analysis allowed identifying the main issues about NLP discussed by the Brazilian scientific community. We observed that the majority of Brazilian publications were published after the year 2000. Moreover, the participation of information science hasbeen very modest in NLP publication. However, computer science and linguistics were responsible for almost 85% of Brazilian production. Twelve investigators were responsible for more than 20% of all Brazilian production, and among them, nine were from computer science, two from linguistics, and one from electrical engineering. Besides, it is noteworthy that among the twelve main researchers, seven were part of just one research group that works with computational linguistics, the NILC - Núcleo Interinstitucional de Lingüística Computacional (http://nilc.icmc.sc.usp.br/). Among the most discussed issues, we observed the following: translation was discussed intensively in the 90's, indexing studies decreased after the 80's, studies about classification became inactive during the 90s, and there is a clear trend in the area of NLP to develop automatic summarization. Another aspect revealed by the analysis was that information science has focused mainly on automatic indexing and content analysis, while computer science has focused primarily on automatic translation and summarization. The content analysis performed on 68 sample publications showed that retrieval information was the issue most prominent in Brazilian scientific production. Only two papers that worked with summarization used a deep approach to produce summaries. The most research in automatic summarization emphasized on empirical approach to generate extracts.Researches on automatic translation using statistical methods and transfers rules obtained very similar results. Brazilian studies on NLP involve different disciplines from information science. These studies should to be well known by the researchers from information science whose can benefit from the computational tools developed that can be applied in classical processes such as cataloging, information representation and retrieval.
publishDate 2010
dc.date.issued.fl_str_mv 2010-11-05
dc.date.accessioned.fl_str_mv 2019-08-12T13:41:25Z
2025-09-08T23:27:30Z
dc.date.available.fl_str_mv 2019-08-12T13:41:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1843/ECID-8B3Q6C
url https://hdl.handle.net/1843/ECID-8B3Q6C
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br//bitstreams/664d48f2-c701-4171-842b-cd1e183487e0/download
https://repositorio.ufmg.br//bitstreams/5c9668fe-df77-40ca-955a-b55481629f7a/download
bitstream.checksum.fl_str_mv ab92b46dbcc925cba03f3ce3092a9f9c
a8b968e6eefb5a40dd3b845818934c3b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1862105910644572160