[pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: NEIDE DE OLIVEIRA GOMES
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=2
http://doi.org/10.17771/PUCRio.acad.23851
Resumo: [pt] Atualmente os categorizadores de textos construídos por técnicas de aprendizagem de máquina têm alcançado bons resultados, tornando viável a categorização automática de textos. A proposição desse estudo foi a definição de vários modelos direcionados à categorização de pedidos de patente, no idioma português. Para esse ambiente foi proposto um comitê composto de 6 (seis) modelos, onde foram usadas várias técnicas. A base de dados foi constituída de 1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente, depositados no INPI, por depositantes nacionais, distribuídos em várias categorias. Dentre os vários modelos propostos para a etapa de processamento da categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para o idioma inglês. Para os outros modelos, foram selecionados métodos que não os tradicionais para ambiente de patentes. Para quatro modelos, optou-se por algoritmos, onde as categorias são representadas por vetores centróides. Para um dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k- NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento foram implementadas duas técnicas: os algoritmos de stemização de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram também utilizados na etapa do pré-processamento: a retirada de stopwords; e o tratamento dos termos compostos. Para a etapa de indexação foi utilizada principalmente a técnica de pesagem dos termos intitulada: frequência de termos modificada versus frequência de documentos inversa TF -IDF . Para as medidas de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE; Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as técnicas de predição da relevância e do rank. Dos métodos implementados nesse trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados embora demande muito tempo computacional.
id PUC_RIO-1_3cbaf0e86a332a4965feeafe762d3c19
oai_identifier_str oai:MAXWELL.puc-rio.br:23851
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS[en] TEXT CATEGORIZATION: CASE STUDY: PATENT S APPLICATION DOCUMENTS IN PORTUGUESE[pt] CATEGORIZACAO DE TEXTOS[pt] ALGORITMO BASEADO EM CENTROIDE OU VETOR PROTOTIPO[pt] ALGORITMO K VIZINHOS MAIS PROXIMOS K NN[pt] STEMIZACAO[pt] DESCOBERTA DE CONHECIMENTO EM TEXTOS REFERENTE A PEDIDOS DE PATENTE[pt] CLASSIFICACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE[pt] CATEGORIZACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE[pt] CLASSIFICACAO DE TEXTOS[en] TEXT CATEGORIZATION[en] CENTROID OR PROTOTYPE ALGORITHM[en] STEMMING[en] DISCOVERY IN TEXT KNOWLEDGE BASED IN PATENTS[en] CLASSIFICATION OF PATENT S APPLICATION DOCUMENTS[en] CATEGORIZATION OF PATENT S APPLICATION DOCUMENTS[en] TEXT CLASSIFICATION[pt] Atualmente os categorizadores de textos construídos por técnicas de aprendizagem de máquina têm alcançado bons resultados, tornando viável a categorização automática de textos. A proposição desse estudo foi a definição de vários modelos direcionados à categorização de pedidos de patente, no idioma português. Para esse ambiente foi proposto um comitê composto de 6 (seis) modelos, onde foram usadas várias técnicas. A base de dados foi constituída de 1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente, depositados no INPI, por depositantes nacionais, distribuídos em várias categorias. Dentre os vários modelos propostos para a etapa de processamento da categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para o idioma inglês. Para os outros modelos, foram selecionados métodos que não os tradicionais para ambiente de patentes. Para quatro modelos, optou-se por algoritmos, onde as categorias são representadas por vetores centróides. Para um dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k- NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento foram implementadas duas técnicas: os algoritmos de stemização de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram também utilizados na etapa do pré-processamento: a retirada de stopwords; e o tratamento dos termos compostos. Para a etapa de indexação foi utilizada principalmente a técnica de pesagem dos termos intitulada: frequência de termos modificada versus frequência de documentos inversa TF -IDF . Para as medidas de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE; Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as técnicas de predição da relevância e do rank. Dos métodos implementados nesse trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados embora demande muito tempo computacional.[en] Nowadays, the text s categorizers constructed based on learning techniques, had obtained good results and the automatic text categorization became viable. The purpose of this study was the definition of various models directed to text categorization of patent s application in Portuguese language. For this environment was proposed a committee composed of 6 (six) models, where were used various techniques. The text base was constituted of 1157 (one thousand one hundred fifty seven) abstracts of patent s applications, deposited in INPI, by national applicants, distributed in various categories. Among the various models proposed for the step of text categorization s processing, we emphasized the one devellopped for the 01 Method, the k-Nearest-Neighbor (k-NN), model also used in the English language patent s categorization environment. For the others models were selected methods, that are not traditional in the English language patent s environment. For four models, there were chosen for the algorithms, centroid vectors representing the categories. For one of the models, was explored the High Order Bit technique together with the k-NN algorithm, being the k all the training documents. For the pre-processing step, there were implemented two techniques: the Porter s stemization algorithm; and the StemmerPortuguese algorithm; both with modifications of the original. There were also used in the pre-processing step: the removal of the stopwards; and the treatment of the compound terms. For the indexing step there was used specially the modified documents term frequency versus documents term inverse frequency TF-IDF . For the similarity or distance measures there were used: cosine; Jaccard; DICE; Similarity Measure; HOB. For the results, there were used the relevance and the rank technique. Among the methods implemented in this work it was emphasized the traditional k-NN, which had obtained good results, although demands much computational time.MAXWELLMARLEY MARIA BERNARDES REBUZZI VELLASCOMARLEY MARIA BERNARDES REBUZZI VELLASCONEIDE DE OLIVEIRA GOMES2015-01-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=2http://doi.org/10.17771/PUCRio.acad.23851porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2019-08-14T00:00:00Zoai:MAXWELL.puc-rio.br:23851Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342019-08-14T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
[en] TEXT CATEGORIZATION: CASE STUDY: PATENT S APPLICATION DOCUMENTS IN PORTUGUESE
title [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
spellingShingle [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
NEIDE DE OLIVEIRA GOMES
[pt] CATEGORIZACAO DE TEXTOS
[pt] ALGORITMO BASEADO EM CENTROIDE OU VETOR PROTOTIPO
[pt] ALGORITMO K VIZINHOS MAIS PROXIMOS K NN
[pt] STEMIZACAO
[pt] DESCOBERTA DE CONHECIMENTO EM TEXTOS REFERENTE A PEDIDOS DE PATENTE
[pt] CLASSIFICACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE
[pt] CATEGORIZACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE
[pt] CLASSIFICACAO DE TEXTOS
[en] TEXT CATEGORIZATION
[en] CENTROID OR PROTOTYPE ALGORITHM
[en] STEMMING
[en] DISCOVERY IN TEXT KNOWLEDGE BASED IN PATENTS
[en] CLASSIFICATION OF PATENT S APPLICATION DOCUMENTS
[en] CATEGORIZATION OF PATENT S APPLICATION DOCUMENTS
[en] TEXT CLASSIFICATION
title_short [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
title_full [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
title_fullStr [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
title_full_unstemmed [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
title_sort [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS
author NEIDE DE OLIVEIRA GOMES
author_facet NEIDE DE OLIVEIRA GOMES
author_role author
dc.contributor.none.fl_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
MARLEY MARIA BERNARDES REBUZZI VELLASCO
dc.contributor.author.fl_str_mv NEIDE DE OLIVEIRA GOMES
dc.subject.por.fl_str_mv [pt] CATEGORIZACAO DE TEXTOS
[pt] ALGORITMO BASEADO EM CENTROIDE OU VETOR PROTOTIPO
[pt] ALGORITMO K VIZINHOS MAIS PROXIMOS K NN
[pt] STEMIZACAO
[pt] DESCOBERTA DE CONHECIMENTO EM TEXTOS REFERENTE A PEDIDOS DE PATENTE
[pt] CLASSIFICACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE
[pt] CATEGORIZACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE
[pt] CLASSIFICACAO DE TEXTOS
[en] TEXT CATEGORIZATION
[en] CENTROID OR PROTOTYPE ALGORITHM
[en] STEMMING
[en] DISCOVERY IN TEXT KNOWLEDGE BASED IN PATENTS
[en] CLASSIFICATION OF PATENT S APPLICATION DOCUMENTS
[en] CATEGORIZATION OF PATENT S APPLICATION DOCUMENTS
[en] TEXT CLASSIFICATION
topic [pt] CATEGORIZACAO DE TEXTOS
[pt] ALGORITMO BASEADO EM CENTROIDE OU VETOR PROTOTIPO
[pt] ALGORITMO K VIZINHOS MAIS PROXIMOS K NN
[pt] STEMIZACAO
[pt] DESCOBERTA DE CONHECIMENTO EM TEXTOS REFERENTE A PEDIDOS DE PATENTE
[pt] CLASSIFICACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE
[pt] CATEGORIZACAO DE DOCUMENTOS DE PEDIDOS DE PATENTE
[pt] CLASSIFICACAO DE TEXTOS
[en] TEXT CATEGORIZATION
[en] CENTROID OR PROTOTYPE ALGORITHM
[en] STEMMING
[en] DISCOVERY IN TEXT KNOWLEDGE BASED IN PATENTS
[en] CLASSIFICATION OF PATENT S APPLICATION DOCUMENTS
[en] CATEGORIZATION OF PATENT S APPLICATION DOCUMENTS
[en] TEXT CLASSIFICATION
description [pt] Atualmente os categorizadores de textos construídos por técnicas de aprendizagem de máquina têm alcançado bons resultados, tornando viável a categorização automática de textos. A proposição desse estudo foi a definição de vários modelos direcionados à categorização de pedidos de patente, no idioma português. Para esse ambiente foi proposto um comitê composto de 6 (seis) modelos, onde foram usadas várias técnicas. A base de dados foi constituída de 1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente, depositados no INPI, por depositantes nacionais, distribuídos em várias categorias. Dentre os vários modelos propostos para a etapa de processamento da categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para o idioma inglês. Para os outros modelos, foram selecionados métodos que não os tradicionais para ambiente de patentes. Para quatro modelos, optou-se por algoritmos, onde as categorias são representadas por vetores centróides. Para um dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k- NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento foram implementadas duas técnicas: os algoritmos de stemização de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram também utilizados na etapa do pré-processamento: a retirada de stopwords; e o tratamento dos termos compostos. Para a etapa de indexação foi utilizada principalmente a técnica de pesagem dos termos intitulada: frequência de termos modificada versus frequência de documentos inversa TF -IDF . Para as medidas de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE; Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as técnicas de predição da relevância e do rank. Dos métodos implementados nesse trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados embora demande muito tempo computacional.
publishDate 2015
dc.date.none.fl_str_mv 2015-01-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=2
http://doi.org/10.17771/PUCRio.acad.23851
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23851&idi=2
http://doi.org/10.17771/PUCRio.acad.23851
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1856395917679132672