Variações do método kNN e suas aplicações na classificação automática de textos

Detalhes bibliográficos
Ano de defesa: 2010
Autor(a) principal: SANTOS, Fernando Chagas lattes
Orientador(a): CARVALHO, Cedric Luiz de lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Programa de Pós-Graduação: Mestrado em Ciência da Computação
Departamento: Ciências Exatas e da Terra - Ciências da Computação
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tde/499
Resumo: Most research on Automatic Text Categorization (ATC) seeks to improve the classifier performance (effective or efficient) responsible for automatically classifying a document d not yet rated. The k nearest neighbors (kNN) is simpler and it s one of automatic classification methods more effective as proposed. In this paper we proposed two kNN variations, Inverse kNN (kINN) and Symmetric kNN (kSNN) with the aim of improving the effectiveness of ACT. The kNN, kINN and kSNN methods were applied in Reuters, 20ng and Ohsumed collections and the results showed that kINN and kSNN methods were more effective than kNN method in Reuters and Ohsumed collections. kINN and kSNN methods were as effective as kNN method in 20NG collection. In addition, the performance achieved by kNN method is more stable than kINN and kSNN methods when the value k change. A parallel study was conducted to generate new features in documents from the similarity matrices resulting from the selection criteria for the best results obtained in kNN, kINN and kSNN methods. The SVM (considered a state of the art method) was applied in Reuters, 20NG and Ohsumed collections - before and after applying this approach to generate features in these documents and the results showed statistically significant gains for the original collection.
id UFG-2_0d03abd4deb7a054b806038049cb1591
oai_identifier_str oai:repositorio.bc.ufg.br:tde/499
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling CARVALHO, Cedric Luiz dehttp://lattes.cnpq.br/4090131106212286ROSA, Thierson Coutohttp://lattes.cnpq.br/4414718560764818http://lattes.cnpq.br/9079302858133835SANTOS, Fernando Chagas2014-07-29T14:57:46Z2010-09-092010-10-10SANTOS, Fernando Chagas. kNN Method Variations and its applications in Text Classification. 2010. 96 f. Dissertação (Mestrado em Ciências Exatas e da Terra - Ciências da Computação) - Universidade Federal de Goiás, Goiânia, 2010.http://repositorio.bc.ufg.br/tede/handle/tde/499Most research on Automatic Text Categorization (ATC) seeks to improve the classifier performance (effective or efficient) responsible for automatically classifying a document d not yet rated. The k nearest neighbors (kNN) is simpler and it s one of automatic classification methods more effective as proposed. In this paper we proposed two kNN variations, Inverse kNN (kINN) and Symmetric kNN (kSNN) with the aim of improving the effectiveness of ACT. The kNN, kINN and kSNN methods were applied in Reuters, 20ng and Ohsumed collections and the results showed that kINN and kSNN methods were more effective than kNN method in Reuters and Ohsumed collections. kINN and kSNN methods were as effective as kNN method in 20NG collection. In addition, the performance achieved by kNN method is more stable than kINN and kSNN methods when the value k change. A parallel study was conducted to generate new features in documents from the similarity matrices resulting from the selection criteria for the best results obtained in kNN, kINN and kSNN methods. The SVM (considered a state of the art method) was applied in Reuters, 20NG and Ohsumed collections - before and after applying this approach to generate features in these documents and the results showed statistically significant gains for the original collection.Grande parte das pesquisas relacionadas com a classificação automática de textos (CAT) tem procurado melhorar o desempenho (eficácia ou eficiência) do classificador responsável por classificar automaticamente um documento d, ainda não classificado. O método dos k vizinhos mais próximos (kNN, do inglês k nearest neighbors) é um dos métodos de classificação automática mais simples e eficazes já propostos. Neste trabalho foram propostas duas variações do método kNN, o kNN invertido (kINN) e o kNN simétrico (kSNN) com o objetivo de melhorar a eficácia da CAT. Os métodos kNN, kINN e kSNN foram aplicados nas coleções Reuters, 20NG e Ohsumed e os resultados obtidos demonstraram que os métodos kINN e kSNN tiveram eficácia superior ao método kNN ao serem aplicados nas coleções Reuters e Ohsumed e eficácia equivalente ao método kNN ao serem aplicados na coleção 20NG. Além disso, nessas coleções foi possível verificar que o desempenho obtido pelo método kNN é mais estável a variação do valor k do que os desempenhos obtidos pelos métodos kINN e kSNN. Um estudo paralelo foi realizado para gerar novas características em documentos a partir das matrizes de similaridade resultantes dos critérios de seleção dos melhores resultados obtidos na avaliação dos métodos kNN, kINN e kSNN. O método SVM, considerado um método de classificação do estado da arte em relação à eficácia, foi aplicado nas coleções Reuters, 20NG e Ohsumed - antes e após aplicar a abordagem de geração de características nesses documentos e os resultados obtidos demonstraram ganhos estatisticamente significativos em relação à coleção original.Made available in DSpace on 2014-07-29T14:57:46Z (GMT). No. of bitstreams: 1 dissertacao-fernando.pdf: 677510 bytes, checksum: 19704f0b04ee313a63b053f7f9df409c (MD5) Previous issue date: 2010-10-10application/pdfhttp://repositorio.bc.ufg.br/TEDE/retrieve/2971/dissertacao-fernando.pdf.jpgporUniversidade Federal de GoiásMestrado em Ciência da ComputaçãoUFGBRCiências Exatas e da Terra - Ciências da ComputaçãoClassificação de TextosAprendizagem de MáquinaMétodo kNNCritérios de SeleçãoGeração de CaracterísticasGeração de Termos1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termosText ClassificationMachine LearningkNN MethodFeature SelectionFeature ConstructionCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOVariações do método kNN e suas aplicações na classificação automática de textoskNN Method Variations and its applications in Text Classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGORIGINALdissertacao-fernando.pdfapplication/pdf677510http://repositorio.bc.ufg.br/tede/bitstreams/be4e9663-3c31-4660-85eb-ce310db7baba/download19704f0b04ee313a63b053f7f9df409cMD51TEXTdissertacao-fernando.pdf.txtdissertacao-fernando.pdf.txtExtracted Texttext/plain199227http://repositorio.bc.ufg.br/tede/bitstreams/c531d483-7546-4dbd-8d94-703904edad20/download64647f45c3ec9462e129c36742888d43MD52THUMBNAILdissertacao-fernando.pdf.jpgdissertacao-fernando.pdf.jpgGenerated Thumbnailimage/jpeg3477http://repositorio.bc.ufg.br/tede/bitstreams/4619fc91-1bee-49f0-9e7f-a3639707cf4c/download24d46b5575a060c096f56fedf189632bMD53tde/4992014-07-30 03:01:40.421open.accessoai:repositorio.bc.ufg.br:tde/499http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2014-07-30T06:01:40Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)false
dc.title.por.fl_str_mv Variações do método kNN e suas aplicações na classificação automática de textos
dc.title.alternative.eng.fl_str_mv kNN Method Variations and its applications in Text Classification
title Variações do método kNN e suas aplicações na classificação automática de textos
spellingShingle Variações do método kNN e suas aplicações na classificação automática de textos
SANTOS, Fernando Chagas
Classificação de Textos
Aprendizagem de Máquina
Método kNN
Critérios de Seleção
Geração de Características
Geração de Termos
1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termos
Text Classification
Machine Learning
kNN Method
Feature Selection
Feature Construction
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Variações do método kNN e suas aplicações na classificação automática de textos
title_full Variações do método kNN e suas aplicações na classificação automática de textos
title_fullStr Variações do método kNN e suas aplicações na classificação automática de textos
title_full_unstemmed Variações do método kNN e suas aplicações na classificação automática de textos
title_sort Variações do método kNN e suas aplicações na classificação automática de textos
author SANTOS, Fernando Chagas
author_facet SANTOS, Fernando Chagas
author_role author
dc.contributor.advisor1.fl_str_mv CARVALHO, Cedric Luiz de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4090131106212286
dc.contributor.advisor-co1.fl_str_mv ROSA, Thierson Couto
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/4414718560764818
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9079302858133835
dc.contributor.author.fl_str_mv SANTOS, Fernando Chagas
contributor_str_mv CARVALHO, Cedric Luiz de
ROSA, Thierson Couto
dc.subject.por.fl_str_mv Classificação de Textos
Aprendizagem de Máquina
Método kNN
Critérios de Seleção
Geração de Características
Geração de Termos
1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termos
topic Classificação de Textos
Aprendizagem de Máquina
Método kNN
Critérios de Seleção
Geração de Características
Geração de Termos
1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termos
Text Classification
Machine Learning
kNN Method
Feature Selection
Feature Construction
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Text Classification
Machine Learning
kNN Method
Feature Selection
Feature Construction
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Most research on Automatic Text Categorization (ATC) seeks to improve the classifier performance (effective or efficient) responsible for automatically classifying a document d not yet rated. The k nearest neighbors (kNN) is simpler and it s one of automatic classification methods more effective as proposed. In this paper we proposed two kNN variations, Inverse kNN (kINN) and Symmetric kNN (kSNN) with the aim of improving the effectiveness of ACT. The kNN, kINN and kSNN methods were applied in Reuters, 20ng and Ohsumed collections and the results showed that kINN and kSNN methods were more effective than kNN method in Reuters and Ohsumed collections. kINN and kSNN methods were as effective as kNN method in 20NG collection. In addition, the performance achieved by kNN method is more stable than kINN and kSNN methods when the value k change. A parallel study was conducted to generate new features in documents from the similarity matrices resulting from the selection criteria for the best results obtained in kNN, kINN and kSNN methods. The SVM (considered a state of the art method) was applied in Reuters, 20NG and Ohsumed collections - before and after applying this approach to generate features in these documents and the results showed statistically significant gains for the original collection.
publishDate 2010
dc.date.available.fl_str_mv 2010-09-09
dc.date.issued.fl_str_mv 2010-10-10
dc.date.accessioned.fl_str_mv 2014-07-29T14:57:46Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Fernando Chagas. kNN Method Variations and its applications in Text Classification. 2010. 96 f. Dissertação (Mestrado em Ciências Exatas e da Terra - Ciências da Computação) - Universidade Federal de Goiás, Goiânia, 2010.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tde/499
identifier_str_mv SANTOS, Fernando Chagas. kNN Method Variations and its applications in Text Classification. 2010. 96 f. Dissertação (Mestrado em Ciências Exatas e da Terra - Ciências da Computação) - Universidade Federal de Goiás, Goiânia, 2010.
url http://repositorio.bc.ufg.br/tede/handle/tde/499
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Mestrado em Ciência da Computação
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Ciências Exatas e da Terra - Ciências da Computação
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/be4e9663-3c31-4660-85eb-ce310db7baba/download
http://repositorio.bc.ufg.br/tede/bitstreams/c531d483-7546-4dbd-8d94-703904edad20/download
http://repositorio.bc.ufg.br/tede/bitstreams/4619fc91-1bee-49f0-9e7f-a3639707cf4c/download
bitstream.checksum.fl_str_mv 19704f0b04ee313a63b053f7f9df409c
64647f45c3ec9462e129c36742888d43
24d46b5575a060c096f56fedf189632b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv tasesdissertacoes.bc@ufg.br
_version_ 1798044969574858752