Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Moreira, Lenadro Juvêncio lattes
Orientador(a): Silva, Leandro Augusto da lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://dspace.mackenzie.br/handle/10899/24442
Resumo: The data classification is a data mining task with relevant utilization in various areas of application, such as medicine, industry, marketing, financial market, teaching and many others. Although this task is an element search for many autors, there are open issues such as, e.g., in situations where there is so much data, noise data and unbalanced classes. In this way, this work will present a data classifier proposal that combines the SOM (Self-Organizing Map) neural network with INN (Informative Nearest Neighbors). The combination of these two algorithms will be called in this work as SOM-INN. Therefore, the SOM-INN process to classify a new object will be done in a first step with the SOM that has a functionality to map a reduced dataset through an approach that utilizes the prototype generation concept, also called the winning neuron and, in a second step, with the INN algorithm that is used to classify the new object through an approach that finds in the reduced dataset by SOM the most informative object. Were made experiments using 21 public datasets comparing classic data classification algorithms of the literature, from the indicators of reduction training set, accuracy, kappa and time consumed in the classification process. The results obtained show that the proposed SOM-INN algorithm, when compared with the others classifiers of the literature, presents better accuracy in databases where the border region is not well defined. The main differential of the SOM-INN is in the classification time, which is extremely important for real applications. Keywords: data classification; prototype generation; K nearest neighbors; self-organizing
id UPM_0af7ba82c4b4c69fc76b5fc90dfd8001
oai_identifier_str oai:dspace.mackenzie.br:10899/24442
network_acronym_str UPM
network_name_str Repositório Digital do Mackenzie
repository_id_str
spelling http://lattes.cnpq.br/1396385111251741Moreira, Lenadro JuvêncioSilva, Leandro Augusto dahttp://lattes.cnpq.br/39277038156761782017-03-22T15:01:23Z2020-05-28T18:08:49Z2020-05-28T18:08:49Z2016-12-14The data classification is a data mining task with relevant utilization in various areas of application, such as medicine, industry, marketing, financial market, teaching and many others. Although this task is an element search for many autors, there are open issues such as, e.g., in situations where there is so much data, noise data and unbalanced classes. In this way, this work will present a data classifier proposal that combines the SOM (Self-Organizing Map) neural network with INN (Informative Nearest Neighbors). The combination of these two algorithms will be called in this work as SOM-INN. Therefore, the SOM-INN process to classify a new object will be done in a first step with the SOM that has a functionality to map a reduced dataset through an approach that utilizes the prototype generation concept, also called the winning neuron and, in a second step, with the INN algorithm that is used to classify the new object through an approach that finds in the reduced dataset by SOM the most informative object. Were made experiments using 21 public datasets comparing classic data classification algorithms of the literature, from the indicators of reduction training set, accuracy, kappa and time consumed in the classification process. The results obtained show that the proposed SOM-INN algorithm, when compared with the others classifiers of the literature, presents better accuracy in databases where the border region is not well defined. The main differential of the SOM-INN is in the classification time, which is extremely important for real applications. Keywords: data classification; prototype generation; K nearest neighbors; self-organizingA classificação de dados é uma tarefa da mineração de dados com utilização relevante em diversas áreas de aplicação, tais como, medicina, indústria, marketing, mercado financeiro, ensino e muitas outras. Embora essa tarefa seja elemento de pesquisa de muitos autores, ainda há problemas em aberto como, por exemplo, em situações onde há abundância de dados, dados ruidosos e desbalanceamento de classes. Nesse sentido, este trabalho apresenta uma proposta de classificador de dados em um processo de duas etapas que combina a rede neural SOM (Self-Organizing Maps) com o classificador vizinhos informativos mais próximos ou INN (Informative Nearest Neighbors). A combinação desses dois algoritmos será aqui chamada como SOM-INN. Portanto, o processo de uso do SOM-INN na classificação de um novo objeto será feito em uma primeira etapa com o SOM que tem a funcionalidade de mapear um conjunto reduzido dos dados de treinamento por meio de uma abordagem que utiliza o conceito de geração de protótipo, também denominado de neurônio vencedor e, em uma segunda etapa, com o algoritmo INN que é usado para classificar o novo objeto por meio de uma abordagem que encontra no conjunto de treinamento reduzido pelo SOM os objetos mais informativos. Foram realizados experimentos usando 21 conjuntos de dados públicos, comparando com os algoritmos clássicos da literatura de classificação de dados, a partir dos indicadores de redução do conjunto de treinamento, acurácia, kappa e tempo consumido no processo de classificação. Os resultados obtidos mostram que o algoritmo proposto SOM-INN, quando comparado com outros classificadores da literatura, apresenta acurácia melhor em bases de dados em que a região de fronteira não é bem definida. O principal diferencial do SOM-INN está no tempo de classificação, o que é de suma importância para aplicações reais.application/pdfMOREIRA, Leandro Juvêncio. Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo. 2016. 54 f. Dissertação ( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo .http://dspace.mackenzie.br/handle/10899/24442data classificationprototype generationk nearest neighbors (algorithm)self-organizing mapsinformative nearest neighbors (algorithm)porUniversidade Presbiteriana Mackenziehttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessclassificação de dadosgeração de protótiposk vizinhos mais próximos (algoritmo)mapas auto-organizáveisvizinho informativo mais próximo (algoritmo)CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOEShttp://tede.mackenzie.br/jspui/retrieve/13441/LEANDRO%20JUVENCIO%20MOREIRA.pdf.jpgClassificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIESilva, Leandro Nunes de Castrohttp://lattes.cnpq.br/2741458816539568Pasti, Rodrigohttp://lattes.cnpq.br/9305519410031191BrasilEscola de Engenharia Mackenzie (EE)UPMEngenharia ElétricaORIGINALLEANDRO JUVENCIO MOREIRA.pdfLEANDRO JUVENCIO MOREIRA.pdfapplication/pdf1183636https://dspace.mackenzie.br/bitstreams/2f62d8be-80c4-417d-838f-d144d6d874fe/download1a92c634115c66a7cd81e590b5e7b3c9MD51TEXTLEANDRO JUVENCIO MOREIRA.pdf.txtLEANDRO JUVENCIO MOREIRA.pdf.txtExtracted texttext/plain88623https://dspace.mackenzie.br/bitstreams/903faaec-0d70-4865-9897-830497836d66/downloada375fac42b0700b543ef0cf2b274804bMD52THUMBNAILLEANDRO JUVENCIO MOREIRA.pdf.jpgLEANDRO JUVENCIO MOREIRA.pdf.jpgGenerated Thumbnailimage/jpeg1193https://dspace.mackenzie.br/bitstreams/416bed76-d7ff-4256-b5f1-1e0c8522a943/download7dd054d3d186325ad2ff263be0a7baf0MD5310899/244422022-03-14 17:06:24.701http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertooai:dspace.mackenzie.br:10899/24442https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772022-03-14T17:06:24Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)false
dc.title.por.fl_str_mv Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
title Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
spellingShingle Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
Moreira, Lenadro Juvêncio
classificação de dados
geração de protótipos
k vizinhos mais próximos (algoritmo)
mapas auto-organizáveis
vizinho informativo mais próximo (algoritmo)
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES
title_short Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
title_full Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
title_fullStr Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
title_full_unstemmed Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
title_sort Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo
author Moreira, Lenadro Juvêncio
author_facet Moreira, Lenadro Juvêncio
author_role author
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1396385111251741
dc.contributor.author.fl_str_mv Moreira, Lenadro Juvêncio
dc.contributor.advisor1.fl_str_mv Silva, Leandro Augusto da
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3927703815676178
contributor_str_mv Silva, Leandro Augusto da
dc.subject.por.fl_str_mv classificação de dados
geração de protótipos
k vizinhos mais próximos (algoritmo)
mapas auto-organizáveis
vizinho informativo mais próximo (algoritmo)
topic classificação de dados
geração de protótipos
k vizinhos mais próximos (algoritmo)
mapas auto-organizáveis
vizinho informativo mais próximo (algoritmo)
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES
description The data classification is a data mining task with relevant utilization in various areas of application, such as medicine, industry, marketing, financial market, teaching and many others. Although this task is an element search for many autors, there are open issues such as, e.g., in situations where there is so much data, noise data and unbalanced classes. In this way, this work will present a data classifier proposal that combines the SOM (Self-Organizing Map) neural network with INN (Informative Nearest Neighbors). The combination of these two algorithms will be called in this work as SOM-INN. Therefore, the SOM-INN process to classify a new object will be done in a first step with the SOM that has a functionality to map a reduced dataset through an approach that utilizes the prototype generation concept, also called the winning neuron and, in a second step, with the INN algorithm that is used to classify the new object through an approach that finds in the reduced dataset by SOM the most informative object. Were made experiments using 21 public datasets comparing classic data classification algorithms of the literature, from the indicators of reduction training set, accuracy, kappa and time consumed in the classification process. The results obtained show that the proposed SOM-INN algorithm, when compared with the others classifiers of the literature, presents better accuracy in databases where the border region is not well defined. The main differential of the SOM-INN is in the classification time, which is extremely important for real applications. Keywords: data classification; prototype generation; K nearest neighbors; self-organizing
publishDate 2016
dc.date.issued.fl_str_mv 2016-12-14
dc.date.accessioned.fl_str_mv 2017-03-22T15:01:23Z
2020-05-28T18:08:49Z
dc.date.available.fl_str_mv 2020-05-28T18:08:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MOREIRA, Leandro Juvêncio. Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo. 2016. 54 f. Dissertação ( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo .
dc.identifier.uri.fl_str_mv http://dspace.mackenzie.br/handle/10899/24442
identifier_str_mv MOREIRA, Leandro Juvêncio. Classificação de dados combinando mapas auto-organizáveis com vizinho informativo mais próximo. 2016. 54 f. Dissertação ( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo .
url http://dspace.mackenzie.br/handle/10899/24442
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Repositório Digital do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Repositório Digital do Mackenzie
collection Repositório Digital do Mackenzie
bitstream.url.fl_str_mv https://dspace.mackenzie.br/bitstreams/2f62d8be-80c4-417d-838f-d144d6d874fe/download
https://dspace.mackenzie.br/bitstreams/903faaec-0d70-4865-9897-830497836d66/download
https://dspace.mackenzie.br/bitstreams/416bed76-d7ff-4256-b5f1-1e0c8522a943/download
bitstream.checksum.fl_str_mv 1a92c634115c66a7cd81e590b5e7b3c9
a375fac42b0700b543ef0cf2b274804b
7dd054d3d186325ad2ff263be0a7baf0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv repositorio@mackenzie.br||paola.damato@mackenzie.br
_version_ 1851946031153938432