Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Rubbo, Márcio lattes
Orientador(a): Silva, Leandro Augusto da lattes
Banca de defesa: Menezes, Mario Olímpio de lattes, Carvalho, André Carlos Ponce de Leon Ferreira de lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação: Engenharia Elétrica
Departamento: Escola de Engenharia Mackenzie (EE)
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://dspace.mackenzie.br/handle/10899/24499
Resumo: The k nearest neighbor (kNN) is a traditional supervised classifier used in data mining tasks. However, when used in real applications, mainly in a dataset with class imbalance or class overlap, kNN suffers with problems in the task of data classification. In this work, we propose three prototype selection methods using self-organizing maps (SOM) and information entropy to increase the effectiveness of the kNN classifier in datasets with these conditions. Artificial datasets that simulate different conditions of data overlap and data imbalance were created and used together with public datasets to test the methods. Data complexity measures were used to identify data overlap and spatial distribution in the bases used in the experiment and a comparison was made with the results of the methods. The methods, named SOMEntropyHighFilter, SOMEntropyLowFilter and SOMEntropyHighLowFIlter, were able to increase the effectiveness of the kNN classifier in the artificial and real datasets used in the experiment, increasing the accuracy performance from datasets with imbalance or overlap problems.
id UPM_5d810c2671c396dca4c2a523394c5a2c
oai_identifier_str oai:dspace.mackenzie.br:10899/24499
network_acronym_str UPM
network_name_str Biblioteca Digital de Teses e Dissertações do Mackenzie
repository_id_str
spelling 2020-03-13T20:32:11Z2020-05-28T18:08:57Z2020-05-28T18:08:57Z2019-08-09RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.http://dspace.mackenzie.br/handle/10899/24499The k nearest neighbor (kNN) is a traditional supervised classifier used in data mining tasks. However, when used in real applications, mainly in a dataset with class imbalance or class overlap, kNN suffers with problems in the task of data classification. In this work, we propose three prototype selection methods using self-organizing maps (SOM) and information entropy to increase the effectiveness of the kNN classifier in datasets with these conditions. Artificial datasets that simulate different conditions of data overlap and data imbalance were created and used together with public datasets to test the methods. Data complexity measures were used to identify data overlap and spatial distribution in the bases used in the experiment and a comparison was made with the results of the methods. The methods, named SOMEntropyHighFilter, SOMEntropyLowFilter and SOMEntropyHighLowFIlter, were able to increase the effectiveness of the kNN classifier in the artificial and real datasets used in the experiment, increasing the accuracy performance from datasets with imbalance or overlap problems.O k vizinhos mais próximos (kNN) é um classificador supervisionado tradicional usado em tarefas de mineração de dados. No entanto, quando usado em aplicações reais, principalmente em uma base de dados com desbalanceamento ou sobreposição de classes, o kNN sofre com problemas na tarefa de classificação dos dados. Neste trabalho, são propostos três métodos de seleção de protótipos usando mapas-auto-organizáveis (SOM) e entropia da informação para aumentar a efetividade do classificador kNN em base de dados nessas condições. Bases de dados artificiais, simulando diferentes condições de sobreposição de dados e desbalanceamento, foram criadas e utilizadas em conjunto com bases de dados públicas para teste dos métodos. Medidas de dados complexos foram usadas para identificar sobreposição de dados e separação das classes nas bases usadas nos experimentos e uma comparação foi realizada com os resultados obtidos. Os métodos, nomeados SOMEntropyHighFilter, SOMEntropyLowFilter e SOMEntropyHighLowFilter, foram capazes de aumentar a eficiência do classificador kNN nas bases de dados artificiais e reais usadas para testes, aumentando a performance em bases de dados desbalanceadas ou com problemas de sobreposição.application/pdfporUniversidade Presbiteriana MackenzieEngenharia ElétricaUPMBrasilEscola de Engenharia Mackenzie (EE)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessseleção de protótiposmapas auto-organizáveis de KohonenK vizinhos mais próximossobreposição de classesredução de dadosdesbalanceamentocomplexidade de dadosCNPQ::CIENCIAS EXATAS E DA TERRASeleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSilva, Leandro Augusto dahttp://lattes.cnpq.br/1396385111251741Menezes, Mario Olímpio dehttp://lattes.cnpq.br/4882949829423994Carvalho, André Carlos Ponce de Leon Ferreira dehttp://lattes.cnpq.br/9674541381385819http://lattes.cnpq.br/2992260687234549Rubbo, Márciohttp://tede.mackenzie.br/jspui/bitstream/tede/4158/5/MARCIO%20RUBBO.pdfPrototype selectionself-organizing maps of KohonenK closest neighborsdata class overlapdata reductiondata imbalancedata complexityreponame:Biblioteca Digital de Teses e Dissertações do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIE10899/244992020-05-28 15:08:57.609Biblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRI
dc.title.por.fl_str_mv Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
spellingShingle Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
Rubbo, Márcio
seleção de protótipos
mapas auto-organizáveis de Kohonen
K vizinhos mais próximos
sobreposição de classes
redução de dados
desbalanceamento
complexidade de dados
CNPQ::CIENCIAS EXATAS E DA TERRA
title_short Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_full Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_fullStr Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_full_unstemmed Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_sort Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
author Rubbo, Márcio
author_facet Rubbo, Márcio
author_role author
dc.contributor.advisor1.fl_str_mv Silva, Leandro Augusto da
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1396385111251741
dc.contributor.referee1.fl_str_mv Menezes, Mario Olímpio de
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/4882949829423994
dc.contributor.referee2.fl_str_mv Carvalho, André Carlos Ponce de Leon Ferreira de
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/9674541381385819
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2992260687234549
dc.contributor.author.fl_str_mv Rubbo, Márcio
contributor_str_mv Silva, Leandro Augusto da
Menezes, Mario Olímpio de
Carvalho, André Carlos Ponce de Leon Ferreira de
dc.subject.por.fl_str_mv seleção de protótipos
mapas auto-organizáveis de Kohonen
K vizinhos mais próximos
sobreposição de classes
redução de dados
desbalanceamento
complexidade de dados
topic seleção de protótipos
mapas auto-organizáveis de Kohonen
K vizinhos mais próximos
sobreposição de classes
redução de dados
desbalanceamento
complexidade de dados
CNPQ::CIENCIAS EXATAS E DA TERRA
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA
description The k nearest neighbor (kNN) is a traditional supervised classifier used in data mining tasks. However, when used in real applications, mainly in a dataset with class imbalance or class overlap, kNN suffers with problems in the task of data classification. In this work, we propose three prototype selection methods using self-organizing maps (SOM) and information entropy to increase the effectiveness of the kNN classifier in datasets with these conditions. Artificial datasets that simulate different conditions of data overlap and data imbalance were created and used together with public datasets to test the methods. Data complexity measures were used to identify data overlap and spatial distribution in the bases used in the experiment and a comparison was made with the results of the methods. The methods, named SOMEntropyHighFilter, SOMEntropyLowFilter and SOMEntropyHighLowFIlter, were able to increase the effectiveness of the kNN classifier in the artificial and real datasets used in the experiment, increasing the accuracy performance from datasets with imbalance or overlap problems.
publishDate 2019
dc.date.issued.fl_str_mv 2019-08-09
dc.date.accessioned.fl_str_mv 2020-03-13T20:32:11Z
2020-05-28T18:08:57Z
dc.date.available.fl_str_mv 2020-05-28T18:08:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.
dc.identifier.uri.fl_str_mv http://dspace.mackenzie.br/handle/10899/24499
identifier_str_mv RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.
url http://dspace.mackenzie.br/handle/10899/24499
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.publisher.program.fl_str_mv Engenharia Elétrica
dc.publisher.initials.fl_str_mv UPM
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola de Engenharia Mackenzie (EE)
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Biblioteca Digital de Teses e Dissertações do Mackenzie
collection Biblioteca Digital de Teses e Dissertações do Mackenzie
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1757174472549335040