Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Presbiteriana Mackenzie
|
Programa de Pós-Graduação: |
Engenharia Elétrica
|
Departamento: |
Escola de Engenharia Mackenzie (EE)
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://dspace.mackenzie.br/handle/10899/24499 |
Resumo: | The k nearest neighbor (kNN) is a traditional supervised classifier used in data mining tasks. However, when used in real applications, mainly in a dataset with class imbalance or class overlap, kNN suffers with problems in the task of data classification. In this work, we propose three prototype selection methods using self-organizing maps (SOM) and information entropy to increase the effectiveness of the kNN classifier in datasets with these conditions. Artificial datasets that simulate different conditions of data overlap and data imbalance were created and used together with public datasets to test the methods. Data complexity measures were used to identify data overlap and spatial distribution in the bases used in the experiment and a comparison was made with the results of the methods. The methods, named SOMEntropyHighFilter, SOMEntropyLowFilter and SOMEntropyHighLowFIlter, were able to increase the effectiveness of the kNN classifier in the artificial and real datasets used in the experiment, increasing the accuracy performance from datasets with imbalance or overlap problems. |
id |
UPM_5d810c2671c396dca4c2a523394c5a2c |
---|---|
oai_identifier_str |
oai:dspace.mackenzie.br:10899/24499 |
network_acronym_str |
UPM |
network_name_str |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
repository_id_str |
|
spelling |
2020-03-13T20:32:11Z2020-05-28T18:08:57Z2020-05-28T18:08:57Z2019-08-09RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.http://dspace.mackenzie.br/handle/10899/24499The k nearest neighbor (kNN) is a traditional supervised classifier used in data mining tasks. However, when used in real applications, mainly in a dataset with class imbalance or class overlap, kNN suffers with problems in the task of data classification. In this work, we propose three prototype selection methods using self-organizing maps (SOM) and information entropy to increase the effectiveness of the kNN classifier in datasets with these conditions. Artificial datasets that simulate different conditions of data overlap and data imbalance were created and used together with public datasets to test the methods. Data complexity measures were used to identify data overlap and spatial distribution in the bases used in the experiment and a comparison was made with the results of the methods. The methods, named SOMEntropyHighFilter, SOMEntropyLowFilter and SOMEntropyHighLowFIlter, were able to increase the effectiveness of the kNN classifier in the artificial and real datasets used in the experiment, increasing the accuracy performance from datasets with imbalance or overlap problems.O k vizinhos mais próximos (kNN) é um classificador supervisionado tradicional usado em tarefas de mineração de dados. No entanto, quando usado em aplicações reais, principalmente em uma base de dados com desbalanceamento ou sobreposição de classes, o kNN sofre com problemas na tarefa de classificação dos dados. Neste trabalho, são propostos três métodos de seleção de protótipos usando mapas-auto-organizáveis (SOM) e entropia da informação para aumentar a efetividade do classificador kNN em base de dados nessas condições. Bases de dados artificiais, simulando diferentes condições de sobreposição de dados e desbalanceamento, foram criadas e utilizadas em conjunto com bases de dados públicas para teste dos métodos. Medidas de dados complexos foram usadas para identificar sobreposição de dados e separação das classes nas bases usadas nos experimentos e uma comparação foi realizada com os resultados obtidos. Os métodos, nomeados SOMEntropyHighFilter, SOMEntropyLowFilter e SOMEntropyHighLowFilter, foram capazes de aumentar a eficiência do classificador kNN nas bases de dados artificiais e reais usadas para testes, aumentando a performance em bases de dados desbalanceadas ou com problemas de sobreposição.application/pdfporUniversidade Presbiteriana MackenzieEngenharia ElétricaUPMBrasilEscola de Engenharia Mackenzie (EE)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessseleção de protótiposmapas auto-organizáveis de KohonenK vizinhos mais próximossobreposição de classesredução de dadosdesbalanceamentocomplexidade de dadosCNPQ::CIENCIAS EXATAS E DA TERRASeleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSilva, Leandro Augusto dahttp://lattes.cnpq.br/1396385111251741Menezes, Mario Olímpio dehttp://lattes.cnpq.br/4882949829423994Carvalho, André Carlos Ponce de Leon Ferreira dehttp://lattes.cnpq.br/9674541381385819http://lattes.cnpq.br/2992260687234549Rubbo, Márciohttp://tede.mackenzie.br/jspui/bitstream/tede/4158/5/MARCIO%20RUBBO.pdfPrototype selectionself-organizing maps of KohonenK closest neighborsdata class overlapdata reductiondata imbalancedata complexityreponame:Biblioteca Digital de Teses e Dissertações do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIE10899/244992020-05-28 15:08:57.609Biblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRI |
dc.title.por.fl_str_mv |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados |
title |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados |
spellingShingle |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados Rubbo, Márcio seleção de protótipos mapas auto-organizáveis de Kohonen K vizinhos mais próximos sobreposição de classes redução de dados desbalanceamento complexidade de dados CNPQ::CIENCIAS EXATAS E DA TERRA |
title_short |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados |
title_full |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados |
title_fullStr |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados |
title_full_unstemmed |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados |
title_sort |
Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados |
author |
Rubbo, Márcio |
author_facet |
Rubbo, Márcio |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Silva, Leandro Augusto da |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1396385111251741 |
dc.contributor.referee1.fl_str_mv |
Menezes, Mario Olímpio de |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/4882949829423994 |
dc.contributor.referee2.fl_str_mv |
Carvalho, André Carlos Ponce de Leon Ferreira de |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/9674541381385819 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/2992260687234549 |
dc.contributor.author.fl_str_mv |
Rubbo, Márcio |
contributor_str_mv |
Silva, Leandro Augusto da Menezes, Mario Olímpio de Carvalho, André Carlos Ponce de Leon Ferreira de |
dc.subject.por.fl_str_mv |
seleção de protótipos mapas auto-organizáveis de Kohonen K vizinhos mais próximos sobreposição de classes redução de dados desbalanceamento complexidade de dados |
topic |
seleção de protótipos mapas auto-organizáveis de Kohonen K vizinhos mais próximos sobreposição de classes redução de dados desbalanceamento complexidade de dados CNPQ::CIENCIAS EXATAS E DA TERRA |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA |
description |
The k nearest neighbor (kNN) is a traditional supervised classifier used in data mining tasks. However, when used in real applications, mainly in a dataset with class imbalance or class overlap, kNN suffers with problems in the task of data classification. In this work, we propose three prototype selection methods using self-organizing maps (SOM) and information entropy to increase the effectiveness of the kNN classifier in datasets with these conditions. Artificial datasets that simulate different conditions of data overlap and data imbalance were created and used together with public datasets to test the methods. Data complexity measures were used to identify data overlap and spatial distribution in the bases used in the experiment and a comparison was made with the results of the methods. The methods, named SOMEntropyHighFilter, SOMEntropyLowFilter and SOMEntropyHighLowFIlter, were able to increase the effectiveness of the kNN classifier in the artificial and real datasets used in the experiment, increasing the accuracy performance from datasets with imbalance or overlap problems. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-08-09 |
dc.date.accessioned.fl_str_mv |
2020-03-13T20:32:11Z 2020-05-28T18:08:57Z |
dc.date.available.fl_str_mv |
2020-05-28T18:08:57Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019. |
dc.identifier.uri.fl_str_mv |
http://dspace.mackenzie.br/handle/10899/24499 |
identifier_str_mv |
RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019. |
url |
http://dspace.mackenzie.br/handle/10899/24499 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
dc.publisher.program.fl_str_mv |
Engenharia Elétrica |
dc.publisher.initials.fl_str_mv |
UPM |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola de Engenharia Mackenzie (EE) |
publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE |
instname_str |
Universidade Presbiteriana Mackenzie (MACKENZIE) |
instacron_str |
MACKENZIE |
institution |
MACKENZIE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
collection |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
repository.name.fl_str_mv |
|
repository.mail.fl_str_mv |
|
_version_ |
1757174472549335040 |