Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Rubbo, Márcio lattes
Orientador(a): Silva, Leandro Augusto da lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://dspace.mackenzie.br/handle/10899/24499
Resumo: O k vizinhos mais próximos (kNN) é um classificador supervisionado tradicional usado em tarefas de mineração de dados. No entanto, quando usado em aplicações reais, principalmente em uma base de dados com desbalanceamento ou sobreposição de classes, o kNN sofre com problemas na tarefa de classificação dos dados. Neste trabalho, são propostos três métodos de seleção de protótipos usando mapas-auto-organizáveis (SOM) e entropia da informação para aumentar a efetividade do classificador kNN em base de dados nessas condições. Bases de dados artificiais, simulando diferentes condições de sobreposição de dados e desbalanceamento, foram criadas e utilizadas em conjunto com bases de dados públicas para teste dos métodos. Medidas de dados complexos foram usadas para identificar sobreposição de dados e separação das classes nas bases usadas nos experimentos e uma comparação foi realizada com os resultados obtidos. Os métodos, nomeados SOMEntropyHighFilter, SOMEntropyLowFilter e SOMEntropyHighLowFilter, foram capazes de aumentar a eficiência do classificador kNN nas bases de dados artificiais e reais usadas para testes, aumentando a performance em bases de dados desbalanceadas ou com problemas de sobreposição.
id UPM_5d810c2671c396dca4c2a523394c5a2c
oai_identifier_str oai:dspace.mackenzie.br:10899/24499
network_acronym_str UPM
network_name_str Repositório Digital do Mackenzie
repository_id_str
spelling http://lattes.cnpq.br/1396385111251741Rubbo, MárcioSilva, Leandro Augusto dahttp://lattes.cnpq.br/29922606872345492020-03-13T20:32:11Z2020-05-28T18:08:57Z2020-05-28T18:08:57Z2019-08-09O k vizinhos mais próximos (kNN) é um classificador supervisionado tradicional usado em tarefas de mineração de dados. No entanto, quando usado em aplicações reais, principalmente em uma base de dados com desbalanceamento ou sobreposição de classes, o kNN sofre com problemas na tarefa de classificação dos dados. Neste trabalho, são propostos três métodos de seleção de protótipos usando mapas-auto-organizáveis (SOM) e entropia da informação para aumentar a efetividade do classificador kNN em base de dados nessas condições. Bases de dados artificiais, simulando diferentes condições de sobreposição de dados e desbalanceamento, foram criadas e utilizadas em conjunto com bases de dados públicas para teste dos métodos. Medidas de dados complexos foram usadas para identificar sobreposição de dados e separação das classes nas bases usadas nos experimentos e uma comparação foi realizada com os resultados obtidos. Os métodos, nomeados SOMEntropyHighFilter, SOMEntropyLowFilter e SOMEntropyHighLowFilter, foram capazes de aumentar a eficiência do classificador kNN nas bases de dados artificiais e reais usadas para testes, aumentando a performance em bases de dados desbalanceadas ou com problemas de sobreposição.The k nearest neighbor (kNN) is a traditional supervised classifier used in data mining tasks. However, when used in real applications, mainly in a dataset with class imbalance or class overlap, kNN suffers with problems in the task of data classification. In this work, we propose three prototype selection methods using self-organizing maps (SOM) and information entropy to increase the effectiveness of the kNN classifier in datasets with these conditions. Artificial datasets that simulate different conditions of data overlap and data imbalance were created and used together with public datasets to test the methods. Data complexity measures were used to identify data overlap and spatial distribution in the bases used in the experiment and a comparison was made with the results of the methods. The methods, named SOMEntropyHighFilter, SOMEntropyLowFilter and SOMEntropyHighLowFIlter, were able to increase the effectiveness of the kNN classifier in the artificial and real datasets used in the experiment, increasing the accuracy performance from datasets with imbalance or overlap problems.application/pdfRUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.http://dspace.mackenzie.br/handle/10899/24499Prototype selectionself-organizing maps of KohonenK closest neighborsdata class overlapdata reductiondata imbalancedata complexityporUniversidade Presbiteriana Mackenziehttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessseleção de protótiposmapas auto-organizáveis de KohonenK vizinhos mais próximossobreposição de classesredução de dadosdesbalanceamentocomplexidade de dadosCNPQ::CIENCIAS EXATAS E DA TERRASeleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEMenezes, Mario Olímpio dehttp://lattes.cnpq.br/4882949829423994Carvalho, André Carlos Ponce de Leon Ferreira dehttp://lattes.cnpq.br/9674541381385819BrasilEscola de Engenharia Mackenzie (EE)UPMEngenharia ElétricaORIGINALMARCIO RUBBO.pdfMARCIO RUBBO.pdfapplication/pdf2144248https://dspace.mackenzie.br/bitstreams/131368bc-0a6d-43d4-9f98-93c4fc918787/downloadd6f332f52e9b00df1bb538f76fe50a5aMD51TEXTMARCIO RUBBO.pdf.txtMARCIO RUBBO.pdf.txtExtracted texttext/plain147557https://dspace.mackenzie.br/bitstreams/97315e4a-724f-4a81-a3ca-bba82822c0f3/downloade3bcf04db6ae4b68f8b106b240c668ceMD52THUMBNAILMARCIO RUBBO.pdf.jpgMARCIO RUBBO.pdf.jpgGenerated Thumbnailimage/jpeg1191https://dspace.mackenzie.br/bitstreams/b78267a4-0ae8-46c2-819b-5662c35b938b/download8f1345e6a6e073390ca9ebcb03abda06MD5310899/244992022-03-14 17:10:04.835http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertooai:dspace.mackenzie.br:10899/24499https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772022-03-14T17:10:04Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)false
dc.title.por.fl_str_mv Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
spellingShingle Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
Rubbo, Márcio
seleção de protótipos
mapas auto-organizáveis de Kohonen
K vizinhos mais próximos
sobreposição de classes
redução de dados
desbalanceamento
complexidade de dados
CNPQ::CIENCIAS EXATAS E DA TERRA
title_short Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_full Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_fullStr Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_full_unstemmed Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
title_sort Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados
author Rubbo, Márcio
author_facet Rubbo, Márcio
author_role author
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1396385111251741
dc.contributor.author.fl_str_mv Rubbo, Márcio
dc.contributor.advisor1.fl_str_mv Silva, Leandro Augusto da
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2992260687234549
contributor_str_mv Silva, Leandro Augusto da
dc.subject.por.fl_str_mv seleção de protótipos
mapas auto-organizáveis de Kohonen
K vizinhos mais próximos
sobreposição de classes
redução de dados
desbalanceamento
complexidade de dados
topic seleção de protótipos
mapas auto-organizáveis de Kohonen
K vizinhos mais próximos
sobreposição de classes
redução de dados
desbalanceamento
complexidade de dados
CNPQ::CIENCIAS EXATAS E DA TERRA
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA
description O k vizinhos mais próximos (kNN) é um classificador supervisionado tradicional usado em tarefas de mineração de dados. No entanto, quando usado em aplicações reais, principalmente em uma base de dados com desbalanceamento ou sobreposição de classes, o kNN sofre com problemas na tarefa de classificação dos dados. Neste trabalho, são propostos três métodos de seleção de protótipos usando mapas-auto-organizáveis (SOM) e entropia da informação para aumentar a efetividade do classificador kNN em base de dados nessas condições. Bases de dados artificiais, simulando diferentes condições de sobreposição de dados e desbalanceamento, foram criadas e utilizadas em conjunto com bases de dados públicas para teste dos métodos. Medidas de dados complexos foram usadas para identificar sobreposição de dados e separação das classes nas bases usadas nos experimentos e uma comparação foi realizada com os resultados obtidos. Os métodos, nomeados SOMEntropyHighFilter, SOMEntropyLowFilter e SOMEntropyHighLowFilter, foram capazes de aumentar a eficiência do classificador kNN nas bases de dados artificiais e reais usadas para testes, aumentando a performance em bases de dados desbalanceadas ou com problemas de sobreposição.
publishDate 2019
dc.date.issued.fl_str_mv 2019-08-09
dc.date.accessioned.fl_str_mv 2020-03-13T20:32:11Z
2020-05-28T18:08:57Z
dc.date.available.fl_str_mv 2020-05-28T18:08:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.
dc.identifier.uri.fl_str_mv http://dspace.mackenzie.br/handle/10899/24499
identifier_str_mv RUBBO, Márcio. Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados. 2019. 85 f. Dissertação ( Engenharia Elétrica ) - Universidade Presbiteriana Mackenzie, São Paulo, 2019.
url http://dspace.mackenzie.br/handle/10899/24499
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Repositório Digital do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Repositório Digital do Mackenzie
collection Repositório Digital do Mackenzie
bitstream.url.fl_str_mv https://dspace.mackenzie.br/bitstreams/131368bc-0a6d-43d4-9f98-93c4fc918787/download
https://dspace.mackenzie.br/bitstreams/97315e4a-724f-4a81-a3ca-bba82822c0f3/download
https://dspace.mackenzie.br/bitstreams/b78267a4-0ae8-46c2-819b-5662c35b938b/download
bitstream.checksum.fl_str_mv d6f332f52e9b00df1bb538f76fe50a5a
e3bcf04db6ae4b68f8b106b240c668ce
8f1345e6a6e073390ca9ebcb03abda06
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv repositorio@mackenzie.br||paola.damato@mackenzie.br
_version_ 1851946066791890944