Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Manasrarla, Alberto lattes
Orientador(a): Silva, Leandro Augusto da lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://dspace.mackenzie.br/handle/10899/26584
Resumo: Atualmente,dados gerados em grande volume,diferentes contextos de aplicação e formato têm impactado significativamente nos diferentes algoritmos de aprendizagem de máquina, em especial os de modelagem preditiva. Sistemas que envolvem dados com essas características não pode marcar com os requisitos de tempo,armazenamento e processamento em tempo real. Sob essas condições, classificar, compreender ou compactar os dados disponíveis podem se tornar uma tarefa custosa. O problema se agrava especialmente no uso de algoritmos de aprendizado baseados em distâncias, como a regra do vizinho mais próximo ou NN (do inglês, NearestNeighbor). O algoritmo básico do NN em uma tarefa de classificação de dados consiste em medir a distância entre uma instância em análise e todas as instâncias de dados disponíveis. Significa dizer que as instâncias do conjunto de dados devem sempre permanecer armazenadas para análises futuras, mesmo aquelas que podem conter ruídos ou não ser representativas para uma análise. Diante disso, a seleção de protótipos se apresenta como uma proposta para a redução de dados e, consequentemente, minimizar os problemas de complexidade computacional, armazenamento e ruídos em conjuntos de dados. A seleção de protótipos visa encontrar um conjunto de dados representativo com uma dimensão menor em comparação ao original, eventualmente pode ser usada para a geração de dados em situações de classes desbalanceadas. Entretanto,a maioria desses métodos,por não ter um controle de geração de protótipos,executa um processo exaustivo para encontrar o conjunto de dados reduzido. A falta de controle na geração de protótipos pode produzir um tamanho não ideal do conjunto de dados reduzido. Diante desse contexto, este trabalho tem como proposta a apresentação de um método de autogeração de protótipos,no qual faz uso de ideias provenientes da teoria da informação,especificamente o conceito de entropia da informação,para determinar o número ideal de protótipos. Na tarefa de classificação de dados com o algoritmo kNN (do inglês, k-Nearest Neighbors), o método proposto possibilita acelerar o tempo de classificação sem diminuir significativamente a qualidade da classificação. Em um estudo comparativo com outra técnica de autogeração de protótipos da literatura, SSGA (do inglês, Steady-StateGeneticAlgorithm), sob análises quantitativas e qualitativas, com diferentes conjuntos de dados (públicos e artificiais), os resultados para o método proposto são superiores,em média,85,71% para o tempo de classificação, com uma taxa média de redução de dados em 77%, e um aumento da eficiência da precisão em 3% do classificador kNN.
id UPM_e271f8dbbccd92c9737ed170fd4b9f5c
oai_identifier_str oai:dspace.mackenzie.br:10899/26584
network_acronym_str UPM
network_name_str Repositório Digital do Mackenzie
repository_id_str
spelling http://lattes.cnpq.br/1396385111251741Manasrarla, AlbertoSilva, Leandro Augusto dahttp://lattes.cnpq.br/48231021882722842020-09-18T15:14:47Z2020-12-07T15:08:44Z2020-12-07T15:08:44Z2020-02-11Atualmente,dados gerados em grande volume,diferentes contextos de aplicação e formato têm impactado significativamente nos diferentes algoritmos de aprendizagem de máquina, em especial os de modelagem preditiva. Sistemas que envolvem dados com essas características não pode marcar com os requisitos de tempo,armazenamento e processamento em tempo real. Sob essas condições, classificar, compreender ou compactar os dados disponíveis podem se tornar uma tarefa custosa. O problema se agrava especialmente no uso de algoritmos de aprendizado baseados em distâncias, como a regra do vizinho mais próximo ou NN (do inglês, NearestNeighbor). O algoritmo básico do NN em uma tarefa de classificação de dados consiste em medir a distância entre uma instância em análise e todas as instâncias de dados disponíveis. Significa dizer que as instâncias do conjunto de dados devem sempre permanecer armazenadas para análises futuras, mesmo aquelas que podem conter ruídos ou não ser representativas para uma análise. Diante disso, a seleção de protótipos se apresenta como uma proposta para a redução de dados e, consequentemente, minimizar os problemas de complexidade computacional, armazenamento e ruídos em conjuntos de dados. A seleção de protótipos visa encontrar um conjunto de dados representativo com uma dimensão menor em comparação ao original, eventualmente pode ser usada para a geração de dados em situações de classes desbalanceadas. Entretanto,a maioria desses métodos,por não ter um controle de geração de protótipos,executa um processo exaustivo para encontrar o conjunto de dados reduzido. A falta de controle na geração de protótipos pode produzir um tamanho não ideal do conjunto de dados reduzido. Diante desse contexto, este trabalho tem como proposta a apresentação de um método de autogeração de protótipos,no qual faz uso de ideias provenientes da teoria da informação,especificamente o conceito de entropia da informação,para determinar o número ideal de protótipos. Na tarefa de classificação de dados com o algoritmo kNN (do inglês, k-Nearest Neighbors), o método proposto possibilita acelerar o tempo de classificação sem diminuir significativamente a qualidade da classificação. Em um estudo comparativo com outra técnica de autogeração de protótipos da literatura, SSGA (do inglês, Steady-StateGeneticAlgorithm), sob análises quantitativas e qualitativas, com diferentes conjuntos de dados (públicos e artificiais), os resultados para o método proposto são superiores,em média,85,71% para o tempo de classificação, com uma taxa média de redução de dados em 77%, e um aumento da eficiência da precisão em 3% do classificador kNN.Currently, data generated in large volume, different contexts of application and format have significantly impacted on different types of machine learning algorithms, especially those of predictive modeling. Systems that involve data with these characteristics cannot afford the requirements of time, storage, and real-time processing. Under these conditions, classifying, understanding, or compacting the available data can become an expensive task. The problem is particularly acute when using distance-based learning algorithms , such as the Nearest-Neighbor or NN rule. The basic NN algorithm in a data classification task is to measure the distance between an instance under analysis, and all available instances which denominates the training set. It means that instances in the training set should always remain stored for future analysis, even those that may contain noise or may not be representative for analysis. Given this circumstance, the prototype selection is presented as a proposal for data reduction and consequently minimizes the problems of computational complexity, storage requirements, and noisy data in datasets. The prototype selection aims to find a representative dataset with a smaller dimension compared to the original one and can eventually use data generation in situations of unbalanced classes. However, most of these methods can perform anexhaustive process to find the reduced dataset because they do not have precise control over the prototype generation process. Then,a lack of control in the prototype generation process can lead to producing a reduced non-optimal dataset size. In the context of this, the present work proposes a new method for self-generating prototypes, in which it makes use of ideas from information theory, precisely the concept of information entropy, to determine the optimal number of prototypes to form the reduced dataset. In the data classification task with the k-Nearest Neighbors or kNN algorithm, the proposed method makes it possible to accelerate the time of classification without significantly reducing the quality of classification. In a comparative study with another self-generating prototype technique of the literature,SSGA (Steady-State Genetic Algorithm) for prototype selection, under quantitative and qualitative analysis by using different datasets (public and artificial),the results for the proposed method are higher on average 85.71 percent for the classification time with an average rate of data reduction of 77 percent, and an increase in accuracy efficiency of 3 percent for the kNN classifier.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorFundo Mackenzie de Pesquisaapplication/pdfMANASTARLA, Alberto. Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação. 2020. 84 f. Dissertação (Engenharia Elétrica e Computação) - Universidade Presbiteriana Mackenzie, São Paulo, 2020.http://dspace.mackenzie.br/handle/10899/26584prototype selectiondata reductionclassificationinformation entropyporUniversidade Presbiteriana Mackenziehttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessseleção de protótiposredução de dadosclassificação de dadosentropia de informaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSMétodo de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEVallim Filho, Arnaldo Rabello de Aguiarhttp://lattes.cnpq.br/2511892257148568Lorena, Ana Carolinahttp://lattes.cnpq.br/3451628262694747BrasilEscola de Engenharia Mackenzie (EE)UPMEngenharia ElétricaORIGINALALBERTO MANASTARLA.pdfALBERTO MANASTARLA.pdfapplication/pdf6064344https://dspace.mackenzie.br/bitstreams/db42f058-a9c6-4c5b-b23b-260dc2decdc9/downloadb6e42f9d13f669f4e26a659af6eef56aMD51TEXTALBERTO MANASTARLA.pdf.txtALBERTO MANASTARLA.pdf.txtExtracted texttext/plain144354https://dspace.mackenzie.br/bitstreams/43d34e4d-d4f9-45c0-a044-6e35048c1068/download887bc048e3540fe3df11eb497cb1ba38MD52THUMBNAILALBERTO MANASTARLA.pdf.jpgALBERTO MANASTARLA.pdf.jpgGenerated Thumbnailimage/jpeg1258https://dspace.mackenzie.br/bitstreams/e4985c47-fada-47a5-8c2f-0242d9966421/downloada9f8a80cef996ccf6baa793bc83da6dfMD5310899/265842022-03-14 20:01:38.705http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertooai:dspace.mackenzie.br:10899/26584https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772022-03-14T20:01:38Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)false
dc.title.por.fl_str_mv Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
title Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
spellingShingle Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
Manasrarla, Alberto
seleção de protótipos
redução de dados
classificação de dados
entropia de informação
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
title_short Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
title_full Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
title_fullStr Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
title_full_unstemmed Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
title_sort Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação
author Manasrarla, Alberto
author_facet Manasrarla, Alberto
author_role author
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1396385111251741
dc.contributor.author.fl_str_mv Manasrarla, Alberto
dc.contributor.advisor1.fl_str_mv Silva, Leandro Augusto da
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/4823102188272284
contributor_str_mv Silva, Leandro Augusto da
dc.subject.por.fl_str_mv seleção de protótipos
redução de dados
classificação de dados
entropia de informação
topic seleção de protótipos
redução de dados
classificação de dados
entropia de informação
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
description Atualmente,dados gerados em grande volume,diferentes contextos de aplicação e formato têm impactado significativamente nos diferentes algoritmos de aprendizagem de máquina, em especial os de modelagem preditiva. Sistemas que envolvem dados com essas características não pode marcar com os requisitos de tempo,armazenamento e processamento em tempo real. Sob essas condições, classificar, compreender ou compactar os dados disponíveis podem se tornar uma tarefa custosa. O problema se agrava especialmente no uso de algoritmos de aprendizado baseados em distâncias, como a regra do vizinho mais próximo ou NN (do inglês, NearestNeighbor). O algoritmo básico do NN em uma tarefa de classificação de dados consiste em medir a distância entre uma instância em análise e todas as instâncias de dados disponíveis. Significa dizer que as instâncias do conjunto de dados devem sempre permanecer armazenadas para análises futuras, mesmo aquelas que podem conter ruídos ou não ser representativas para uma análise. Diante disso, a seleção de protótipos se apresenta como uma proposta para a redução de dados e, consequentemente, minimizar os problemas de complexidade computacional, armazenamento e ruídos em conjuntos de dados. A seleção de protótipos visa encontrar um conjunto de dados representativo com uma dimensão menor em comparação ao original, eventualmente pode ser usada para a geração de dados em situações de classes desbalanceadas. Entretanto,a maioria desses métodos,por não ter um controle de geração de protótipos,executa um processo exaustivo para encontrar o conjunto de dados reduzido. A falta de controle na geração de protótipos pode produzir um tamanho não ideal do conjunto de dados reduzido. Diante desse contexto, este trabalho tem como proposta a apresentação de um método de autogeração de protótipos,no qual faz uso de ideias provenientes da teoria da informação,especificamente o conceito de entropia da informação,para determinar o número ideal de protótipos. Na tarefa de classificação de dados com o algoritmo kNN (do inglês, k-Nearest Neighbors), o método proposto possibilita acelerar o tempo de classificação sem diminuir significativamente a qualidade da classificação. Em um estudo comparativo com outra técnica de autogeração de protótipos da literatura, SSGA (do inglês, Steady-StateGeneticAlgorithm), sob análises quantitativas e qualitativas, com diferentes conjuntos de dados (públicos e artificiais), os resultados para o método proposto são superiores,em média,85,71% para o tempo de classificação, com uma taxa média de redução de dados em 77%, e um aumento da eficiência da precisão em 3% do classificador kNN.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-09-18T15:14:47Z
2020-12-07T15:08:44Z
dc.date.available.fl_str_mv 2020-12-07T15:08:44Z
dc.date.issued.fl_str_mv 2020-02-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MANASTARLA, Alberto. Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação. 2020. 84 f. Dissertação (Engenharia Elétrica e Computação) - Universidade Presbiteriana Mackenzie, São Paulo, 2020.
dc.identifier.uri.fl_str_mv http://dspace.mackenzie.br/handle/10899/26584
identifier_str_mv MANASTARLA, Alberto. Método de autogeração de protótipos para tarefas de classificação de dados baseado em entropia da informação. 2020. 84 f. Dissertação (Engenharia Elétrica e Computação) - Universidade Presbiteriana Mackenzie, São Paulo, 2020.
url http://dspace.mackenzie.br/handle/10899/26584
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Repositório Digital do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Repositório Digital do Mackenzie
collection Repositório Digital do Mackenzie
bitstream.url.fl_str_mv https://dspace.mackenzie.br/bitstreams/db42f058-a9c6-4c5b-b23b-260dc2decdc9/download
https://dspace.mackenzie.br/bitstreams/43d34e4d-d4f9-45c0-a044-6e35048c1068/download
https://dspace.mackenzie.br/bitstreams/e4985c47-fada-47a5-8c2f-0242d9966421/download
bitstream.checksum.fl_str_mv b6e42f9d13f669f4e26a659af6eef56a
887bc048e3540fe3df11eb497cb1ba38
a9f8a80cef996ccf6baa793bc83da6df
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv repositorio@mackenzie.br||paola.damato@mackenzie.br
_version_ 1851946008249892864