Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Cavalcanti, Douglas Monteiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufu.br/handle/123456789/34035
http://doi.org/10.14393/ufu.di.2021.673
Resumo: The update process of clustering-based data stream classifiers generates clusters from partially or fully unlabeled data instances. Each cluster is then categorized as the extension of a known class or as the emergence of a new one, summarized, and finally added to the classification model. Considering the cost of label acquisition, when compared to exclusively supervised approaches, clustering-based strategies present the advantage of allowing the use of unlabeled data to update the classification model. However, the gain of information about the data classes’ distribution through unlabeled data is subject to assumptions of how the distribution of the features interacts with the distribution of the data classes. Because of that, the updated process of clustering-based data stream classifiers is prone to fail as this interaction changes unexpectedly due to the stream’s non-stationary characteristic, leading to class inference errors and consequently the miscategorization of clusters, compromising the consistency of the classification model. Considering this problem, in this work, we propose an active learning strategy that selects for the clusters for which the categorization is more uncertain and then, for each chosen cluster, queries for the label of the instances more informative in the context of the inner cluster distribution. By dividing the active learning query responsibility among two query strategies, one for the cluster-level and the other for the instance-level, the strategy guarantees an efficient and effective use of label resources by acquiring labels only for the clusters more likely to need it. To test the proposed active learning strategy, we applied it to two clustering-based data stream classifiers from the literature: MINAS and ECHO. In the results, the active learning strategy recovered a significant number of cluster miscategorizations at the cost of a few additional label acquisitions.
id UFU_4b48c233c2990aa95f65cf8bb24ab7a4
oai_identifier_str oai:repositorio.ufu.br:123456789/34035
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamentoActive learning for clustering-based data stream classifiersFluxo de DadosData StreamAprendizado AtivoActive LearningAgrupamentoClusteringSemi-supervisãoSemi-supervisionCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCiência da ComputaçãoInteligência ArtificialFluxo de dados (Computadores)The update process of clustering-based data stream classifiers generates clusters from partially or fully unlabeled data instances. Each cluster is then categorized as the extension of a known class or as the emergence of a new one, summarized, and finally added to the classification model. Considering the cost of label acquisition, when compared to exclusively supervised approaches, clustering-based strategies present the advantage of allowing the use of unlabeled data to update the classification model. However, the gain of information about the data classes’ distribution through unlabeled data is subject to assumptions of how the distribution of the features interacts with the distribution of the data classes. Because of that, the updated process of clustering-based data stream classifiers is prone to fail as this interaction changes unexpectedly due to the stream’s non-stationary characteristic, leading to class inference errors and consequently the miscategorization of clusters, compromising the consistency of the classification model. Considering this problem, in this work, we propose an active learning strategy that selects for the clusters for which the categorization is more uncertain and then, for each chosen cluster, queries for the label of the instances more informative in the context of the inner cluster distribution. By dividing the active learning query responsibility among two query strategies, one for the cluster-level and the other for the instance-level, the strategy guarantees an efficient and effective use of label resources by acquiring labels only for the clusters more likely to need it. To test the proposed active learning strategy, we applied it to two clustering-based data stream classifiers from the literature: MINAS and ECHO. In the results, the active learning strategy recovered a significant number of cluster miscategorizations at the cost of a few additional label acquisitions.Pesquisa sem auxílio de agências de fomentoDissertação (Mestrado)O processo de atualização de classificadores de fluxo de dados baseados em agrupamento gera grupos a partir de instâncias de dados parcial ou totalmente não rotuladas. Cada grupo é então categorizado como a extensão de uma classe conhecida ou como o surgimento de uma nova, resumido e finalmente adicionado ao modelo de classificação. Considerando o custo de aquisição do rótulo, quando comparadas a abordagens exclusivamente supervisionadas, as estratégias baseadas em agrupamento apresentam a vantagem de permitir o uso de dados não rotulados para atualização do modelo de classificação. No entanto, o ganho de informações sobre a distribuição das classes de dados por meio de dados não rotulados está sujeito a suposições de como a distribuição dos atributos interage com a distribuição das classes de dados. Por causa disso, o processo de atualização de classificadores de fluxo de dados baseados em agrupamento está sujeito a falhar à medida que essa interação muda inesperadamente devido a característica não-estacionária do fluxo, levando a erros de inferência de classe e, consequentemente, à categorização incorreta de grupos, comprometendo a consistência do modelo de classificação. Considerando este problema, neste trabalho, propomos uma estratégia de aprendizagem ativa que seleciona os grupos para os quais a categorização é mais incerta e então, para cada grupo escolhido, consulta pelo rótulo das instâncias mais informativas no contexto da distribuição interna do grupo. Ao dividir a responsabilidade da consulta de aprendizagem ativa entre duas estratégias de consulta, uma para o nível dos grupos e outra para o nível das instâncias, a estratégia garante um uso eficiente e eficaz dos recursos de rótulo, adquirindo rótulos apenas para grupos com maior probabilidade de precisar deles. Para testar a estratégia de aprendizagem ativa proposta, ela foi aplicada a dois classificadores de fluxo de dados baseados em clustering da literatura: MINAS e ECHO. Nos resultados, a estratégia de aprendizagem ativa recuperou um número significativo de categorizações incorretas de cluster ao custo de poucas aquisições adicionais de rótulo.Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em Ciência da ComputaçãoCerri, Ricardohttp://lattes.cnpq.br/6266519868438512Paiva, Elaine Ribeiro de Fariahttp://lattes.cnpq.br/8238524390290386Prati, Ronaldo Cristianohttp://lattes.cnpq.br/7851650523179414Pereira, Fabíola Souza Fernandeshttp://lattes.cnpq.br/2320001731969968Cavalcanti, Douglas Monteiro2022-02-03T13:05:03Z2022-02-03T13:05:03Z2021-11-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCAVALCANTI, Douglas Monteiro. Aprendizado ativo para classificadores de fluxo de dados Baseados em agrupamento. 2021. 78 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2021. DOI http://doi.org/10.14393/ufu.di.2021.673https://repositorio.ufu.br/handle/123456789/34035http://doi.org/10.14393/ufu.di.2021.673enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2022-02-04T06:32:27Zoai:repositorio.ufu.br:123456789/34035Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2022-02-04T06:32:27Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
Active learning for clustering-based data stream classifiers
title Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
spellingShingle Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
Cavalcanti, Douglas Monteiro
Fluxo de Dados
Data Stream
Aprendizado Ativo
Active Learning
Agrupamento
Clustering
Semi-supervisão
Semi-supervision
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Ciência da Computação
Inteligência Artificial
Fluxo de dados (Computadores)
title_short Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
title_full Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
title_fullStr Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
title_full_unstemmed Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
title_sort Aprendizado ativo para classificadores de fluxo de dados baseados em agrupamento
author Cavalcanti, Douglas Monteiro
author_facet Cavalcanti, Douglas Monteiro
author_role author
dc.contributor.none.fl_str_mv Cerri, Ricardo
http://lattes.cnpq.br/6266519868438512
Paiva, Elaine Ribeiro de Faria
http://lattes.cnpq.br/8238524390290386
Prati, Ronaldo Cristiano
http://lattes.cnpq.br/7851650523179414
Pereira, Fabíola Souza Fernandes
http://lattes.cnpq.br/2320001731969968
dc.contributor.author.fl_str_mv Cavalcanti, Douglas Monteiro
dc.subject.por.fl_str_mv Fluxo de Dados
Data Stream
Aprendizado Ativo
Active Learning
Agrupamento
Clustering
Semi-supervisão
Semi-supervision
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Ciência da Computação
Inteligência Artificial
Fluxo de dados (Computadores)
topic Fluxo de Dados
Data Stream
Aprendizado Ativo
Active Learning
Agrupamento
Clustering
Semi-supervisão
Semi-supervision
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Ciência da Computação
Inteligência Artificial
Fluxo de dados (Computadores)
description The update process of clustering-based data stream classifiers generates clusters from partially or fully unlabeled data instances. Each cluster is then categorized as the extension of a known class or as the emergence of a new one, summarized, and finally added to the classification model. Considering the cost of label acquisition, when compared to exclusively supervised approaches, clustering-based strategies present the advantage of allowing the use of unlabeled data to update the classification model. However, the gain of information about the data classes’ distribution through unlabeled data is subject to assumptions of how the distribution of the features interacts with the distribution of the data classes. Because of that, the updated process of clustering-based data stream classifiers is prone to fail as this interaction changes unexpectedly due to the stream’s non-stationary characteristic, leading to class inference errors and consequently the miscategorization of clusters, compromising the consistency of the classification model. Considering this problem, in this work, we propose an active learning strategy that selects for the clusters for which the categorization is more uncertain and then, for each chosen cluster, queries for the label of the instances more informative in the context of the inner cluster distribution. By dividing the active learning query responsibility among two query strategies, one for the cluster-level and the other for the instance-level, the strategy guarantees an efficient and effective use of label resources by acquiring labels only for the clusters more likely to need it. To test the proposed active learning strategy, we applied it to two clustering-based data stream classifiers from the literature: MINAS and ECHO. In the results, the active learning strategy recovered a significant number of cluster miscategorizations at the cost of a few additional label acquisitions.
publishDate 2021
dc.date.none.fl_str_mv 2021-11-25
2022-02-03T13:05:03Z
2022-02-03T13:05:03Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CAVALCANTI, Douglas Monteiro. Aprendizado ativo para classificadores de fluxo de dados Baseados em agrupamento. 2021. 78 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2021. DOI http://doi.org/10.14393/ufu.di.2021.673
https://repositorio.ufu.br/handle/123456789/34035
http://doi.org/10.14393/ufu.di.2021.673
identifier_str_mv CAVALCANTI, Douglas Monteiro. Aprendizado ativo para classificadores de fluxo de dados Baseados em agrupamento. 2021. 78 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2021. DOI http://doi.org/10.14393/ufu.di.2021.673
url https://repositorio.ufu.br/handle/123456789/34035
http://doi.org/10.14393/ufu.di.2021.673
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1827843458097741824