Algoritmo para classificação multirrótulo baseado em biclusterização

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Schmitke, Luiz Rafael
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Pontifícia Universidade Católica do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Informática
PUCPR
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/29739
Resumo: Among the approaches used in machine learning, the classification stands out especially in its single label way. Although that is common, some domains have multiple labels that are such an intrinsic characteristic of the data, therefore it is necessary a multilabel classification approach. Two strategies are possible to get the multilabel classification, either to convert the multilabel problem into one or more single label problems, or to adapt a single label algorithm to deal with a multilabel data. Despite the fact that problem transformation is effective, some algorithms have issues, as fixed parameters to indicate the single label subproblem quantity and the maintenance of the preexistent relationship among the labels do not use correlation nor co-occurrence measures. Among the categories of algorithms to work with the problem transformation, it was chosen one that allows a transformation from a multilabel problem to n binary problems. That has a characteristic of having a low runtime, which allows to use more complex single label algorithms in the classification stage, like neural networks or deep learning, but it also shows a lower performance in multilabel metrics. Thus, this work shows the BicbPT algorithm that uses the biclustering and multilabel-binary problem transformation to minimize those problems and improve the multilabel metrics without losing the low execution time characteristic of this category. It was chosen the algorithms BR, CC, ECC, RAkEL and LP with SVM, C4.5 and Naïve Bayes to evaluate the proposed method and 12 datasets with distinct complexities and different domains. The experiments show that the BicbPT obtains better performance in the multilabel metrics than the multilabel-binary algorithms, being similar only to the ECC, but in this one the execution time is up to 10 times higher. The BicbPT also keeps the lower execution time, characteristic of the multilabel-binary category. Finally, comparing the two versions of the BicbPT is possible to realize that the way labels influence each other allows improving the multilabel classification, and not only considering the maintenance of relationships in the n transformed problems.
id UTFPR-12_96d91fb00b16423674d19f0e2dce4e33
oai_identifier_str oai:repositorio.utfpr.edu.br:1/29739
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Algoritmo para classificação multirrótulo baseado em biclusterizaçãoAlgorítmosClassificaçãoRótulosSolução de problemasAprendizado do computadorAlgorithmsClassificationLabelsProblem solvingMachine learningCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComputaçãoAmong the approaches used in machine learning, the classification stands out especially in its single label way. Although that is common, some domains have multiple labels that are such an intrinsic characteristic of the data, therefore it is necessary a multilabel classification approach. Two strategies are possible to get the multilabel classification, either to convert the multilabel problem into one or more single label problems, or to adapt a single label algorithm to deal with a multilabel data. Despite the fact that problem transformation is effective, some algorithms have issues, as fixed parameters to indicate the single label subproblem quantity and the maintenance of the preexistent relationship among the labels do not use correlation nor co-occurrence measures. Among the categories of algorithms to work with the problem transformation, it was chosen one that allows a transformation from a multilabel problem to n binary problems. That has a characteristic of having a low runtime, which allows to use more complex single label algorithms in the classification stage, like neural networks or deep learning, but it also shows a lower performance in multilabel metrics. Thus, this work shows the BicbPT algorithm that uses the biclustering and multilabel-binary problem transformation to minimize those problems and improve the multilabel metrics without losing the low execution time characteristic of this category. It was chosen the algorithms BR, CC, ECC, RAkEL and LP with SVM, C4.5 and Naïve Bayes to evaluate the proposed method and 12 datasets with distinct complexities and different domains. The experiments show that the BicbPT obtains better performance in the multilabel metrics than the multilabel-binary algorithms, being similar only to the ECC, but in this one the execution time is up to 10 times higher. The BicbPT also keeps the lower execution time, characteristic of the multilabel-binary category. Finally, comparing the two versions of the BicbPT is possible to realize that the way labels influence each other allows improving the multilabel classification, and not only considering the maintenance of relationships in the n transformed problems.Dentre as abordagens utilizadas na aprendizagem de máquina, a classificação se destaca principalmente na sua forma monorrótulo. Embora essa seja comum, em alguns domínios a presença de mais de um rótulo é característica inerente dos dados, sendo assim faz-se necessário a utilização de abordagens para classificação multirrótulo. Duas estratégias são possíveis para alcançar a classificação multirrótulo, uma é transformar o problema multirrótulo em um ou mais problemas monorrótulo, ou adaptar um algoritmo monorrótulo para que este possa lidar com a multirrotularidade dos dados. Embora a transformação de problema seja eficaz, alguns algoritmos possuem problemas como, parâmetros fixos para determinar a quantidade de subproblemas monorrótulo e a manutenção dos relacionamentos pré-existentes entre rótulos não usam medidas de correlação ou coocorrência. Dentre as categorias existentes de algoritmos para trabalhar com a transformação de problema, foi escolhida a que permite fazer a transformação de um problema multirrótulo para n problemas binários, pois esta possui como característica o baixo de tempo de execução, o que permite o uso de algoritmos monorrótulo mais complexos na fase de classificação, como por exemplo, redes neurais e deep learning, mas, proporcionalmente, também apresentam baixo desempenho nas métricas multirrótulo. Desta forma, neste trabalho é apresentado o algoritmo BicbPT, o qual utiliza a técnica de biclusterização combinada com a transformação de problema multirrótulo-binário a fim de minimizar aqueles problemas e melhorar o desempenho nas métricas multirrótulo sem perder a característica do baixo tempo de execução desta categoria. Para a avaliação do algoritmo proposto foram realizadas comparações com os algoritmos BR, CC, ECC, RAkEL e LP utilizando os algoritmos monorrótulo SVM, C4.5 e Naive Bayes durante a fase de classificação nos n problemas binários e 12 conjuntos de dados de diferentes domínios e complexidades. Os experimentos realizados demonstram que o BicbPT obtém melhor desempenho nas métricas multirrótulo que os demais algoritmos multirrótulo-binário comparados, sendo similar somente ao ECC, mas neste o tempo de execução é até 10 vezes mais alto, o que torna o algoritmo proposto melhor. Também, o algoritmo proposto consegue manter tempo de execução similar aos algoritmos da categoria multirrótulo-binário. Ainda, ao comparar as duas versões implementadas do BicbPT foi possível perceber que a maneira com a qual os rótulos se influenciam permite melhorar a classificação multirrótulo, e não somente considerar a manutenção das relações nos n problemas transformados.Pontifícia Universidade Católica do ParanáCuritibaBrasilPrograma de Pós-Graduação em InformáticaPUCPRNievola, Julio Cesarhttps://orcid.org/0000-0002-2212-4499http://lattes.cnpq.br/9242867616608986Paraiso, Emerson Cabrerahttps://orcid.org/0000-0002-6740-7855http://lattes.cnpq.br/3493899263715892Nievola, Julio Cesarhttps://orcid.org/0000-0002-2212-4499http://lattes.cnpq.br/9242867616608986Paraiso, Emerson Cabrerahttps://orcid.org/0000-0002-6740-7855http://lattes.cnpq.br/3493899263715892Souza, Vinicius Mourão Alves dehttps://orcid.org/0000-0003-3175-7922http://lattes.cnpq.br/6394929576717854Carvalho, Deborah Ribeirohttps://orcid.org/0000-0002-9735-650Xhttp://lattes.cnpq.br/2294403751807996Borges, Helyane Bronoskihttps://orcid.org/0000-0002-9153-3819http://lattes.cnpq.br/8340106221427112Schmitke, Luiz Rafael2022-09-26T16:25:01Z2022-09-26T16:25:01Z2022-06-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfSCHMITKE, Luiz Rafael. Algoritmo para classificação multirrótulo baseado em biclusterização. 2022. Tese (Doutorado em Informática) - Pontifícia Universidade Católica do Paraná, Curitiba, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/29739porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2022-09-27T06:08:13Zoai:repositorio.utfpr.edu.br:1/29739Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2022-09-27T06:08:13Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Algoritmo para classificação multirrótulo baseado em biclusterização
title Algoritmo para classificação multirrótulo baseado em biclusterização
spellingShingle Algoritmo para classificação multirrótulo baseado em biclusterização
Schmitke, Luiz Rafael
Algorítmos
Classificação
Rótulos
Solução de problemas
Aprendizado do computador
Algorithms
Classification
Labels
Problem solving
Machine learning
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação
title_short Algoritmo para classificação multirrótulo baseado em biclusterização
title_full Algoritmo para classificação multirrótulo baseado em biclusterização
title_fullStr Algoritmo para classificação multirrótulo baseado em biclusterização
title_full_unstemmed Algoritmo para classificação multirrótulo baseado em biclusterização
title_sort Algoritmo para classificação multirrótulo baseado em biclusterização
author Schmitke, Luiz Rafael
author_facet Schmitke, Luiz Rafael
author_role author
dc.contributor.none.fl_str_mv Nievola, Julio Cesar
https://orcid.org/0000-0002-2212-4499
http://lattes.cnpq.br/9242867616608986
Paraiso, Emerson Cabrera
https://orcid.org/0000-0002-6740-7855
http://lattes.cnpq.br/3493899263715892
Nievola, Julio Cesar
https://orcid.org/0000-0002-2212-4499
http://lattes.cnpq.br/9242867616608986
Paraiso, Emerson Cabrera
https://orcid.org/0000-0002-6740-7855
http://lattes.cnpq.br/3493899263715892
Souza, Vinicius Mourão Alves de
https://orcid.org/0000-0003-3175-7922
http://lattes.cnpq.br/6394929576717854
Carvalho, Deborah Ribeiro
https://orcid.org/0000-0002-9735-650X
http://lattes.cnpq.br/2294403751807996
Borges, Helyane Bronoski
https://orcid.org/0000-0002-9153-3819
http://lattes.cnpq.br/8340106221427112
dc.contributor.author.fl_str_mv Schmitke, Luiz Rafael
dc.subject.por.fl_str_mv Algorítmos
Classificação
Rótulos
Solução de problemas
Aprendizado do computador
Algorithms
Classification
Labels
Problem solving
Machine learning
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação
topic Algorítmos
Classificação
Rótulos
Solução de problemas
Aprendizado do computador
Algorithms
Classification
Labels
Problem solving
Machine learning
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação
description Among the approaches used in machine learning, the classification stands out especially in its single label way. Although that is common, some domains have multiple labels that are such an intrinsic characteristic of the data, therefore it is necessary a multilabel classification approach. Two strategies are possible to get the multilabel classification, either to convert the multilabel problem into one or more single label problems, or to adapt a single label algorithm to deal with a multilabel data. Despite the fact that problem transformation is effective, some algorithms have issues, as fixed parameters to indicate the single label subproblem quantity and the maintenance of the preexistent relationship among the labels do not use correlation nor co-occurrence measures. Among the categories of algorithms to work with the problem transformation, it was chosen one that allows a transformation from a multilabel problem to n binary problems. That has a characteristic of having a low runtime, which allows to use more complex single label algorithms in the classification stage, like neural networks or deep learning, but it also shows a lower performance in multilabel metrics. Thus, this work shows the BicbPT algorithm that uses the biclustering and multilabel-binary problem transformation to minimize those problems and improve the multilabel metrics without losing the low execution time characteristic of this category. It was chosen the algorithms BR, CC, ECC, RAkEL and LP with SVM, C4.5 and Naïve Bayes to evaluate the proposed method and 12 datasets with distinct complexities and different domains. The experiments show that the BicbPT obtains better performance in the multilabel metrics than the multilabel-binary algorithms, being similar only to the ECC, but in this one the execution time is up to 10 times higher. The BicbPT also keeps the lower execution time, characteristic of the multilabel-binary category. Finally, comparing the two versions of the BicbPT is possible to realize that the way labels influence each other allows improving the multilabel classification, and not only considering the maintenance of relationships in the n transformed problems.
publishDate 2022
dc.date.none.fl_str_mv 2022-09-26T16:25:01Z
2022-09-26T16:25:01Z
2022-06-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SCHMITKE, Luiz Rafael. Algoritmo para classificação multirrótulo baseado em biclusterização. 2022. Tese (Doutorado em Informática) - Pontifícia Universidade Católica do Paraná, Curitiba, 2022.
http://repositorio.utfpr.edu.br/jspui/handle/1/29739
identifier_str_mv SCHMITKE, Luiz Rafael. Algoritmo para classificação multirrótulo baseado em biclusterização. 2022. Tese (Doutorado em Informática) - Pontifícia Universidade Católica do Paraná, Curitiba, 2022.
url http://repositorio.utfpr.edu.br/jspui/handle/1/29739
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Informática
PUCPR
publisher.none.fl_str_mv Pontifícia Universidade Católica do Paraná
Curitiba
Brasil
Programa de Pós-Graduação em Informática
PUCPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498344659451904