Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/28969 |
Resumo: | Missing data are problems commonly faced by machine learning (ML) algorithms due to several reasons, such as manual insertion failure, incorrect measurements of a given sensor, among others. Taking this into consideration, it becomes essential to use appropriate methods to impute missing data into datasets and make algorithm learning more efficient. The missing data problem is more challenging when it comes to databases with multi-label hierarchical classification with hierarchy structured by a Directed Acyclic Graph or DAG. This work is part of this scenario, where classes are arranged in a hierarchy, each instance may have more than one class. To solve this problem, a method of missing data imputation is created using three types of regression-based approach: linear, polynomial and multiple. The algorithm initially checks for correlation between the data, using regression only if this correlation exists, otherwise the average approach. observed values is adopted. The proposed method is divided into three steps: multi-label hierarchical verification, correlation calculation and model application. To perform the experiments, 7 databases of the Genetic Ontology with hierarchy structured in DAG format were used. The results showed that the use of regression presented the superior area under the precision-recall curve (AUPRC) metric in 3 of the tested databases when comparing the non-imputation approaches of missing data and mean of observed values. In addition, the Friedman and Wilcoxon statistical tests were performed in order to compare the results of all algorithms. The tests show a certain difference between the results, but they showed that statistically the difference is not significant. |
| id |
UTFPR-12_7dc4c6d6d7cc95ac32732bd09f4b9d5a |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/28969 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótuloAn approach for missing values imputation in multi-label hierarchical classification problemsAprendizado do computadorSistemas de coleta automática de dadosClassificaçãoAnálise de regressãoAlgorítmosMachine learningAutomatic data collection systemsClassificationRegression analysisAlgorithmsCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia/Tecnologia/GestãoMissing data are problems commonly faced by machine learning (ML) algorithms due to several reasons, such as manual insertion failure, incorrect measurements of a given sensor, among others. Taking this into consideration, it becomes essential to use appropriate methods to impute missing data into datasets and make algorithm learning more efficient. The missing data problem is more challenging when it comes to databases with multi-label hierarchical classification with hierarchy structured by a Directed Acyclic Graph or DAG. This work is part of this scenario, where classes are arranged in a hierarchy, each instance may have more than one class. To solve this problem, a method of missing data imputation is created using three types of regression-based approach: linear, polynomial and multiple. The algorithm initially checks for correlation between the data, using regression only if this correlation exists, otherwise the average approach. observed values is adopted. The proposed method is divided into three steps: multi-label hierarchical verification, correlation calculation and model application. To perform the experiments, 7 databases of the Genetic Ontology with hierarchy structured in DAG format were used. The results showed that the use of regression presented the superior area under the precision-recall curve (AUPRC) metric in 3 of the tested databases when comparing the non-imputation approaches of missing data and mean of observed values. In addition, the Friedman and Wilcoxon statistical tests were performed in order to compare the results of all algorithms. The tests show a certain difference between the results, but they showed that statistically the difference is not significant.Dados faltantes são problemas comumente enfrentados por algoritmos de aprendizagem de máquina (AM) devido a diversos motivos, como por exemplo falha na inserção manual, medições incorretas de determinado sensor entre outros. Considerando isso, se torna importante usar métodos adequados para imputar dados ausentes em conjuntos de dados para tornar a aprendizagem do algoritmo mais eficiente. O problema de dados faltantes é mais desafiador quando se trata de bases de dados com classificação hierárquica multirrótulo com hierarquia estruturadas por um Grafo Acíclico Direcionado ou DAG. Este trabalho está inserido neste cenário, onde as classes estão dispostas em uma hierarquia podendo cada instância possuir mais de uma classe. Para resolver o este problema, foi criado um método de imputação de dados faltantes usando uma abordagem baseada em três tipos de regressão: linear, polinomial e múltipla. O algoritmo inicialmente verifica se há correlação entre os dados, utilizando a regressão somente caso esta correlação exista, caso contrário a abordagem de média dos valores observados é adotada. O método proposto é dividido em três etapas: verificação hierárquica multirrótulo, cálculo de correlação e aplicação do modelo. Para realização dos experimentos foram utilizadas 7 bases de dados da Ontologia Gênica com hierarquia estruturadas em formato de DAG. Os resultados mostraram que o uso da regressão apresentou a métrica baseada na área sob a curva de previsão e revocação (AUPRC) superior em 3 das bases de dados testadas quando comparadas as abordagens de não imputação de dados faltantes e média dos valores observados. Além disso, foram realizados os testes estatísticos de Friedman e Wilcoxon buscando comparar os resultados de todos os algoritmos. Os testes expõem certa diferença entre os resultados, porém mostraram que estatisticamente a diferença não é significativa.Universidade Tecnológica Federal do ParanáPonta GrossaBrasilPrograma de Pós-Graduação em Ciência da ComputaçãoUTFPRBorges, Helyane Bronoskihttps://orcid.org/0000-0002-9153-3819http://lattes.cnpq.br/8340106221427112Borges, Helyane Bronoskihttps://orcid.org/0000-0002-9153-3819http://lattes.cnpq.br/8340106221427112Rocha, José Carlos Ferreira dahttps://orcid.org/0000-0002-4050-281Xhttp://lattes.cnpq.br/3945991870627440Matos, Simone Nasserhttps://orcid.org/0000-0002-5362-2343http://lattes.cnpq.br/2608583610949216Santana, Alvaro Mateus2022-06-30T20:56:42Z2022-06-30T20:56:42Z2021-12-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSANTANA, Alvaro Mateus. Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/28969porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2022-07-01T06:06:14Zoai:repositorio.utfpr.edu.br:1/28969Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2022-07-01T06:06:14Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo An approach for missing values imputation in multi-label hierarchical classification problems |
| title |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo |
| spellingShingle |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo Santana, Alvaro Mateus Aprendizado do computador Sistemas de coleta automática de dados Classificação Análise de regressão Algorítmos Machine learning Automatic data collection systems Classification Regression analysis Algorithms CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| title_short |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo |
| title_full |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo |
| title_fullStr |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo |
| title_full_unstemmed |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo |
| title_sort |
Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo |
| author |
Santana, Alvaro Mateus |
| author_facet |
Santana, Alvaro Mateus |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Borges, Helyane Bronoski https://orcid.org/0000-0002-9153-3819 http://lattes.cnpq.br/8340106221427112 Borges, Helyane Bronoski https://orcid.org/0000-0002-9153-3819 http://lattes.cnpq.br/8340106221427112 Rocha, José Carlos Ferreira da https://orcid.org/0000-0002-4050-281X http://lattes.cnpq.br/3945991870627440 Matos, Simone Nasser https://orcid.org/0000-0002-5362-2343 http://lattes.cnpq.br/2608583610949216 |
| dc.contributor.author.fl_str_mv |
Santana, Alvaro Mateus |
| dc.subject.por.fl_str_mv |
Aprendizado do computador Sistemas de coleta automática de dados Classificação Análise de regressão Algorítmos Machine learning Automatic data collection systems Classification Regression analysis Algorithms CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| topic |
Aprendizado do computador Sistemas de coleta automática de dados Classificação Análise de regressão Algorítmos Machine learning Automatic data collection systems Classification Regression analysis Algorithms CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| description |
Missing data are problems commonly faced by machine learning (ML) algorithms due to several reasons, such as manual insertion failure, incorrect measurements of a given sensor, among others. Taking this into consideration, it becomes essential to use appropriate methods to impute missing data into datasets and make algorithm learning more efficient. The missing data problem is more challenging when it comes to databases with multi-label hierarchical classification with hierarchy structured by a Directed Acyclic Graph or DAG. This work is part of this scenario, where classes are arranged in a hierarchy, each instance may have more than one class. To solve this problem, a method of missing data imputation is created using three types of regression-based approach: linear, polynomial and multiple. The algorithm initially checks for correlation between the data, using regression only if this correlation exists, otherwise the average approach. observed values is adopted. The proposed method is divided into three steps: multi-label hierarchical verification, correlation calculation and model application. To perform the experiments, 7 databases of the Genetic Ontology with hierarchy structured in DAG format were used. The results showed that the use of regression presented the superior area under the precision-recall curve (AUPRC) metric in 3 of the tested databases when comparing the non-imputation approaches of missing data and mean of observed values. In addition, the Friedman and Wilcoxon statistical tests were performed in order to compare the results of all algorithms. The tests show a certain difference between the results, but they showed that statistically the difference is not significant. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-12-07 2022-06-30T20:56:42Z 2022-06-30T20:56:42Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
SANTANA, Alvaro Mateus. Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021. http://repositorio.utfpr.edu.br/jspui/handle/1/28969 |
| identifier_str_mv |
SANTANA, Alvaro Mateus. Uma abordagem para imputação de valores faltantes em problemas de classificação hierárquica multirrótulo. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/28969 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498363128020992 |