Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas

Adriano Henrique Cantão

Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Adriano Henrique Cantão
Orientador(a):	José Augusto Baranauskas
Banca de defesa:	Solange Oliveira Rezende
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade de São Paulo
Programa de Pós-Graduação:	Computação Aplicada
Departamento:	Não Informado pela instituição
País:	BR
Link de acesso:	https://doi.org/10.11606/D.59.2022.tde-05122022-102337
Resumo:	O volume de dados disponíveis aumentou rapidamente nos últimos anos e, com isso, os datasets geralmente acabam tendo muitos atributos irrelevantes que podem dificultar a compreensão humana e até levar a modelos de aprendizado de máquina ruins. É possível lidar com esse problema ordenando os atributos de acordo com suas relevâncias e, se desejado, pode ser aplicado um valor de corte ou a estratégia dos top-k para reduzir o número de atributos, mantendo apenas os mais relevantes. Esta pesquisa aborda esse problema e propõe um novo método que emprega árvores de uma Random Forest para transformar um dataset em uma rede complexa na qual métricas de centralidade são aplicadas para ranquear os atributos. O processo representa cada árvore como um grafo, onde todos os atributos na Árvore de Decisão são vértices e as ligações entre os nós (pai → filho) da árvore são representados por uma aresta ponderada entre os dois respectivos vértices. A união de todos os grafos de árvores individuais leva à rede complexa. Experimentos foram realizados em 97 datasets de classificação e regressão rotulados, com variação nos níveis de ruído dos atributos e dos exemplos. Os resultados mostram que, para redes complexas geradas a partir de Random Forests, as métricas de peso de aresta unitário e out-of-bag apresentaram melhores resultados para datasets de classificação e regressão, respectivamente; as métricas de centralidade tiveram melhor desempenho em redes não orientadas, em geral. É possível concluir que a centralidade do autovetor e a importância dos atributos da Random Forest têm desempenho equivalente. Em outras palavras, não houve diferença estatisticamente significativa entre eles em todas, exceto em uma situação (com 40% de ruído nos exemplos para datasets de regressão), com nível de confiança de 95%.

Metadados do item

id	USP_2c09ec354e3d1a80931039b7d58ac31f
oai_identifier_str	oai:teses.usp.br:tde-05122022-102337
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas Ranking of attributes through random forests and centrality metrics in complex networks 2022-09-13José Augusto BaranauskasZhao LiangSolange Oliveira RezendeAdriano Henrique CantãoUniversidade de São PauloComputação AplicadaUSPBR Centrality measures Complex networks Feature ranking Métricas de centralidade Random forests Random forests Ranqueamento de atributos Redes complexas O volume de dados disponíveis aumentou rapidamente nos últimos anos e, com isso, os datasets geralmente acabam tendo muitos atributos irrelevantes que podem dificultar a compreensão humana e até levar a modelos de aprendizado de máquina ruins. É possível lidar com esse problema ordenando os atributos de acordo com suas relevâncias e, se desejado, pode ser aplicado um valor de corte ou a estratégia dos top-k para reduzir o número de atributos, mantendo apenas os mais relevantes. Esta pesquisa aborda esse problema e propõe um novo método que emprega árvores de uma Random Forest para transformar um dataset em uma rede complexa na qual métricas de centralidade são aplicadas para ranquear os atributos. O processo representa cada árvore como um grafo, onde todos os atributos na Árvore de Decisão são vértices e as ligações entre os nós (pai → filho) da árvore são representados por uma aresta ponderada entre os dois respectivos vértices. A união de todos os grafos de árvores individuais leva à rede complexa. Experimentos foram realizados em 97 datasets de classificação e regressão rotulados, com variação nos níveis de ruído dos atributos e dos exemplos. Os resultados mostram que, para redes complexas geradas a partir de Random Forests, as métricas de peso de aresta unitário e out-of-bag apresentaram melhores resultados para datasets de classificação e regressão, respectivamente; as métricas de centralidade tiveram melhor desempenho em redes não orientadas, em geral. É possível concluir que a centralidade do autovetor e a importância dos atributos da Random Forest têm desempenho equivalente. Em outras palavras, não houve diferença estatisticamente significativa entre eles em todas, exceto em uma situação (com 40% de ruído nos exemplos para datasets de regressão), com nível de confiança de 95%. In recent years, the volume of available data has rapidly increased, and datasets commonly end up with many irrelevant features which may disturb human understanding and even lead to poor machine learning models. It is possible to deal with that problem by sorting the features according to their relevancy, and if desirable, either a threshold or the best top-k strategy can be applied to reduce the number of features, keeping only the most relevant ones. This research addresses this problem and proposes a novel method that employs trees from a Random Forest to transform a dataset into a complex network to which centrality measures are applied to rank the features. The process represents each tree as a graph where all features in the Decision Tree are vertices, and the links within the nodes (father → child) of the tree are represented by a weighted edge between the two respective vertices. The union of all graphs from individual trees leads to the complex network. Experiments were performed in 97 labeled classification and regression datasets, with a variation in the feature and example noise levels. Results show that, for complex networks generated from Random Forests, the edge-weight metrics unitary and out-of-bag presented better results for classification and regression datasets, respectively; centrality measures had better performance in non-oriented networks, in general. It is possible to conclude that the eigenvector centrality and the Random Forest feature importance have equivalent performance. In other words, there was no statistically significant difference between them in all except one situation (at 40% noise in the examples for regression datasets), at 95% confidence level. https://doi.org/10.11606/D.59.2022.tde-05122022-102337info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2023-12-21T18:17:59Zoai:teses.usp.br:tde-05122022-102337Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212022-12-12T12:22:52Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.pt.fl_str_mv	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas
dc.title.alternative.en.fl_str_mv	Ranking of attributes through random forests and centrality metrics in complex networks
title	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas
spellingShingle	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas Adriano Henrique Cantão
title_short	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas
title_full	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas
title_fullStr	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas
title_full_unstemmed	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas
title_sort	Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas
author	Adriano Henrique Cantão
author_facet	Adriano Henrique Cantão
author_role	author
dc.contributor.advisor1.fl_str_mv	José Augusto Baranauskas
dc.contributor.advisor-co1.fl_str_mv	Zhao Liang
dc.contributor.referee1.fl_str_mv	Solange Oliveira Rezende
dc.contributor.author.fl_str_mv	Adriano Henrique Cantão
contributor_str_mv	José Augusto Baranauskas Zhao Liang Solange Oliveira Rezende
description	O volume de dados disponíveis aumentou rapidamente nos últimos anos e, com isso, os datasets geralmente acabam tendo muitos atributos irrelevantes que podem dificultar a compreensão humana e até levar a modelos de aprendizado de máquina ruins. É possível lidar com esse problema ordenando os atributos de acordo com suas relevâncias e, se desejado, pode ser aplicado um valor de corte ou a estratégia dos top-k para reduzir o número de atributos, mantendo apenas os mais relevantes. Esta pesquisa aborda esse problema e propõe um novo método que emprega árvores de uma Random Forest para transformar um dataset em uma rede complexa na qual métricas de centralidade são aplicadas para ranquear os atributos. O processo representa cada árvore como um grafo, onde todos os atributos na Árvore de Decisão são vértices e as ligações entre os nós (pai → filho) da árvore são representados por uma aresta ponderada entre os dois respectivos vértices. A união de todos os grafos de árvores individuais leva à rede complexa. Experimentos foram realizados em 97 datasets de classificação e regressão rotulados, com variação nos níveis de ruído dos atributos e dos exemplos. Os resultados mostram que, para redes complexas geradas a partir de Random Forests, as métricas de peso de aresta unitário e out-of-bag apresentaram melhores resultados para datasets de classificação e regressão, respectivamente; as métricas de centralidade tiveram melhor desempenho em redes não orientadas, em geral. É possível concluir que a centralidade do autovetor e a importância dos atributos da Random Forest têm desempenho equivalente. Em outras palavras, não houve diferença estatisticamente significativa entre eles em todas, exceto em uma situação (com 40% de ruído nos exemplos para datasets de regressão), com nível de confiança de 95%.
publishDate	2022
dc.date.issued.fl_str_mv	2022-09-13
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://doi.org/10.11606/D.59.2022.tde-05122022-102337
url	https://doi.org/10.11606/D.59.2022.tde-05122022-102337
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade de São Paulo
dc.publisher.program.fl_str_mv	Computação Aplicada
dc.publisher.initials.fl_str_mv	USP
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	Universidade de São Paulo
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1786376594102681600

Ranqueamento de atributos por meio de random forests e métricas de centralidade em redes complexas

Registros relacionados