Análise de sensibilidade de técnicas de amostragem em grafos aleatórios

Marina Alves Amorim

Análise de sensibilidade de técnicas de amostragem em grafos aleatórios

Detalhes bibliográficos
Ano de defesa:	2020
Autor(a) principal:	Marina Alves Amorim
Orientador(a):	Denise Duarte Scarpa Magalhaes Alves
Banca de defesa:	Luiz Henrique Duczmal, Rodrigo Lambert, Fabricio Murai Ferreira
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Minas Gerais
Programa de Pós-Graduação:	Programa de Pós-Graduação em Estatística
Departamento:	ICX - DEPARTAMENTO DE ESTATÍSTICA
País:	Brasil
Palavras-chave em Português:	Grafos Amostragem em grafos
Link de acesso:	http://hdl.handle.net/1843/50555
Resumo:	Neste trabalho, propomos uma análise de sensibilidade dos métodos de amostragem para grafos aleatórios, buscamos encontrar a melhor estratégia de amostragem para cada modelo analisado. Quando nos referimos a uma boa estratégia de amostragem, estamos analisando à capacidade de um método de amostragem em preservar as características do grafo populacional observado. Os seguintes modelos de grafos aleatórios foram usados para capturar diferentes estruturas de dados relacionais: Erdös Rényi, Geométrico, Barabasi Albert e Watts Strogatz. Para cada um desses modelos de grafos, testamos os seguintes métodos de amostragem: amostragem aleatória de vértices, amostragem aleatória de arestas e amostragem por bolas de neve. Amostragem em grafos é uma campo promissor, e existem estudos na área que utilizam medidas topológicas individuais para validar a estratégia de amostragem. Nosso trabalho difere dos demais ao propor o uso de uma informação sintética mais robusta − a densidade espectral do grafo. Além de ser uma medida sintética, ela preserva todas as informações contidas no grafos, incluindo as métricas topológicas usadas individualmente. Utilizamos a divergência de Kullback-Leibler entre a densidade espectral do grafo aleatório e suas versões amostradas para validar seu uso e, em seguida, usando densidades espectrais, construímos um teste a partir das diferenças de Jensen Shannon para verificar se a perda de vértices ou arestas afeta a identificabilidade do modelo original. Nossa abordagem de amostragem produziu dois resultados principais. Primeiro, encontramos um limiar de 500 vértices para garantir a recuperação do modelo original, independentemente do método de amostragem ou modelo de grafo utilizado. Segundo, nossa abordagem nos permitiu informar qual método de amostragem é mais apropriado para cada modelo de grafo observado.

Metadados do item

id	UFMG_f2a62ac5cf09808dcabef5fd5b5adb55
oai_identifier_str	oai:repositorio.ufmg.br:1843/50555
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Denise Duarte Scarpa Magalhaes Alveshttp://lattes.cnpq.br/1561403057993890Gilvan Ramalho Guedeshttp://lattes.cnpq.br/7740592064640884Luiz Henrique DuczmalRodrigo LambertFabricio Murai Ferreirahttp://lattes.cnpq.br/5028421301289092Marina Alves Amorim2023-03-01T13:26:13Z2023-03-01T13:26:13Z2020-02-27http://hdl.handle.net/1843/50555Neste trabalho, propomos uma análise de sensibilidade dos métodos de amostragem para grafos aleatórios, buscamos encontrar a melhor estratégia de amostragem para cada modelo analisado. Quando nos referimos a uma boa estratégia de amostragem, estamos analisando à capacidade de um método de amostragem em preservar as características do grafo populacional observado. Os seguintes modelos de grafos aleatórios foram usados para capturar diferentes estruturas de dados relacionais: Erdös Rényi, Geométrico, Barabasi Albert e Watts Strogatz. Para cada um desses modelos de grafos, testamos os seguintes métodos de amostragem: amostragem aleatória de vértices, amostragem aleatória de arestas e amostragem por bolas de neve. Amostragem em grafos é uma campo promissor, e existem estudos na área que utilizam medidas topológicas individuais para validar a estratégia de amostragem. Nosso trabalho difere dos demais ao propor o uso de uma informação sintética mais robusta − a densidade espectral do grafo. Além de ser uma medida sintética, ela preserva todas as informações contidas no grafos, incluindo as métricas topológicas usadas individualmente. Utilizamos a divergência de Kullback-Leibler entre a densidade espectral do grafo aleatório e suas versões amostradas para validar seu uso e, em seguida, usando densidades espectrais, construímos um teste a partir das diferenças de Jensen Shannon para verificar se a perda de vértices ou arestas afeta a identificabilidade do modelo original. Nossa abordagem de amostragem produziu dois resultados principais. Primeiro, encontramos um limiar de 500 vértices para garantir a recuperação do modelo original, independentemente do método de amostragem ou modelo de grafo utilizado. Segundo, nossa abordagem nos permitiu informar qual método de amostragem é mais apropriado para cada modelo de grafo observado.In this work, we propose a sensitivity analysis of sampling methods for random graphs in order to find the best sampling strategy for each model analyzed. For best sampling strategy we mean the ability of a sampling method to preserve the characteristics of the graph, even under increasing loss of information. The following random graph models were used to capture different relational data structures: Erdös Rényi, Geometric, Barabasi Albert and Watts Strogatz. For each of these graph models we tested the following sampling methods: random vertex sampling, random edge sampling, and snowball sampling. Sampling graphs is a promising area and there are studies using individual topological measures to validate the sampling strategy. Our work differs from the others in proposing the use of a more robust synthetic information − the spectral density of the graph. In addition to being a synthetic measure, it preserves all the information contained in the graph, including the topological metrics individually used. We use the Kullback-Leibler Divergence between spectral density of the original graph and their sampled versions to validate its use and then, using spectral densities, we built a test from the Jensen Shannon test statistics to check if the loss of vertices or edges affects the identifiability of the original model. Our sampling approach yielded two main results. First, we found a lower limit of 500 vertices to guarantee the recovery of the original model, regardless of the sampling method or graph model used. Second, our approach allowed us to inform which sampling method is most appropriate for each observed graph.FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em EstatísticaUFMGBrasilICX - DEPARTAMENTO DE ESTATÍSTICAEstatística – TesesGrafos – TesesAmostragem – TesesGrafosAmostragem em grafosAnálise de sensibilidade de técnicas de amostragem em grafos aleatóriosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdissertação_marina_alves_amorim_estatistica.pdfdissertação_marina_alves_amorim_estatistica.pdfapplication/pdf2081268https://repositorio.ufmg.br/bitstream/1843/50555/1/dissertac%cc%a7a%cc%83o_marina_alves_amorim_estatistica.pdfcbda7d8db331c9bcd47eacc857f9c5f0MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/50555/2/license.txtcda590c95a0b51b4d15f60c9642ca272MD521843/505552023-03-01 10:26:13.605oai:repositorio.ufmg.br:1843/50555TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-03-01T13:26:13Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
spellingShingle	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios Marina Alves Amorim Grafos Amostragem em grafos Estatística – Teses Grafos – Teses Amostragem – Teses
title_short	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_full	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_fullStr	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_full_unstemmed	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_sort	Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
author	Marina Alves Amorim
author_facet	Marina Alves Amorim
author_role	author
dc.contributor.advisor1.fl_str_mv	Denise Duarte Scarpa Magalhaes Alves
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/1561403057993890
dc.contributor.advisor2Lattes.fl_str_mv	Gilvan Ramalho Guedes
dc.contributor.advisor-co1.fl_str_mv	http://lattes.cnpq.br/7740592064640884
dc.contributor.referee1.fl_str_mv	Luiz Henrique Duczmal
dc.contributor.referee2.fl_str_mv	Rodrigo Lambert
dc.contributor.referee3.fl_str_mv	Fabricio Murai Ferreira
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/5028421301289092
dc.contributor.author.fl_str_mv	Marina Alves Amorim
contributor_str_mv	Denise Duarte Scarpa Magalhaes Alves http://lattes.cnpq.br/7740592064640884 Luiz Henrique Duczmal Rodrigo Lambert Fabricio Murai Ferreira
dc.subject.por.fl_str_mv	Grafos Amostragem em grafos
topic	Grafos Amostragem em grafos Estatística – Teses Grafos – Teses Amostragem – Teses
dc.subject.other.pt_BR.fl_str_mv	Estatística – Teses Grafos – Teses Amostragem – Teses
description	Neste trabalho, propomos uma análise de sensibilidade dos métodos de amostragem para grafos aleatórios, buscamos encontrar a melhor estratégia de amostragem para cada modelo analisado. Quando nos referimos a uma boa estratégia de amostragem, estamos analisando à capacidade de um método de amostragem em preservar as características do grafo populacional observado. Os seguintes modelos de grafos aleatórios foram usados para capturar diferentes estruturas de dados relacionais: Erdös Rényi, Geométrico, Barabasi Albert e Watts Strogatz. Para cada um desses modelos de grafos, testamos os seguintes métodos de amostragem: amostragem aleatória de vértices, amostragem aleatória de arestas e amostragem por bolas de neve. Amostragem em grafos é uma campo promissor, e existem estudos na área que utilizam medidas topológicas individuais para validar a estratégia de amostragem. Nosso trabalho difere dos demais ao propor o uso de uma informação sintética mais robusta − a densidade espectral do grafo. Além de ser uma medida sintética, ela preserva todas as informações contidas no grafos, incluindo as métricas topológicas usadas individualmente. Utilizamos a divergência de Kullback-Leibler entre a densidade espectral do grafo aleatório e suas versões amostradas para validar seu uso e, em seguida, usando densidades espectrais, construímos um teste a partir das diferenças de Jensen Shannon para verificar se a perda de vértices ou arestas afeta a identificabilidade do modelo original. Nossa abordagem de amostragem produziu dois resultados principais. Primeiro, encontramos um limiar de 500 vértices para garantir a recuperação do modelo original, independentemente do método de amostragem ou modelo de grafo utilizado. Segundo, nossa abordagem nos permitiu informar qual método de amostragem é mais apropriado para cada modelo de grafo observado.
publishDate	2020
dc.date.issued.fl_str_mv	2020-02-27
dc.date.accessioned.fl_str_mv	2023-03-01T13:26:13Z
dc.date.available.fl_str_mv	2023-03-01T13:26:13Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/50555
url	http://hdl.handle.net/1843/50555
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Estatística
dc.publisher.initials.fl_str_mv	UFMG
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	ICX - DEPARTAMENTO DE ESTATÍSTICA
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/50555/1/dissertac%cc%a7a%cc%83o_marina_alves_amorim_estatistica.pdf https://repositorio.ufmg.br/bitstream/1843/50555/2/license.txt
bitstream.checksum.fl_str_mv	cbda7d8db331c9bcd47eacc857f9c5f0 cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1797973191875887104

Análise de sensibilidade de técnicas de amostragem em grafos aleatórios

Registros relacionados