Análise de sensibilidade de técnicas de amostragem em grafos aleatórios

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Marina Alves Amorim lattes
Orientador(a): Denise Duarte Scarpa Magalhaes Alves lattes
Banca de defesa: Luiz Henrique Duczmal, Rodrigo Lambert, Fabricio Murai Ferreira
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Programa de Pós-Graduação em Estatística
Departamento: ICX - DEPARTAMENTO DE ESTATÍSTICA
País: Brasil
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/50555
Resumo: Neste trabalho, propomos uma análise de sensibilidade dos métodos de amostragem para grafos aleatórios, buscamos encontrar a melhor estratégia de amostragem para cada modelo analisado. Quando nos referimos a uma boa estratégia de amostragem, estamos analisando à capacidade de um método de amostragem em preservar as características do grafo populacional observado. Os seguintes modelos de grafos aleatórios foram usados para capturar diferentes estruturas de dados relacionais: Erdös Rényi, Geométrico, Barabasi Albert e Watts Strogatz. Para cada um desses modelos de grafos, testamos os seguintes métodos de amostragem: amostragem aleatória de vértices, amostragem aleatória de arestas e amostragem por bolas de neve. Amostragem em grafos é uma campo promissor, e existem estudos na área que utilizam medidas topológicas individuais para validar a estratégia de amostragem. Nosso trabalho difere dos demais ao propor o uso de uma informação sintética mais robusta − a densidade espectral do grafo. Além de ser uma medida sintética, ela preserva todas as informações contidas no grafos, incluindo as métricas topológicas usadas individualmente. Utilizamos a divergência de Kullback-Leibler entre a densidade espectral do grafo aleatório e suas versões amostradas para validar seu uso e, em seguida, usando densidades espectrais, construímos um teste a partir das diferenças de Jensen Shannon para verificar se a perda de vértices ou arestas afeta a identificabilidade do modelo original. Nossa abordagem de amostragem produziu dois resultados principais. Primeiro, encontramos um limiar de 500 vértices para garantir a recuperação do modelo original, independentemente do método de amostragem ou modelo de grafo utilizado. Segundo, nossa abordagem nos permitiu informar qual método de amostragem é mais apropriado para cada modelo de grafo observado.
id UFMG_f2a62ac5cf09808dcabef5fd5b5adb55
oai_identifier_str oai:repositorio.ufmg.br:1843/50555
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Denise Duarte Scarpa Magalhaes Alveshttp://lattes.cnpq.br/1561403057993890Gilvan Ramalho Guedeshttp://lattes.cnpq.br/7740592064640884Luiz Henrique DuczmalRodrigo LambertFabricio Murai Ferreirahttp://lattes.cnpq.br/5028421301289092Marina Alves Amorim2023-03-01T13:26:13Z2023-03-01T13:26:13Z2020-02-27http://hdl.handle.net/1843/50555Neste trabalho, propomos uma análise de sensibilidade dos métodos de amostragem para grafos aleatórios, buscamos encontrar a melhor estratégia de amostragem para cada modelo analisado. Quando nos referimos a uma boa estratégia de amostragem, estamos analisando à capacidade de um método de amostragem em preservar as características do grafo populacional observado. Os seguintes modelos de grafos aleatórios foram usados para capturar diferentes estruturas de dados relacionais: Erdös Rényi, Geométrico, Barabasi Albert e Watts Strogatz. Para cada um desses modelos de grafos, testamos os seguintes métodos de amostragem: amostragem aleatória de vértices, amostragem aleatória de arestas e amostragem por bolas de neve. Amostragem em grafos é uma campo promissor, e existem estudos na área que utilizam medidas topológicas individuais para validar a estratégia de amostragem. Nosso trabalho difere dos demais ao propor o uso de uma informação sintética mais robusta − a densidade espectral do grafo. Além de ser uma medida sintética, ela preserva todas as informações contidas no grafos, incluindo as métricas topológicas usadas individualmente. Utilizamos a divergência de Kullback-Leibler entre a densidade espectral do grafo aleatório e suas versões amostradas para validar seu uso e, em seguida, usando densidades espectrais, construímos um teste a partir das diferenças de Jensen Shannon para verificar se a perda de vértices ou arestas afeta a identificabilidade do modelo original. Nossa abordagem de amostragem produziu dois resultados principais. Primeiro, encontramos um limiar de 500 vértices para garantir a recuperação do modelo original, independentemente do método de amostragem ou modelo de grafo utilizado. Segundo, nossa abordagem nos permitiu informar qual método de amostragem é mais apropriado para cada modelo de grafo observado.In this work, we propose a sensitivity analysis of sampling methods for random graphs in order to find the best sampling strategy for each model analyzed. For best sampling strategy we mean the ability of a sampling method to preserve the characteristics of the graph, even under increasing loss of information. The following random graph models were used to capture different relational data structures: Erdös Rényi, Geometric, Barabasi Albert and Watts Strogatz. For each of these graph models we tested the following sampling methods: random vertex sampling, random edge sampling, and snowball sampling. Sampling graphs is a promising area and there are studies using individual topological measures to validate the sampling strategy. Our work differs from the others in proposing the use of a more robust synthetic information − the spectral density of the graph. In addition to being a synthetic measure, it preserves all the information contained in the graph, including the topological metrics individually used. We use the Kullback-Leibler Divergence between spectral density of the original graph and their sampled versions to validate its use and then, using spectral densities, we built a test from the Jensen Shannon test statistics to check if the loss of vertices or edges affects the identifiability of the original model. Our sampling approach yielded two main results. First, we found a lower limit of 500 vertices to guarantee the recovery of the original model, regardless of the sampling method or graph model used. Second, our approach allowed us to inform which sampling method is most appropriate for each observed graph.FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em EstatísticaUFMGBrasilICX - DEPARTAMENTO DE ESTATÍSTICAEstatística – TesesGrafos – TesesAmostragem – TesesGrafosAmostragem em grafosAnálise de sensibilidade de técnicas de amostragem em grafos aleatóriosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdissertação_marina_alves_amorim_estatistica.pdfdissertação_marina_alves_amorim_estatistica.pdfapplication/pdf2081268https://repositorio.ufmg.br/bitstream/1843/50555/1/dissertac%cc%a7a%cc%83o_marina_alves_amorim_estatistica.pdfcbda7d8db331c9bcd47eacc857f9c5f0MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/50555/2/license.txtcda590c95a0b51b4d15f60c9642ca272MD521843/505552023-03-01 10:26:13.605oai:repositorio.ufmg.br:1843/50555TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-03-01T13:26:13Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
spellingShingle Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
Marina Alves Amorim
Grafos
Amostragem em grafos
Estatística – Teses
Grafos – Teses
Amostragem – Teses
title_short Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_full Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_fullStr Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_full_unstemmed Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
title_sort Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
author Marina Alves Amorim
author_facet Marina Alves Amorim
author_role author
dc.contributor.advisor1.fl_str_mv Denise Duarte Scarpa Magalhaes Alves
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1561403057993890
dc.contributor.advisor2Lattes.fl_str_mv Gilvan Ramalho Guedes
dc.contributor.advisor-co1.fl_str_mv http://lattes.cnpq.br/7740592064640884
dc.contributor.referee1.fl_str_mv Luiz Henrique Duczmal
dc.contributor.referee2.fl_str_mv Rodrigo Lambert
dc.contributor.referee3.fl_str_mv Fabricio Murai Ferreira
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5028421301289092
dc.contributor.author.fl_str_mv Marina Alves Amorim
contributor_str_mv Denise Duarte Scarpa Magalhaes Alves
http://lattes.cnpq.br/7740592064640884
Luiz Henrique Duczmal
Rodrigo Lambert
Fabricio Murai Ferreira
dc.subject.por.fl_str_mv Grafos
Amostragem em grafos
topic Grafos
Amostragem em grafos
Estatística – Teses
Grafos – Teses
Amostragem – Teses
dc.subject.other.pt_BR.fl_str_mv Estatística – Teses
Grafos – Teses
Amostragem – Teses
description Neste trabalho, propomos uma análise de sensibilidade dos métodos de amostragem para grafos aleatórios, buscamos encontrar a melhor estratégia de amostragem para cada modelo analisado. Quando nos referimos a uma boa estratégia de amostragem, estamos analisando à capacidade de um método de amostragem em preservar as características do grafo populacional observado. Os seguintes modelos de grafos aleatórios foram usados para capturar diferentes estruturas de dados relacionais: Erdös Rényi, Geométrico, Barabasi Albert e Watts Strogatz. Para cada um desses modelos de grafos, testamos os seguintes métodos de amostragem: amostragem aleatória de vértices, amostragem aleatória de arestas e amostragem por bolas de neve. Amostragem em grafos é uma campo promissor, e existem estudos na área que utilizam medidas topológicas individuais para validar a estratégia de amostragem. Nosso trabalho difere dos demais ao propor o uso de uma informação sintética mais robusta − a densidade espectral do grafo. Além de ser uma medida sintética, ela preserva todas as informações contidas no grafos, incluindo as métricas topológicas usadas individualmente. Utilizamos a divergência de Kullback-Leibler entre a densidade espectral do grafo aleatório e suas versões amostradas para validar seu uso e, em seguida, usando densidades espectrais, construímos um teste a partir das diferenças de Jensen Shannon para verificar se a perda de vértices ou arestas afeta a identificabilidade do modelo original. Nossa abordagem de amostragem produziu dois resultados principais. Primeiro, encontramos um limiar de 500 vértices para garantir a recuperação do modelo original, independentemente do método de amostragem ou modelo de grafo utilizado. Segundo, nossa abordagem nos permitiu informar qual método de amostragem é mais apropriado para cada modelo de grafo observado.
publishDate 2020
dc.date.issued.fl_str_mv 2020-02-27
dc.date.accessioned.fl_str_mv 2023-03-01T13:26:13Z
dc.date.available.fl_str_mv 2023-03-01T13:26:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/50555
url http://hdl.handle.net/1843/50555
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Estatística
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICX - DEPARTAMENTO DE ESTATÍSTICA
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/50555/1/dissertac%cc%a7a%cc%83o_marina_alves_amorim_estatistica.pdf
https://repositorio.ufmg.br/bitstream/1843/50555/2/license.txt
bitstream.checksum.fl_str_mv cbda7d8db331c9bcd47eacc857f9c5f0
cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1797973191875887104