Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Sergio Henrique Rodrigues Ribeiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1843/BUOS-92FP9U
Resumo: Circular and elliptic spatial scan statistics requires the user to choose a maximum cluster size. A common value for this parameter is 50% of the underlying population. In addition to the detected primary cluster, the user may be interested in the analysis of significant secondary clusters. It can also be argued that if the true cluster is irregular, then choosing a small value for the maximum cluster size and evaluating significant secondary clusters may improve cluster detection and avoid the use of irregular cluster methods. This work explores the performance of the circular, elliptic and double scan statistics for different values of the maximum cluster size and different options for the analysis of secondary clusters. Empirical results show that for hot-spot clusters, the analysis of secondary clusters which are statistically significant do not improve the detection of the true unknown cluster, on average. There is evidence that a variable maximum cluster size improves performance. That is, the double scan statistic applies an early-stopping procedure which improves positive predictive values.
id UFMG_e9a54d35bfe0d8cd28d23100b52db762
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-92FP9U
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling 2019-08-14T16:23:34Z2025-09-08T23:08:20Z2019-08-14T16:23:34Z2012-03-02https://hdl.handle.net/1843/BUOS-92FP9UCircular and elliptic spatial scan statistics requires the user to choose a maximum cluster size. A common value for this parameter is 50% of the underlying population. In addition to the detected primary cluster, the user may be interested in the analysis of significant secondary clusters. It can also be argued that if the true cluster is irregular, then choosing a small value for the maximum cluster size and evaluating significant secondary clusters may improve cluster detection and avoid the use of irregular cluster methods. This work explores the performance of the circular, elliptic and double scan statistics for different values of the maximum cluster size and different options for the analysis of secondary clusters. Empirical results show that for hot-spot clusters, the analysis of secondary clusters which are statistically significant do not improve the detection of the true unknown cluster, on average. There is evidence that a variable maximum cluster size improves performance. That is, the double scan statistic applies an early-stopping procedure which improves positive predictive values.Universidade Federal de Minas GeraisSpatial scan statisticSimulation studyEstatisticaSeleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSergio Henrique Rodrigues Ribeiroinfo:eu-repo/semantics/openAccessengreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGMarcelo Azevedo CostaRenato Martins AssuncaoAlexandre Loureiros RodriguesO desenvolvimento e o estudo de métodos que sejam capazes de detectar eficientemente um conjunto de áreas que tenha uma maior ou menor incidência de um determinado evento são de extrema importância para a sociedade. Por exemplo, um método que indique a existência de um conjunto de bairros que tenha uma maiorincidência de crimes ou casos de dengue de uma cidade. Nesse contexto nos deparamos com os métodos de análises estatísticas de conglomerados espaciais. Carpenter (2011) relata que uma das principais razões para o grande uso das análises estatísticas deconglomerados espaciais é a disponibilização gratuita de softwares, como o SaTScan. Por exemplo, no site do SaTScan (www.satscan.org; acessado em 1 de janeiro de 2011) pode ser encontrada uma lista de aplicações nas áreas de doenças infecciosas, parasitologia, vigilância síndrômica, câncer, pediatria, geriatria, doenças neurológicas,psicologia, demografia, veterinária, botânica, silvicultura, ecologia e meio-ambiente, desastres naturais, criminologia, transporte, entre outras. Costa e Kulldorff (2009) revisaram algumas dessas aplicações.A estatística de varredura espacial é baseada no clássico artigo de Naus (1965) que desenvolve expressões matemáticas para calcular a probabilidade de encontrar pontos dentro de uma janela retangular fixa que varre a área de um quadrado unitário. Kulldorff (1997), com a estatística de varredura circular, estendeu esta abordagemassumindo um processo de Poisson ou Bernoulli que gera eventos ou casos em uma região geográfica, também conhecida como região de estudo. A região de estudo pode ser dividida em áreas menores onde as populações sob risco e os casos são observados. Os candidatos a conglomerados são gerados por círculos com os seus centrosposicionados nos centroides das áreas e, em seguida, variando os seus raios. Para cada círculo, uma estatística da razão da log-verossimilhança é calculada. O círculo com a maior estatística observada é a potencial sub-região crítica. A inferência sob a suposiçãode aleatoriedade espacial é realizada por meio de simulações Monte Carlo (Dwass, 1957; Turnbull et al., 1990). Algumas extensões e modificações da estatística de varredura puramente espacial são encontradas na literatura. Por exemplo, a estatística de varredura puramente espacial foi estendida para três dimensões (Kulldorff et al., 1998; Kulldorff, 2001; Kulldorff et al., 2005), onde o tempo geralmente representa a terceira dimensão. Novos modelos de probabilidade também foram propostos (Jung et al., 2010, 2007; Huang etal., 2007; Kulldorff et al., 2009; Huang et al., 2009), bem como geometrias diferentes para a forma do conglomerado (Duczmal e Assunção, 2004; Patil e Taillie, 2004; Assunção et al., 2006; Takahashi et al., 2005, 2008; Costa et al., 2012). No entanto, a estatística de varredura circular e elíptica (Kulldorff et al., 2006) são as metodologiasmais utilizadas. Pode-se argumentar que as estatísticas de varredura circular e elíptica são amplamente utilizadas porque estão disponíveis no software SaTScan. O usuário da estatística de varredura circular precisa selecionar apenas um parâmetro, que é o tamanho máximo da janela de varredura. Este parâmetro é normalmente escolhido em termos percentuais da população total na região de estudo. Alguns autores, Kulldorff e Nagarwalla (1995), Coulston e Riitters (2003), Forand et al. (2002), Donnan et al. (2005) e Chaput et al. (2002), discutem a utilização de alguns valores específicos desse parâmetro. Costa e Kulldorff (2009) descrevem algumas razões para escolher um tamanho menor de conglomerado. Uma razão é que um conglomerado circular menor pode ser um indício de que o conglomerado verdadeirotem uma forma irregular, assim, representa uma análise exploratória para conglomerados irregulares, antes da execução de qualquer método de detecção de conglomerados irregulares. Outra razão, é que a escolha por um tamanho de conglomerado menor pode ser feita com base nos recursos disponíveis para a intervenção, que é o caso em estudos epidemiológicos e aplicações de vigilância sindrômica. Por exemplo, a detecção de um conglomerado com um tamanho de 50% doterritório nacional dos EUA não é muito informativa. Neste trabalho, são estudas as medidas de desempenho dos métodos de detecçãode conglomerados espaciais para diferentes valores do tamanho máximo do conglomerado com base em cenários simulados. Procuramos evidências empíricas sobre valor ideal para o parâmetro do tamanho máximo do conglomerado. Simulações extensivas foram feitas utilizando a estatística de varredura circular, a estatística de varredura elíptica e a estatística de varredura double (Costa et al., 2012). Esta última aplica uma regra de parada prematura ao processo de construção do candidato à conglomerado, o que pode evitar que o conglomerado detectado alcance o tamanho máximo previamente escolhido pelo usuário. Foram investigados conglomeradossimulados de geometria circular e irregular. Além disso, foram investigados os conglomerados secundários detectados, sob a suposição de que a estatística de varredura espacial pode dividir um único conglomerado desconhecido em vários pedaços, ou seja,detectar conglomerados primários e secundários. Os resultados indicam que existem escolhas ótimas e únicas para cada um dosseguintes parâmetros: o tamanho máximo do conglomerado, a geometria, e o critério de sobreposição entre os conglomerados primários e secundários. Estas escolhas otimizam as medidas de desempenho: sensibilidade, poder, especificidade e erro de classificação. Contudo, não há uma escolha única, entre todos os parâmetros, que forneça os melhores resultados para todas as medidas de desempenho avaliadas. Os detalhes são apresentados a seguir.UFMGORIGINALdisserta__o___s_rgio_ribeiro_2012.pdfapplication/pdf1452064https://repositorio.ufmg.br//bitstreams/d931b546-f146-4622-a038-c71b7596aeb1/downloade661db4a9f9a0041370685e73ae3300bMD51trueAnonymousREADTEXTdisserta__o___s_rgio_ribeiro_2012.pdf.txttext/plain61195https://repositorio.ufmg.br//bitstreams/db72e6d7-7e45-423c-94be-1f606166234d/download01fd9a01b0bf10f74fda0dd5819ca07eMD52falseAnonymousREAD1843/BUOS-92FP9U2025-09-08 20:08:20.581open.accessoai:repositorio.ufmg.br:1843/BUOS-92FP9Uhttps://repositorio.ufmg.br/Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-08T23:08:20Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
title Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
spellingShingle Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
Sergio Henrique Rodrigues Ribeiro
Estatistica
Spatial scan statistic
Simulation study
title_short Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
title_full Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
title_fullStr Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
title_full_unstemmed Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
title_sort Seleção ótima dos parâmetros de varredura espacial para detecçãode conglomerados: um estudo de simulação
author Sergio Henrique Rodrigues Ribeiro
author_facet Sergio Henrique Rodrigues Ribeiro
author_role author
dc.contributor.author.fl_str_mv Sergio Henrique Rodrigues Ribeiro
dc.subject.por.fl_str_mv Estatistica
topic Estatistica
Spatial scan statistic
Simulation study
dc.subject.other.none.fl_str_mv Spatial scan statistic
Simulation study
description Circular and elliptic spatial scan statistics requires the user to choose a maximum cluster size. A common value for this parameter is 50% of the underlying population. In addition to the detected primary cluster, the user may be interested in the analysis of significant secondary clusters. It can also be argued that if the true cluster is irregular, then choosing a small value for the maximum cluster size and evaluating significant secondary clusters may improve cluster detection and avoid the use of irregular cluster methods. This work explores the performance of the circular, elliptic and double scan statistics for different values of the maximum cluster size and different options for the analysis of secondary clusters. Empirical results show that for hot-spot clusters, the analysis of secondary clusters which are statistically significant do not improve the detection of the true unknown cluster, on average. There is evidence that a variable maximum cluster size improves performance. That is, the double scan statistic applies an early-stopping procedure which improves positive predictive values.
publishDate 2012
dc.date.issued.fl_str_mv 2012-03-02
dc.date.accessioned.fl_str_mv 2019-08-14T16:23:34Z
2025-09-08T23:08:20Z
dc.date.available.fl_str_mv 2019-08-14T16:23:34Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1843/BUOS-92FP9U
url https://hdl.handle.net/1843/BUOS-92FP9U
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br//bitstreams/d931b546-f146-4622-a038-c71b7596aeb1/download
https://repositorio.ufmg.br//bitstreams/db72e6d7-7e45-423c-94be-1f606166234d/download
bitstream.checksum.fl_str_mv e661db4a9f9a0041370685e73ae3300b
01fd9a01b0bf10f74fda0dd5819ca07e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1862106016545505280