Mineração de subgrupos em bases de dados de alta dimensionalidade

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: LUCAS, Tarcísio Daniel Pontes
Orientador(a): LUDERMIR, Teresa Bernarda
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/34466
Resumo: Esta tese tem o objetivo de propor soluções para a mineração de subgrupos no contexto de bases de dados de alta dimensionalidade. A mineração de subgrupos (do inglês subgroup discovery) representa uma poderosa ferramenta para análise exploratória de dados, uma vez que apresenta informações normalmente não detectadas pela estatística tradicional. O objetivo da mineração de subgrupos é identificar conjuntos de características que discriminem um grupo alvo dos demais (ex. tratamentos médicos de sucesso dos fracassados). Existem diversas heurísticas para mineração de subgrupos, mas nenhuma delas com foco em bases de alta dimensionalidade. Isso representa uma importante lacuna na área, uma vez que se torna mais natural a necessidade de se extrair informações de conjuntos de dados de alta dimensionalidade. Nas áreas de bioinformática e classificação de documentos, por exemplo, é comum a extração de conhecimento a partir de bases com número de atributos na ordem de 10⁴. É comum também nos algoritmos de mineração de subgrupos o uso de muitos parâmetros de ajuste não trivial. Isso dificulta o uso de tais técnicas, principalmente por usuários de áreas não relacionadas à mineração de dados. Nesse contexto, nós propomos a primeira heurística para mineração de subgrupos com foco em bases de dados de alta dimensionalidade que utiliza apenas dois parâmetros. Outro problema da área é assegurar que os subgrupos retornados não sejam redundantes entre si e que representem de forma ampla os dados do alvo da investigação. No entanto, subgrupos considerados redundantes podem representar soluções mais fáceis de serem aplicadas num problema. Assim, nós propomos uma forma inovadora de controlar a redundância, minimizando o risco do descarte prematuro de subgrupos relevantes e gerando mais informações para o usuário. Por fim, nós desenvolvemos um modelo baseado em mineração de subgrupos para o problema de descrição do perfil de comunidades (do inglês group profiling), que consiste no processo de construção de perfis descritivos para comunidades em redes sociais. A proposta teve como principais diferenciais gerar descrições multivariadas e com alta cobertura global.
id UFPE_d5d87614a6ee01d2bb29b7a132186ace
oai_identifier_str oai:repositorio.ufpe.br:123456789/34466
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling LUCAS, Tarcísio Daniel Ponteshttp://lattes.cnpq.br/1529690202882268http://lattes.cnpq.br/6321179168854922http://lattes.cnpq.br/5736183954752317LUDERMIR, Teresa BernardaVIMIEIRO, Renato2019-10-10T21:13:27Z2019-10-10T21:13:27Z2019-03-13https://repositorio.ufpe.br/handle/123456789/34466Esta tese tem o objetivo de propor soluções para a mineração de subgrupos no contexto de bases de dados de alta dimensionalidade. A mineração de subgrupos (do inglês subgroup discovery) representa uma poderosa ferramenta para análise exploratória de dados, uma vez que apresenta informações normalmente não detectadas pela estatística tradicional. O objetivo da mineração de subgrupos é identificar conjuntos de características que discriminem um grupo alvo dos demais (ex. tratamentos médicos de sucesso dos fracassados). Existem diversas heurísticas para mineração de subgrupos, mas nenhuma delas com foco em bases de alta dimensionalidade. Isso representa uma importante lacuna na área, uma vez que se torna mais natural a necessidade de se extrair informações de conjuntos de dados de alta dimensionalidade. Nas áreas de bioinformática e classificação de documentos, por exemplo, é comum a extração de conhecimento a partir de bases com número de atributos na ordem de 10⁴. É comum também nos algoritmos de mineração de subgrupos o uso de muitos parâmetros de ajuste não trivial. Isso dificulta o uso de tais técnicas, principalmente por usuários de áreas não relacionadas à mineração de dados. Nesse contexto, nós propomos a primeira heurística para mineração de subgrupos com foco em bases de dados de alta dimensionalidade que utiliza apenas dois parâmetros. Outro problema da área é assegurar que os subgrupos retornados não sejam redundantes entre si e que representem de forma ampla os dados do alvo da investigação. No entanto, subgrupos considerados redundantes podem representar soluções mais fáceis de serem aplicadas num problema. Assim, nós propomos uma forma inovadora de controlar a redundância, minimizando o risco do descarte prematuro de subgrupos relevantes e gerando mais informações para o usuário. Por fim, nós desenvolvemos um modelo baseado em mineração de subgrupos para o problema de descrição do perfil de comunidades (do inglês group profiling), que consiste no processo de construção de perfis descritivos para comunidades em redes sociais. A proposta teve como principais diferenciais gerar descrições multivariadas e com alta cobertura global.FACEPEThis doctoral aims to propose solutions for subgroup discovery problems focusing on high dimensional data sets. Subgroup discovery represents a powerful tool for exploratory data analysis as it presents information normally not detected by traditional statistical methods. The purpose of subgroup discovery is to identify sets of characteristics that discriminate one target group from the other (e.g. successful medical treatments of failures). There are several heuristics for subgroup discovery, but none of them focuses on high dimensional data sets. This represents an important gap in the area as it becomes more natural to extract information from high dimensional data sets. In the bioinformatics and document classification realms, for example, it is common to have knowledge extraction from data sets with number of attributes on the order of 10⁴. The use many non-trivial adjustment parameters is also common in subgroup discovery algorithms. In this context, we propose the first heuristic for subgroup mining focusing on high dimensional data sets that use only two parameters. Another problem in this area is to ensure that the returned subgroups are not redundant with each other and that they represent broadly the data of the research. However, subgroups considered redundant may represent easier solutions to a problem. Thus, we propose an innovative way of controlling redundancy, minimizing the risk of premature discarding of relevant subgroups and generating more information for the user. Finally, we have developed a subgroup mining model for the group profiling problem, which is the process of constructing descriptive profiles for communities in social networks. The distinct aspect of the research was the proposal to generate multivariate descriptions with high global coverage.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalMineração de subgruposComputação evolucionáriaMineração de subgrupos em bases de dados de alta dimensionalidadeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE Tarcísio Daniel Pontes Lucas.pdf.jpgTESE Tarcísio Daniel Pontes Lucas.pdf.jpgGenerated Thumbnailimage/jpeg1233https://repositorio.ufpe.br/bitstream/123456789/34466/5/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.jpga8cc1b4cdf7909c2a953d4a029d7b2eeMD55ORIGINALTESE Tarcísio Daniel Pontes Lucas.pdfTESE Tarcísio Daniel Pontes Lucas.pdfapplication/pdf1804081https://repositorio.ufpe.br/bitstream/123456789/34466/1/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf48935992ff93df8f2fef755b05b4fad1MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/34466/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/34466/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTTESE Tarcísio Daniel Pontes Lucas.pdf.txtTESE Tarcísio Daniel Pontes Lucas.pdf.txtExtracted texttext/plain215329https://repositorio.ufpe.br/bitstream/123456789/34466/4/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.txt9cf0f90abd81f27e8f326805e2c6faa9MD54123456789/344662021-07-19 16:59:36.887oai:repositorio.ufpe.br:123456789/34466TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-07-19T19:59:36Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Mineração de subgrupos em bases de dados de alta dimensionalidade
title Mineração de subgrupos em bases de dados de alta dimensionalidade
spellingShingle Mineração de subgrupos em bases de dados de alta dimensionalidade
LUCAS, Tarcísio Daniel Pontes
Inteligência computacional
Mineração de subgrupos
Computação evolucionária
title_short Mineração de subgrupos em bases de dados de alta dimensionalidade
title_full Mineração de subgrupos em bases de dados de alta dimensionalidade
title_fullStr Mineração de subgrupos em bases de dados de alta dimensionalidade
title_full_unstemmed Mineração de subgrupos em bases de dados de alta dimensionalidade
title_sort Mineração de subgrupos em bases de dados de alta dimensionalidade
author LUCAS, Tarcísio Daniel Pontes
author_facet LUCAS, Tarcísio Daniel Pontes
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1529690202882268
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6321179168854922
dc.contributor.advisor-coLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5736183954752317
dc.contributor.author.fl_str_mv LUCAS, Tarcísio Daniel Pontes
dc.contributor.advisor1.fl_str_mv LUDERMIR, Teresa Bernarda
dc.contributor.advisor-co1.fl_str_mv VIMIEIRO, Renato
contributor_str_mv LUDERMIR, Teresa Bernarda
VIMIEIRO, Renato
dc.subject.por.fl_str_mv Inteligência computacional
Mineração de subgrupos
Computação evolucionária
topic Inteligência computacional
Mineração de subgrupos
Computação evolucionária
description Esta tese tem o objetivo de propor soluções para a mineração de subgrupos no contexto de bases de dados de alta dimensionalidade. A mineração de subgrupos (do inglês subgroup discovery) representa uma poderosa ferramenta para análise exploratória de dados, uma vez que apresenta informações normalmente não detectadas pela estatística tradicional. O objetivo da mineração de subgrupos é identificar conjuntos de características que discriminem um grupo alvo dos demais (ex. tratamentos médicos de sucesso dos fracassados). Existem diversas heurísticas para mineração de subgrupos, mas nenhuma delas com foco em bases de alta dimensionalidade. Isso representa uma importante lacuna na área, uma vez que se torna mais natural a necessidade de se extrair informações de conjuntos de dados de alta dimensionalidade. Nas áreas de bioinformática e classificação de documentos, por exemplo, é comum a extração de conhecimento a partir de bases com número de atributos na ordem de 10⁴. É comum também nos algoritmos de mineração de subgrupos o uso de muitos parâmetros de ajuste não trivial. Isso dificulta o uso de tais técnicas, principalmente por usuários de áreas não relacionadas à mineração de dados. Nesse contexto, nós propomos a primeira heurística para mineração de subgrupos com foco em bases de dados de alta dimensionalidade que utiliza apenas dois parâmetros. Outro problema da área é assegurar que os subgrupos retornados não sejam redundantes entre si e que representem de forma ampla os dados do alvo da investigação. No entanto, subgrupos considerados redundantes podem representar soluções mais fáceis de serem aplicadas num problema. Assim, nós propomos uma forma inovadora de controlar a redundância, minimizando o risco do descarte prematuro de subgrupos relevantes e gerando mais informações para o usuário. Por fim, nós desenvolvemos um modelo baseado em mineração de subgrupos para o problema de descrição do perfil de comunidades (do inglês group profiling), que consiste no processo de construção de perfis descritivos para comunidades em redes sociais. A proposta teve como principais diferenciais gerar descrições multivariadas e com alta cobertura global.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-10-10T21:13:27Z
dc.date.available.fl_str_mv 2019-10-10T21:13:27Z
dc.date.issued.fl_str_mv 2019-03-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/34466
url https://repositorio.ufpe.br/handle/123456789/34466
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/34466/5/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/34466/1/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf
https://repositorio.ufpe.br/bitstream/123456789/34466/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/34466/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/34466/4/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.txt
bitstream.checksum.fl_str_mv a8cc1b4cdf7909c2a953d4a029d7b2ee
48935992ff93df8f2fef755b05b4fad1
e39d27027a6cc9cb039ad269a5db8e34
bd573a5ca8288eb7272482765f819534
9cf0f90abd81f27e8f326805e2c6faa9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1862741699892084736