Mineração de subgrupos em bases de dados de alta dimensionalidade

LUCAS, Tarcísio Daniel Pontes

Mineração de subgrupos em bases de dados de alta dimensionalidade

Detalhes bibliográficos
Ano de defesa:	2019
Autor(a) principal:	LUCAS, Tarcísio Daniel Pontes
Orientador(a):	LUDERMIR, Teresa Bernarda
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Pernambuco
Programa de Pós-Graduação:	Programa de Pos Graduacao em Ciencia da Computacao
Departamento:	Não Informado pela instituição
País:	Brasil
Palavras-chave em Português:	Inteligência computacional Mineração de subgrupos Computação evolucionária
Link de acesso:	https://repositorio.ufpe.br/handle/123456789/34466
Resumo:	Esta tese tem o objetivo de propor soluções para a mineração de subgrupos no contexto de bases de dados de alta dimensionalidade. A mineração de subgrupos (do inglês subgroup discovery) representa uma poderosa ferramenta para análise exploratória de dados, uma vez que apresenta informações normalmente não detectadas pela estatística tradicional. O objetivo da mineração de subgrupos é identificar conjuntos de características que discriminem um grupo alvo dos demais (ex. tratamentos médicos de sucesso dos fracassados). Existem diversas heurísticas para mineração de subgrupos, mas nenhuma delas com foco em bases de alta dimensionalidade. Isso representa uma importante lacuna na área, uma vez que se torna mais natural a necessidade de se extrair informações de conjuntos de dados de alta dimensionalidade. Nas áreas de bioinformática e classificação de documentos, por exemplo, é comum a extração de conhecimento a partir de bases com número de atributos na ordem de 10⁴. É comum também nos algoritmos de mineração de subgrupos o uso de muitos parâmetros de ajuste não trivial. Isso dificulta o uso de tais técnicas, principalmente por usuários de áreas não relacionadas à mineração de dados. Nesse contexto, nós propomos a primeira heurística para mineração de subgrupos com foco em bases de dados de alta dimensionalidade que utiliza apenas dois parâmetros. Outro problema da área é assegurar que os subgrupos retornados não sejam redundantes entre si e que representem de forma ampla os dados do alvo da investigação. No entanto, subgrupos considerados redundantes podem representar soluções mais fáceis de serem aplicadas num problema. Assim, nós propomos uma forma inovadora de controlar a redundância, minimizando o risco do descarte prematuro de subgrupos relevantes e gerando mais informações para o usuário. Por fim, nós desenvolvemos um modelo baseado em mineração de subgrupos para o problema de descrição do perfil de comunidades (do inglês group profiling), que consiste no processo de construção de perfis descritivos para comunidades em redes sociais. A proposta teve como principais diferenciais gerar descrições multivariadas e com alta cobertura global.

Metadados do item

id	UFPE_d5d87614a6ee01d2bb29b7a132186ace
oai_identifier_str	oai:repositorio.ufpe.br:123456789/34466
network_acronym_str	UFPE
network_name_str	Repositório Institucional da UFPE
repository_id_str
spelling	LUCAS, Tarcísio Daniel Ponteshttp://lattes.cnpq.br/1529690202882268http://lattes.cnpq.br/6321179168854922http://lattes.cnpq.br/5736183954752317LUDERMIR, Teresa BernardaVIMIEIRO, Renato2019-10-10T21:13:27Z2019-10-10T21:13:27Z2019-03-13https://repositorio.ufpe.br/handle/123456789/34466Esta tese tem o objetivo de propor soluções para a mineração de subgrupos no contexto de bases de dados de alta dimensionalidade. A mineração de subgrupos (do inglês subgroup discovery) representa uma poderosa ferramenta para análise exploratória de dados, uma vez que apresenta informações normalmente não detectadas pela estatística tradicional. O objetivo da mineração de subgrupos é identificar conjuntos de características que discriminem um grupo alvo dos demais (ex. tratamentos médicos de sucesso dos fracassados). Existem diversas heurísticas para mineração de subgrupos, mas nenhuma delas com foco em bases de alta dimensionalidade. Isso representa uma importante lacuna na área, uma vez que se torna mais natural a necessidade de se extrair informações de conjuntos de dados de alta dimensionalidade. Nas áreas de bioinformática e classificação de documentos, por exemplo, é comum a extração de conhecimento a partir de bases com número de atributos na ordem de 10⁴. É comum também nos algoritmos de mineração de subgrupos o uso de muitos parâmetros de ajuste não trivial. Isso dificulta o uso de tais técnicas, principalmente por usuários de áreas não relacionadas à mineração de dados. Nesse contexto, nós propomos a primeira heurística para mineração de subgrupos com foco em bases de dados de alta dimensionalidade que utiliza apenas dois parâmetros. Outro problema da área é assegurar que os subgrupos retornados não sejam redundantes entre si e que representem de forma ampla os dados do alvo da investigação. No entanto, subgrupos considerados redundantes podem representar soluções mais fáceis de serem aplicadas num problema. Assim, nós propomos uma forma inovadora de controlar a redundância, minimizando o risco do descarte prematuro de subgrupos relevantes e gerando mais informações para o usuário. Por fim, nós desenvolvemos um modelo baseado em mineração de subgrupos para o problema de descrição do perfil de comunidades (do inglês group profiling), que consiste no processo de construção de perfis descritivos para comunidades em redes sociais. A proposta teve como principais diferenciais gerar descrições multivariadas e com alta cobertura global.FACEPEThis doctoral aims to propose solutions for subgroup discovery problems focusing on high dimensional data sets. Subgroup discovery represents a powerful tool for exploratory data analysis as it presents information normally not detected by traditional statistical methods. The purpose of subgroup discovery is to identify sets of characteristics that discriminate one target group from the other (e.g. successful medical treatments of failures). There are several heuristics for subgroup discovery, but none of them focuses on high dimensional data sets. This represents an important gap in the area as it becomes more natural to extract information from high dimensional data sets. In the bioinformatics and document classification realms, for example, it is common to have knowledge extraction from data sets with number of attributes on the order of 10⁴. The use many non-trivial adjustment parameters is also common in subgroup discovery algorithms. In this context, we propose the first heuristic for subgroup mining focusing on high dimensional data sets that use only two parameters. Another problem in this area is to ensure that the returned subgroups are not redundant with each other and that they represent broadly the data of the research. However, subgroups considered redundant may represent easier solutions to a problem. Thus, we propose an innovative way of controlling redundancy, minimizing the risk of premature discarding of relevant subgroups and generating more information for the user. Finally, we have developed a subgroup mining model for the group profiling problem, which is the process of constructing descriptive profiles for communities in social networks. The distinct aspect of the research was the proposal to generate multivariate descriptions with high global coverage.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalMineração de subgruposComputação evolucionáriaMineração de subgrupos em bases de dados de alta dimensionalidadeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE Tarcísio Daniel Pontes Lucas.pdf.jpgTESE Tarcísio Daniel Pontes Lucas.pdf.jpgGenerated Thumbnailimage/jpeg1233https://repositorio.ufpe.br/bitstream/123456789/34466/5/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.jpga8cc1b4cdf7909c2a953d4a029d7b2eeMD55ORIGINALTESE Tarcísio Daniel Pontes Lucas.pdfTESE Tarcísio Daniel Pontes Lucas.pdfapplication/pdf1804081https://repositorio.ufpe.br/bitstream/123456789/34466/1/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf48935992ff93df8f2fef755b05b4fad1MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/34466/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/34466/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTTESE Tarcísio Daniel Pontes Lucas.pdf.txtTESE Tarcísio Daniel Pontes Lucas.pdf.txtExtracted texttext/plain215329https://repositorio.ufpe.br/bitstream/123456789/34466/4/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.txt9cf0f90abd81f27e8f326805e2c6faa9MD54123456789/344662021-07-19 16:59:36.887oai:repositorio.ufpe.br:123456789/34466TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-07-19T19:59:36Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv	Mineração de subgrupos em bases de dados de alta dimensionalidade
title	Mineração de subgrupos em bases de dados de alta dimensionalidade
spellingShingle	Mineração de subgrupos em bases de dados de alta dimensionalidade LUCAS, Tarcísio Daniel Pontes Inteligência computacional Mineração de subgrupos Computação evolucionária
title_short	Mineração de subgrupos em bases de dados de alta dimensionalidade
title_full	Mineração de subgrupos em bases de dados de alta dimensionalidade
title_fullStr	Mineração de subgrupos em bases de dados de alta dimensionalidade
title_full_unstemmed	Mineração de subgrupos em bases de dados de alta dimensionalidade
title_sort	Mineração de subgrupos em bases de dados de alta dimensionalidade
author	LUCAS, Tarcísio Daniel Pontes
author_facet	LUCAS, Tarcísio Daniel Pontes
author_role	author
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/1529690202882268
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/6321179168854922
dc.contributor.advisor-coLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/5736183954752317
dc.contributor.author.fl_str_mv	LUCAS, Tarcísio Daniel Pontes
dc.contributor.advisor1.fl_str_mv	LUDERMIR, Teresa Bernarda
dc.contributor.advisor-co1.fl_str_mv	VIMIEIRO, Renato
contributor_str_mv	LUDERMIR, Teresa Bernarda VIMIEIRO, Renato
dc.subject.por.fl_str_mv	Inteligência computacional Mineração de subgrupos Computação evolucionária
topic	Inteligência computacional Mineração de subgrupos Computação evolucionária
description	Esta tese tem o objetivo de propor soluções para a mineração de subgrupos no contexto de bases de dados de alta dimensionalidade. A mineração de subgrupos (do inglês subgroup discovery) representa uma poderosa ferramenta para análise exploratória de dados, uma vez que apresenta informações normalmente não detectadas pela estatística tradicional. O objetivo da mineração de subgrupos é identificar conjuntos de características que discriminem um grupo alvo dos demais (ex. tratamentos médicos de sucesso dos fracassados). Existem diversas heurísticas para mineração de subgrupos, mas nenhuma delas com foco em bases de alta dimensionalidade. Isso representa uma importante lacuna na área, uma vez que se torna mais natural a necessidade de se extrair informações de conjuntos de dados de alta dimensionalidade. Nas áreas de bioinformática e classificação de documentos, por exemplo, é comum a extração de conhecimento a partir de bases com número de atributos na ordem de 10⁴. É comum também nos algoritmos de mineração de subgrupos o uso de muitos parâmetros de ajuste não trivial. Isso dificulta o uso de tais técnicas, principalmente por usuários de áreas não relacionadas à mineração de dados. Nesse contexto, nós propomos a primeira heurística para mineração de subgrupos com foco em bases de dados de alta dimensionalidade que utiliza apenas dois parâmetros. Outro problema da área é assegurar que os subgrupos retornados não sejam redundantes entre si e que representem de forma ampla os dados do alvo da investigação. No entanto, subgrupos considerados redundantes podem representar soluções mais fáceis de serem aplicadas num problema. Assim, nós propomos uma forma inovadora de controlar a redundância, minimizando o risco do descarte prematuro de subgrupos relevantes e gerando mais informações para o usuário. Por fim, nós desenvolvemos um modelo baseado em mineração de subgrupos para o problema de descrição do perfil de comunidades (do inglês group profiling), que consiste no processo de construção de perfis descritivos para comunidades em redes sociais. A proposta teve como principais diferenciais gerar descrições multivariadas e com alta cobertura global.
publishDate	2019
dc.date.accessioned.fl_str_mv	2019-10-10T21:13:27Z
dc.date.available.fl_str_mv	2019-10-10T21:13:27Z
dc.date.issued.fl_str_mv	2019-03-13
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufpe.br/handle/123456789/34466
url	https://repositorio.ufpe.br/handle/123456789/34466
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv	Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv	UFPE
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE
instname_str	Universidade Federal de Pernambuco (UFPE)
instacron_str	UFPE
institution	UFPE
reponame_str	Repositório Institucional da UFPE
collection	Repositório Institucional da UFPE
bitstream.url.fl_str_mv	https://repositorio.ufpe.br/bitstream/123456789/34466/5/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/34466/1/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf https://repositorio.ufpe.br/bitstream/123456789/34466/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/34466/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/34466/4/TESE%20Tarc%c3%adsio%20Daniel%20Pontes%20Lucas.pdf.txt
bitstream.checksum.fl_str_mv	a8cc1b4cdf7909c2a953d4a029d7b2ee 48935992ff93df8f2fef755b05b4fad1 e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 9cf0f90abd81f27e8f326805e2c6faa9
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv	attena@ufpe.br
_version_	1862741699892084736

Mineração de subgrupos em bases de dados de alta dimensionalidade

Registros relacionados