Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Teruya, Anderson
Orientador(a): Pinto, João Onofre Pereira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufms.br/handle/123456789/621
Resumo: Nesta dissertação de Mestrado, propõe-se uma nova metodologia de Seleção de Subconjuntos de Atributos, a ser utilizada no processo de extração de conhecimento de base de dados. As bases de dados, dimensionadas para diversos fins, possuem em sua essência, o conhecimento intrínseco ao sistema de sua aplicação. Esse conhecimento é muito valioso e importante para tomadas de decisões estratégicas nesse sistema. Assim, a proposta da Inteligência Artificial, através da subárea Mineração de Dados, é extrair esse conhecimento de bases de dados de forma automática. Com isso, introduziu-se o conceito de KDD, que implica em um processo de extração de conhecimento de base de dados. Uma das etapas do KDD é a Seleção de Subconjuntos de Atributos (SSA) que tem por objetivo analisar uma base de dados e eliminar atributos não importantes para o conhecimento a ser extraído, assim reduzindo o volume de dados a ser analisado, sem que haja alterações significativas no seu conteúdo. Então, analisando as metodologias de SSA existentes, em especial, Redutos na Teoria de Rough Sets, FOCUS e FOCUS-2, verificou-se que em Redutos selecionam-se atributos condicionais sem considerar o atributo de decisão que é o objeto do conhecimento a ser extraído. E na FOCUS e FOCUS-2, que aplica conceitos semelhantes à metodologia Redutos, implicando em análise de todas as combinações de exemplos (dois a dois), verifica-se que a aplicação ocorre para pares de exemplos pertencentes a classes diferentes, dessa forma considerando o atributo de decisão. A partir dessa análise, elaborou-se a metodologia proposta neste trabalho, que utiliza os conceitos introduzidos na Teoria de Rough Sets, com um diferencial na composição da Matriz de Discernimento. Esse diferencial considera o atributo de decisão na composição dessa matriz, como em FOCUS e FOCUS-2, indo mais além, por prover um tratamento diferenciado para exemplos pertencentes a mesma classe. Pois, criou-se a hipótese de um subconjunto de atributos, apontado por essa metodologia de SSA, conseguir distinguir todos os exemplos pertencentes a classes diferentes e não conseguir concluir que um exemplo pertence a mesma classe de outro exemplo, por ter todos os seus atributos condicionais diferentes entre si. Para viabilizar a implementação da proposta foi necessário introduzir uma simplificação nas matrizes de operação, pois suas dimensões, por definição, são muito grandes. Com isso, concluiu-se a sua implementação, e na seqüência a avaliação. Os resultados das avaliações, no geral, foram satisfatórios, com exceção de alguns pontos que são expostos e discutidos nos capítulos 7 e 8 deste trabalho.
id UFMS_55fe615d28c8b95ca79cb26f88f79602
oai_identifier_str oai:repositorio.ufms.br:123456789/621
network_acronym_str UFMS
network_name_str Repositório Institucional da UFMS
repository_id_str
spelling 2011-10-24T11:43:00Z2021-09-30T19:56:49Z2008https://repositorio.ufms.br/handle/123456789/621Nesta dissertação de Mestrado, propõe-se uma nova metodologia de Seleção de Subconjuntos de Atributos, a ser utilizada no processo de extração de conhecimento de base de dados. As bases de dados, dimensionadas para diversos fins, possuem em sua essência, o conhecimento intrínseco ao sistema de sua aplicação. Esse conhecimento é muito valioso e importante para tomadas de decisões estratégicas nesse sistema. Assim, a proposta da Inteligência Artificial, através da subárea Mineração de Dados, é extrair esse conhecimento de bases de dados de forma automática. Com isso, introduziu-se o conceito de KDD, que implica em um processo de extração de conhecimento de base de dados. Uma das etapas do KDD é a Seleção de Subconjuntos de Atributos (SSA) que tem por objetivo analisar uma base de dados e eliminar atributos não importantes para o conhecimento a ser extraído, assim reduzindo o volume de dados a ser analisado, sem que haja alterações significativas no seu conteúdo. Então, analisando as metodologias de SSA existentes, em especial, Redutos na Teoria de Rough Sets, FOCUS e FOCUS-2, verificou-se que em Redutos selecionam-se atributos condicionais sem considerar o atributo de decisão que é o objeto do conhecimento a ser extraído. E na FOCUS e FOCUS-2, que aplica conceitos semelhantes à metodologia Redutos, implicando em análise de todas as combinações de exemplos (dois a dois), verifica-se que a aplicação ocorre para pares de exemplos pertencentes a classes diferentes, dessa forma considerando o atributo de decisão. A partir dessa análise, elaborou-se a metodologia proposta neste trabalho, que utiliza os conceitos introduzidos na Teoria de Rough Sets, com um diferencial na composição da Matriz de Discernimento. Esse diferencial considera o atributo de decisão na composição dessa matriz, como em FOCUS e FOCUS-2, indo mais além, por prover um tratamento diferenciado para exemplos pertencentes a mesma classe. Pois, criou-se a hipótese de um subconjunto de atributos, apontado por essa metodologia de SSA, conseguir distinguir todos os exemplos pertencentes a classes diferentes e não conseguir concluir que um exemplo pertence a mesma classe de outro exemplo, por ter todos os seus atributos condicionais diferentes entre si. Para viabilizar a implementação da proposta foi necessário introduzir uma simplificação nas matrizes de operação, pois suas dimensões, por definição, são muito grandes. Com isso, concluiu-se a sua implementação, e na seqüência a avaliação. Os resultados das avaliações, no geral, foram satisfatórios, com exceção de alguns pontos que são expostos e discutidos nos capítulos 7 e 8 deste trabalho.In this dissertation, a new Feature Selection Subsets methodology is proposed, to be used in the Knowledge Discover in Database process. The databases, dimensioned for specific purposes, own in its essence, the intrinsic knowledge to the system of its application. This knowledge is very valuable and important to take strategical decisions in this system. Thus, the Artificial Intelligence’s proposal, through of the Data Mining, is to extract this knowledge of databases with automatic form. With this, the KDD concept was introduced, that implies in a knowledge extraction’s database process. One of the stages of the KDD is the Feature Selection Subsets (FSS) that it has for objective to analyze a database and to eliminate attributes not important for knowledge to be extracted, thus reducing the data’s volume to be analyzed, without it has significant alterations in its content. Then, analyzing the existing methodologies of FSS, in special, Reducts in the Theory of Rough Sets, FOCUS and FOCUS-2, were verified that in Reducts selects conditional attributes without considering the decision attribute, that it is the object of the knowledge to be extracted. In FOCUS and FOCUS-2, that applies similar concepts to the Reducts methodology, implying in analysis of all combinations of examples (two by two), verifies that the application occurs to pairs of examples belonging to the different classrooms, of this form considering the decision attribute. From this analysis, it was elaborated the methodology proposal in this work, that uses the concepts introduced in the Theory of Rough Sets, with a differential in the Discernibility Matrix’s composition. This differential considers the attribute decision in the composition of this matrix, as in FOCUS and FOCUS-2, and additionally, providing a differentiated treatment to examples belonging to the same classroom. Well, a hypothesis was created that implies in an attributes subset pointed by a FSS, to obtain to distinguish all examples belonging the different classrooms and not to obtain to conclude that an example belongs the same classroom of another example, for having all its different conditional attributes between itself. To make possible the implementation of the proposal, it was necessary to introduce a simplification in the operation matrices, therefore its dimensions, for definition, are very great. With this, it was concluded its implementation, and in the sequence, the evaluation. The evaluations results, in the generality, had been satisfactory, with exception of some points that are displayed and argued in chapters 7 and 8 of this work.porMineração de DadosInteligência ArtificialEnergia ElétricaUma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Setsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPinto, João Onofre PereiraTeruya, Andersoninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMSinstname:Universidade Federal de Mato Grosso do Sul (UFMS)instacron:UFMSTHUMBNAILAnderson Teruya.pdf.jpgAnderson Teruya.pdf.jpgGenerated Thumbnailimage/jpeg1346https://repositorio.ufms.br/bitstream/123456789/621/4/Anderson%20Teruya.pdf.jpg0a0d4eee8c07305fd4d89ecd28b2c069MD54TEXTAnderson Teruya.pdf.txtAnderson Teruya.pdf.txtExtracted texttext/plain178881https://repositorio.ufms.br/bitstream/123456789/621/3/Anderson%20Teruya.pdf.txt0bd3af9cb9cc0e81dec6360bb9b606dcMD53ORIGINALAnderson Teruya.pdfAnderson Teruya.pdfapplication/pdf571027https://repositorio.ufms.br/bitstream/123456789/621/1/Anderson%20Teruya.pdffebaba89843b210298c97b96917e55a4MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufms.br/bitstream/123456789/621/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/6212021-09-30 15:56:49.551oai:repositorio.ufms.br:123456789/621Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufms.br/oai/requestri.prograd@ufms.bropendoar:21242021-09-30T19:56:49Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)false
dc.title.pt_BR.fl_str_mv Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
title Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
spellingShingle Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
Teruya, Anderson
Mineração de Dados
Inteligência Artificial
Energia Elétrica
title_short Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
title_full Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
title_fullStr Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
title_full_unstemmed Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
title_sort Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
author Teruya, Anderson
author_facet Teruya, Anderson
author_role author
dc.contributor.advisor1.fl_str_mv Pinto, João Onofre Pereira
dc.contributor.author.fl_str_mv Teruya, Anderson
contributor_str_mv Pinto, João Onofre Pereira
dc.subject.por.fl_str_mv Mineração de Dados
Inteligência Artificial
Energia Elétrica
topic Mineração de Dados
Inteligência Artificial
Energia Elétrica
description Nesta dissertação de Mestrado, propõe-se uma nova metodologia de Seleção de Subconjuntos de Atributos, a ser utilizada no processo de extração de conhecimento de base de dados. As bases de dados, dimensionadas para diversos fins, possuem em sua essência, o conhecimento intrínseco ao sistema de sua aplicação. Esse conhecimento é muito valioso e importante para tomadas de decisões estratégicas nesse sistema. Assim, a proposta da Inteligência Artificial, através da subárea Mineração de Dados, é extrair esse conhecimento de bases de dados de forma automática. Com isso, introduziu-se o conceito de KDD, que implica em um processo de extração de conhecimento de base de dados. Uma das etapas do KDD é a Seleção de Subconjuntos de Atributos (SSA) que tem por objetivo analisar uma base de dados e eliminar atributos não importantes para o conhecimento a ser extraído, assim reduzindo o volume de dados a ser analisado, sem que haja alterações significativas no seu conteúdo. Então, analisando as metodologias de SSA existentes, em especial, Redutos na Teoria de Rough Sets, FOCUS e FOCUS-2, verificou-se que em Redutos selecionam-se atributos condicionais sem considerar o atributo de decisão que é o objeto do conhecimento a ser extraído. E na FOCUS e FOCUS-2, que aplica conceitos semelhantes à metodologia Redutos, implicando em análise de todas as combinações de exemplos (dois a dois), verifica-se que a aplicação ocorre para pares de exemplos pertencentes a classes diferentes, dessa forma considerando o atributo de decisão. A partir dessa análise, elaborou-se a metodologia proposta neste trabalho, que utiliza os conceitos introduzidos na Teoria de Rough Sets, com um diferencial na composição da Matriz de Discernimento. Esse diferencial considera o atributo de decisão na composição dessa matriz, como em FOCUS e FOCUS-2, indo mais além, por prover um tratamento diferenciado para exemplos pertencentes a mesma classe. Pois, criou-se a hipótese de um subconjunto de atributos, apontado por essa metodologia de SSA, conseguir distinguir todos os exemplos pertencentes a classes diferentes e não conseguir concluir que um exemplo pertence a mesma classe de outro exemplo, por ter todos os seus atributos condicionais diferentes entre si. Para viabilizar a implementação da proposta foi necessário introduzir uma simplificação nas matrizes de operação, pois suas dimensões, por definição, são muito grandes. Com isso, concluiu-se a sua implementação, e na seqüência a avaliação. Os resultados das avaliações, no geral, foram satisfatórios, com exceção de alguns pontos que são expostos e discutidos nos capítulos 7 e 8 deste trabalho.
publishDate 2008
dc.date.issued.fl_str_mv 2008
dc.date.accessioned.fl_str_mv 2011-10-24T11:43:00Z
dc.date.available.fl_str_mv 2021-09-30T19:56:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufms.br/handle/123456789/621
url https://repositorio.ufms.br/handle/123456789/621
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMS
instname:Universidade Federal de Mato Grosso do Sul (UFMS)
instacron:UFMS
instname_str Universidade Federal de Mato Grosso do Sul (UFMS)
instacron_str UFMS
institution UFMS
reponame_str Repositório Institucional da UFMS
collection Repositório Institucional da UFMS
bitstream.url.fl_str_mv https://repositorio.ufms.br/bitstream/123456789/621/4/Anderson%20Teruya.pdf.jpg
https://repositorio.ufms.br/bitstream/123456789/621/3/Anderson%20Teruya.pdf.txt
https://repositorio.ufms.br/bitstream/123456789/621/1/Anderson%20Teruya.pdf
https://repositorio.ufms.br/bitstream/123456789/621/2/license.txt
bitstream.checksum.fl_str_mv 0a0d4eee8c07305fd4d89ecd28b2c069
0bd3af9cb9cc0e81dec6360bb9b606dc
febaba89843b210298c97b96917e55a4
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)
repository.mail.fl_str_mv ri.prograd@ufms.br
_version_ 1845881987132293120