Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados
Ano de defesa: | 2018 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , , , |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Goiás
|
Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação em Rede UFG/UFMS (INF)
|
Departamento: |
Instituto de Informática - INF (RG)
|
País: |
Brasil
|
Palavras-chave em Português: | |
Palavras-chave em Inglês: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.bc.ufg.br/tede/handle/tede/11066 |
Resumo: | Data mining is an emerging area due to the increasing amount of data available in a variety of fields. In this context twin support vector machine (TWSVM) has attracted the attention of several researchers. In this thesis, we developed a feature selector algorithm and an algorithm for multi-class problems based on TWSVM. This learning algorithm with ternary outputs {- 1,0,+1 } is based on the Vapnik support vector theory, and evaluates all training samples with a 1-×-1-×-rest structure during the decomposition phase. One of the main advantages of the proposed algorithm is the use of the least squares version for multi-class problems, where it is necessary to solve two systems of linear equations instead of two quadratic programming problems in TWSVM. We also implemented the principle of minimization of structural risk in order to improve the generalizability. The Sherman-Morisson-Woodbury formula is applied to reduce the complexity of the non-linear formulation of the algorithm. We also apply data mining techniques that combine the use of analytical technique with data mining algorithms in the classification of several samples. The developed framework could be an excellent tool for detecting different types of fraud, verifying if products were grown in organic or conventional systems, as well as tracing the region of origin of wine made from a given type of grape. |
id |
UFG-2_321776cd63e643113bf301fde34d740d |
---|---|
oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/11066 |
network_acronym_str |
UFG-2 |
network_name_str |
Repositório Institucional da UFG |
repository_id_str |
|
spelling |
Barbosa, Rommel Melgaçohttp://lattes.cnpq.br/6228227125338610Barbosa, Rommel MelgaçoSantos, Helton Saulo Bezerra dosLozano, Kátia Kelvis CassianoCosta, Ronaldo Martins daRosa, Thierson Coutohttp://lattes.cnpq.br/0871622130269869Lima, Márcio Dias de2021-01-26T14:04:28Z2021-01-26T14:04:28Z2018-12-07LIMA, M. D. Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados. 2018. 127 f. Tese (Doutorado em Ciência da Computação em Rede) - Universidade Federal de Goiás, Goiânia, 2018.http://repositorio.bc.ufg.br/tede/handle/tede/11066Data mining is an emerging area due to the increasing amount of data available in a variety of fields. In this context twin support vector machine (TWSVM) has attracted the attention of several researchers. In this thesis, we developed a feature selector algorithm and an algorithm for multi-class problems based on TWSVM. This learning algorithm with ternary outputs {- 1,0,+1 } is based on the Vapnik support vector theory, and evaluates all training samples with a 1-×-1-×-rest structure during the decomposition phase. One of the main advantages of the proposed algorithm is the use of the least squares version for multi-class problems, where it is necessary to solve two systems of linear equations instead of two quadratic programming problems in TWSVM. We also implemented the principle of minimization of structural risk in order to improve the generalizability. The Sherman-Morisson-Woodbury formula is applied to reduce the complexity of the non-linear formulation of the algorithm. We also apply data mining techniques that combine the use of analytical technique with data mining algorithms in the classification of several samples. The developed framework could be an excellent tool for detecting different types of fraud, verifying if products were grown in organic or conventional systems, as well as tracing the region of origin of wine made from a given type of grape.Mineração de dados é uma área emergente, devido à quantidade crescente de dados produzidos nas mais variadas áreas. Neste contexto, as máquinas de vetores de suportes duplos (TWSVM) têm recebido muita atenção por partes de pesquisadores. Elaboramos um algoritmo seletor de variáveis e um algoritmo para problemas de múltiplas classes baseado no TWSVM. Esse algoritmo de aprendizagem com saídas ternárias {-1,0,+1} é baseado na teoria de vetores de suporte de Vapnik, e avalia todas as amostras de treinamento com uma estrutura 1-×-1-×-restante, durante a fase de decomposição. Uma das principais vantagens do algoritmo proposto é que utilizamos a versão mínimos quadrados para problemas de múltiplas classes, onde é necessário resolver dois sistemas de equações lineares, ao contrário do TWSVM em que é necessário resolver dois problemas de programação quadrática. Implementamos o princípio de minimização do risco estrutural, a fim de melhorar a habilidade de generalização. Utilizamos a fórmula de Sherman-Morisson-Woodbury com o intuito de reduzir a complexidade na formulação não linear do algoritmo. Abordamos também aplicações de técnicas de mineração de dados que combinam a utilização de técnicas analíticas com algoritmos de mineração de dados na classificação de diversas amostras, podendo ser considerada uma excelente ferramenta na detecção de fraudes de diversos tipos, como na verificação de produtos cultivados nos sistemas orgânicos ou convencional, a fim de diferenciá-los, e também na verificação quanto a origem geográfica de vinhos produzidos de um determinado tipo de uva.Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2021-01-25T21:22:24Z No. of bitstreams: 2 Tese - Márcio Dias de Lima - 2018.pdf: 2238484 bytes, checksum: 3488de15a7663f59f36675e2169a4958 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2021-01-26T14:04:28Z (GMT) No. of bitstreams: 2 Tese - Márcio Dias de Lima - 2018.pdf: 2238484 bytes, checksum: 3488de15a7663f59f36675e2169a4958 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)Made available in DSpace on 2021-01-26T14:04:28Z (GMT). No. of bitstreams: 2 Tese - Márcio Dias de Lima - 2018.pdf: 2238484 bytes, checksum: 3488de15a7663f59f36675e2169a4958 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2018-12-07OutroporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação em Rede UFG/UFMS (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessMineração de dadosSVMTWSVMMínimos quadradosClassificaçãoData MiningLeast squaresClassificationCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOMínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dadosLeast squares for multiple class problems involving twin support vector machine and data mining applicationsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis20500500500500261265reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/8522aa4f-0913-49f1-9a42-617e22db8046/download8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALTese - Márcio Dias de Lima - 2018.pdfTese - Márcio Dias de Lima - 2018.pdfapplication/pdf2238484http://repositorio.bc.ufg.br/tede/bitstreams/eabea4f9-7745-45df-a341-cd6712befb31/download3488de15a7663f59f36675e2169a4958MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/ef159870-055e-4cda-85fc-b7a5e40e950f/download4460e5956bc1d1639be9ae6146a50347MD52tede/110662021-01-26 11:05:41.895http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/11066http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2021-01-26T14:05:41Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
dc.title.pt_BR.fl_str_mv |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados |
dc.title.alternative.eng.fl_str_mv |
Least squares for multiple class problems involving twin support vector machine and data mining applications |
title |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados |
spellingShingle |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados Lima, Márcio Dias de Mineração de dados SVM TWSVM Mínimos quadrados Classificação Data Mining Least squares Classification CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
title_short |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados |
title_full |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados |
title_fullStr |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados |
title_full_unstemmed |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados |
title_sort |
Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados |
author |
Lima, Márcio Dias de |
author_facet |
Lima, Márcio Dias de |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Barbosa, Rommel Melgaço |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6228227125338610 |
dc.contributor.referee1.fl_str_mv |
Barbosa, Rommel Melgaço |
dc.contributor.referee2.fl_str_mv |
Santos, Helton Saulo Bezerra dos |
dc.contributor.referee3.fl_str_mv |
Lozano, Kátia Kelvis Cassiano |
dc.contributor.referee4.fl_str_mv |
Costa, Ronaldo Martins da |
dc.contributor.referee5.fl_str_mv |
Rosa, Thierson Couto |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/0871622130269869 |
dc.contributor.author.fl_str_mv |
Lima, Márcio Dias de |
contributor_str_mv |
Barbosa, Rommel Melgaço Barbosa, Rommel Melgaço Santos, Helton Saulo Bezerra dos Lozano, Kátia Kelvis Cassiano Costa, Ronaldo Martins da Rosa, Thierson Couto |
dc.subject.por.fl_str_mv |
Mineração de dados SVM TWSVM Mínimos quadrados Classificação |
topic |
Mineração de dados SVM TWSVM Mínimos quadrados Classificação Data Mining Least squares Classification CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Data Mining Least squares Classification |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
description |
Data mining is an emerging area due to the increasing amount of data available in a variety of fields. In this context twin support vector machine (TWSVM) has attracted the attention of several researchers. In this thesis, we developed a feature selector algorithm and an algorithm for multi-class problems based on TWSVM. This learning algorithm with ternary outputs {- 1,0,+1 } is based on the Vapnik support vector theory, and evaluates all training samples with a 1-×-1-×-rest structure during the decomposition phase. One of the main advantages of the proposed algorithm is the use of the least squares version for multi-class problems, where it is necessary to solve two systems of linear equations instead of two quadratic programming problems in TWSVM. We also implemented the principle of minimization of structural risk in order to improve the generalizability. The Sherman-Morisson-Woodbury formula is applied to reduce the complexity of the non-linear formulation of the algorithm. We also apply data mining techniques that combine the use of analytical technique with data mining algorithms in the classification of several samples. The developed framework could be an excellent tool for detecting different types of fraud, verifying if products were grown in organic or conventional systems, as well as tracing the region of origin of wine made from a given type of grape. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-12-07 |
dc.date.accessioned.fl_str_mv |
2021-01-26T14:04:28Z |
dc.date.available.fl_str_mv |
2021-01-26T14:04:28Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
LIMA, M. D. Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados. 2018. 127 f. Tese (Doutorado em Ciência da Computação em Rede) - Universidade Federal de Goiás, Goiânia, 2018. |
dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/11066 |
identifier_str_mv |
LIMA, M. D. Mínimos quadrados para problemas de múltiplas classes envolvendo twin support vector machine e aplicações de mineração de dados. 2018. 127 f. Tese (Doutorado em Ciência da Computação em Rede) - Universidade Federal de Goiás, Goiânia, 2018. |
url |
http://repositorio.bc.ufg.br/tede/handle/tede/11066 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
20 |
dc.relation.confidence.fl_str_mv |
500 500 500 500 |
dc.relation.department.fl_str_mv |
26 |
dc.relation.cnpq.fl_str_mv |
126 |
dc.relation.sponsorship.fl_str_mv |
5 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação em Rede UFG/UFMS (INF) |
dc.publisher.initials.fl_str_mv |
UFG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RG) |
publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
instname_str |
Universidade Federal de Goiás (UFG) |
instacron_str |
UFG |
institution |
UFG |
reponame_str |
Repositório Institucional da UFG |
collection |
Repositório Institucional da UFG |
bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/8522aa4f-0913-49f1-9a42-617e22db8046/download http://repositorio.bc.ufg.br/tede/bitstreams/eabea4f9-7745-45df-a341-cd6712befb31/download http://repositorio.bc.ufg.br/tede/bitstreams/ef159870-055e-4cda-85fc-b7a5e40e950f/download |
bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 3488de15a7663f59f36675e2169a4958 4460e5956bc1d1639be9ae6146a50347 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
repository.mail.fl_str_mv |
tasesdissertacoes.bc@ufg.br |
_version_ |
1798044994463858688 |