Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Barros, Ana Luiza Bessa de Paula
Orientador(a): Barreto, Guilherme de Alencar
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.ufc.br/handle/riufc/8003
Resumo: This thesis addresses the problem of data classification when they are contaminated with atypical patterns. These patterns, generally called outliers, are omnipresent in real-world multi- variate data sets, but their a priori detection (i.e. before training the classifier) is a difficult task to perform. As a result, the most common approach is the reactive one, in which one suspects of the presence of outliers in the data only after a previously trained classifier has achieved a low performance. Several strategies can then be carried out to improve the performance of the classifier, such as to choose a more computationally powerful classifier and/or to remove the de- tected outliers from data, eliminating those patterns which are difficult to categorize properly. Whatever the strategy adopted, the presence of outliers will always require more attention and care during the design of a pattern classifier. Bearing these difficulties in mind, this thesis revi- sits concepts and techniques from the theory of robust regression, in particular those related to M-estimation, adapting them to the design of pattern classifiers which are able to automatically handle outliers. This adaptation leads to the proposal of robust versions of two pattern classi- fiers widely used in the literature, namely, least squares classifier (LSC) and extreme learning machine (ELM). Through a comprehensive set of computer experiments using synthetic and real-world data, it is shown that the proposed robust classifiers consistently outperform their original versions.
id UFC-7_ebc3e8404478c997464e472fe4db82c4
oai_identifier_str oai:repositorio.ufc.br:riufc/8003
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Barros, Ana Luiza Bessa de PaulaBarreto, Guilherme de Alencar2014-05-07T19:09:33Z2014-05-07T19:09:33Z2013BARROS, A. L. B. P. Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta. 2013. 132 f. Tese (Doutorado em Engenharia de Teleinformática)-Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2013.http://www.repositorio.ufc.br/handle/riufc/8003This thesis addresses the problem of data classification when they are contaminated with atypical patterns. These patterns, generally called outliers, are omnipresent in real-world multi- variate data sets, but their a priori detection (i.e. before training the classifier) is a difficult task to perform. As a result, the most common approach is the reactive one, in which one suspects of the presence of outliers in the data only after a previously trained classifier has achieved a low performance. Several strategies can then be carried out to improve the performance of the classifier, such as to choose a more computationally powerful classifier and/or to remove the de- tected outliers from data, eliminating those patterns which are difficult to categorize properly. Whatever the strategy adopted, the presence of outliers will always require more attention and care during the design of a pattern classifier. Bearing these difficulties in mind, this thesis revi- sits concepts and techniques from the theory of robust regression, in particular those related to M-estimation, adapting them to the design of pattern classifiers which are able to automatically handle outliers. This adaptation leads to the proposal of robust versions of two pattern classi- fiers widely used in the literature, namely, least squares classifier (LSC) and extreme learning machine (ELM). Through a comprehensive set of computer experiments using synthetic and real-world data, it is shown that the proposed robust classifiers consistently outperform their original versions.Nesta tese, aborda-se o problema de classificação de dados que estão contaminados com pa- drões atípicos. Tais padrões, genericamente chamados de outliers, são onipresentes em conjunto de dados multivariados reais, porém sua detecção a priori (i.e antes de treinar um classificador) é uma tarefa de difícil realização. Como conseqüência, uma abordagem reativa, em que se desconfia da presença de outliers somente após um classificador previamente treinado apresen- tar baixo desempenho, é a mais comum. Várias estratégias podem então ser levadas a cabo a fim de melhorar o desempenho do classificador, dentre elas escolher um classificador mais poderoso computacionalmente ou promover uma limpeza dos dados, eliminando aqueles pa- drões difíceis de categorizar corretamente. Qualquer que seja a estratégia adotada, a presença de outliers sempre irá requerer maior atenção e cuidado durante o projeto de um classificador de padrões. Tendo estas dificuldades em mente, nesta tese são revisitados conceitos e técni- cas provenientes da teoria de regressão robusta, em particular aqueles relacionados à estimação M, adaptando-os ao projeto de classificadores de padrões capazes de lidar automaticamente com outliers. Esta adaptação leva à proposição de versões robustas de dois classificadores de padrões amplamente utilizados na literatura, a saber, o classificador linear dos mínimos qua- drados (least squares classifier, LSC) e a máquina de aprendizado extremo (extreme learning machine, ELM). Através de uma ampla gama de experimentos computacionais, usando dados sintéticos e reais, mostra-se que as versões robustas dos classificadores supracitados apresentam desempenho consistentemente superior aos das versões originais.TeleinformáticaReconhecimento de padrõesProteção de dadosRevisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robustaRevisiting the problem of pattern classification in the presence of outliers using robust regression techniquesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccessORIGINAL2013_tese_albpbarros.pdf2013_tese_albpbarros.pdfapplication/pdf1388726http://repositorio.ufc.br/bitstream/riufc/8003/1/2013_tese_albpbarros.pdf538397168fecf8499a0d2f56c55e7ca9MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81786http://repositorio.ufc.br/bitstream/riufc/8003/2/license.txt8c4401d3d14722a7ca2d07c782a1aab3MD52riufc/80032018-11-27 15:59:05.094oai:repositorio.ufc.br:riufc/8003w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYQpsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0KY29udGF0byBhdHJhdsOpcyBkZTogcmVwb3NpdG9yaW9AdWZjLmJyIG91ICg4NSkzMzY2LTk1MDguCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gQ2VhcsOhIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZQpyZXByb2R1emlyLCBjb252ZXJ0ZXIgKGNvbW8gZGVmaW5pZG8gYWJhaXhvKSwgY29tdW5pY2FyIGUvb3UKZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbQpmb3JtYXRvIGRpZ2l0YWwgb3UgaW1wcmVzc28gZSBlbSBxdWFscXVlciBtZWlvLgoKYikgRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZQpkZXTDqW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBEZWNsYXJhIHRhbWLDqW0gcXVlIGEgZW50cmVnYSBkbyBkb2N1bWVudG8gbsOjbyBpbmZyaW5nZSwgdGFudG8gcXVhbnRvIGxoZSDDqSBwb3Nzw612ZWwgc2FiZXIsIG9zIGRpcmVpdG9zIGRlIHF1YWxxdWVyIG91dHJhIHBlc3NvYSBvdSBlbnRpZGFkZS4KCmMpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gQ2VhcsOhIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8KcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBDZWFyw6EsIGRlY2xhcmEgcXVlIGN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBDZWFyw6EgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgc2V1IChzKSBub21lIChzKSBjb21vIG8gKHMpIGF1dG9yIChlcykgb3UgZGV0ZW50b3IgKGVzKSBkb3MgZGlyZWl0b3MgZG8gZG9jdW1lbnRvIGVudHJlZ3VlLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2018-11-27T18:59:05Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
dc.title.en.pt_BR.fl_str_mv Revisiting the problem of pattern classification in the presence of outliers using robust regression techniques
title Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
spellingShingle Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
Barros, Ana Luiza Bessa de Paula
Teleinformática
Reconhecimento de padrões
Proteção de dados
title_short Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
title_full Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
title_fullStr Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
title_full_unstemmed Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
title_sort Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta
author Barros, Ana Luiza Bessa de Paula
author_facet Barros, Ana Luiza Bessa de Paula
author_role author
dc.contributor.author.fl_str_mv Barros, Ana Luiza Bessa de Paula
dc.contributor.advisor1.fl_str_mv Barreto, Guilherme de Alencar
contributor_str_mv Barreto, Guilherme de Alencar
dc.subject.por.fl_str_mv Teleinformática
Reconhecimento de padrões
Proteção de dados
topic Teleinformática
Reconhecimento de padrões
Proteção de dados
description This thesis addresses the problem of data classification when they are contaminated with atypical patterns. These patterns, generally called outliers, are omnipresent in real-world multi- variate data sets, but their a priori detection (i.e. before training the classifier) is a difficult task to perform. As a result, the most common approach is the reactive one, in which one suspects of the presence of outliers in the data only after a previously trained classifier has achieved a low performance. Several strategies can then be carried out to improve the performance of the classifier, such as to choose a more computationally powerful classifier and/or to remove the de- tected outliers from data, eliminating those patterns which are difficult to categorize properly. Whatever the strategy adopted, the presence of outliers will always require more attention and care during the design of a pattern classifier. Bearing these difficulties in mind, this thesis revi- sits concepts and techniques from the theory of robust regression, in particular those related to M-estimation, adapting them to the design of pattern classifiers which are able to automatically handle outliers. This adaptation leads to the proposal of robust versions of two pattern classi- fiers widely used in the literature, namely, least squares classifier (LSC) and extreme learning machine (ELM). Through a comprehensive set of computer experiments using synthetic and real-world data, it is shown that the proposed robust classifiers consistently outperform their original versions.
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2014-05-07T19:09:33Z
dc.date.available.fl_str_mv 2014-05-07T19:09:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BARROS, A. L. B. P. Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta. 2013. 132 f. Tese (Doutorado em Engenharia de Teleinformática)-Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2013.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufc.br/handle/riufc/8003
identifier_str_mv BARROS, A. L. B. P. Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta. 2013. 132 f. Tese (Doutorado em Engenharia de Teleinformática)-Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2013.
url http://www.repositorio.ufc.br/handle/riufc/8003
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/8003/1/2013_tese_albpbarros.pdf
http://repositorio.ufc.br/bitstream/riufc/8003/2/license.txt
bitstream.checksum.fl_str_mv 538397168fecf8499a0d2f56c55e7ca9
8c4401d3d14722a7ca2d07c782a1aab3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793216022118400