Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Alexandre Wagner Chagas Faria
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/BUBD-ADLMQR
Resumo: Multiple Instance Learning (MIL) is a generalization of the supervised learning. MIL has been used in numerous applications where the instance labeling for individual instance, for the learning step, is sometimes not possible or unfeasible in practical way. For dealing with this family of problem, MIL proposes a new paradigm by assigning asingle label (positive or negative) to a set of instances, called bag. More formally, a bag is labeled positive if it contains at least one positive instance, and it is labeled negative if all instances are certainly negative.Although there is a considerable number of algorithms to work with MIL in the literature, few works provides balanced outcomes for the majority of the datasets. Furthermore, a deeper analysis, among the existing methods, is not available. In this work are proposed two new algorithms based on instance selection by likelihood computation, using Kernel Density Estimation. The approach uses the LogitBoost algorithmas classier. The instance selection approach aim to identify the most representative instances in each positive bag, eliminating possible instance noise inside those bags, in this way, perform a more robust learning step. Statistical tests, have demonstrated that the proposal methods are comparable with the best literature algorithms, overcoming all in some datasets. It is also developed in this work a new application based on the proposed method in order to select patients that best represent each class in a Leukemia dataset. After experiments, itwas possible to reduce the training patients by half, and nd slightly better results than those when is used all patients in the dataset.
id UFMG_883c746a838c2cf3f825d56baaadfc7e
oai_identifier_str oai:repositorio.ufmg.br:1843/BUBD-ADLMQR
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por KernelEngenharia elétricaEngenharia elétricaAprendizado de múltiplas instânciasKernel, Funções deMultiple Instance Learning (MIL) is a generalization of the supervised learning. MIL has been used in numerous applications where the instance labeling for individual instance, for the learning step, is sometimes not possible or unfeasible in practical way. For dealing with this family of problem, MIL proposes a new paradigm by assigning asingle label (positive or negative) to a set of instances, called bag. More formally, a bag is labeled positive if it contains at least one positive instance, and it is labeled negative if all instances are certainly negative.Although there is a considerable number of algorithms to work with MIL in the literature, few works provides balanced outcomes for the majority of the datasets. Furthermore, a deeper analysis, among the existing methods, is not available. In this work are proposed two new algorithms based on instance selection by likelihood computation, using Kernel Density Estimation. The approach uses the LogitBoost algorithmas classier. The instance selection approach aim to identify the most representative instances in each positive bag, eliminating possible instance noise inside those bags, in this way, perform a more robust learning step. Statistical tests, have demonstrated that the proposal methods are comparable with the best literature algorithms, overcoming all in some datasets. It is also developed in this work a new application based on the proposed method in order to select patients that best represent each class in a Leukemia dataset. After experiments, itwas possible to reduce the training patients by half, and nd slightly better results than those when is used all patients in the dataset.Aprendizado de Múltiplas Instâncias (AMI) é uma generalização do aprendizado supervisionado. AMI tem sido utilizado em inúmeras aplicações, em que a rotulação para cada instância na fase de aprendizado é, às vezes, impossível ou não eciente de ser realizada de forma prática. A m de lidar com essa família de problemas, o AMI propõe um novo paradigma, assinalando um único rótulo (positivo ou negativo) para um conjunto de instâncias, chamado de bags. Mais formalmente, um bag é rotulado como positivo se contém, ao menos, uma instânciapositiva e rotulado como negativo se é conhecido, com certeza, que todas as suas instâncias são negativas. Embora exista, na literatura, um número expressivo de propostas para trabalhar com AMI, poucos métodos fornecem resultados competitivos para a maioria das bases de dados avaliadas. Além disso, falta uma análise mais aprofundada entre os métodos existentes. Neste trabalho são propostos dois novos algoritmos, baseados em seleção de instâncias por meio do cálculo da probabilidade, utilizando-se Estimador de Densidade por Kernel. O método utiliza o algoritmo LogitBoost como classicador. As abordagens baseadas em seleção de instâncias visam identicar as instâncias mais representativas em cada bag positivo, eliminando possíveis ruídos dentro desses bags para, assim, realizar um treinamento mais robusto.Testes estatísticos demonstraram que as abordagens propostas são equivalentes aos melhores algoritmos da literatura, superando todos em algumas das bases avaliadas. Também foi desenvolvida nesta tese uma nova aplicação, com base na metodologia proposta, com objetivo de selecionar pacientes que melhor representem cada classe em uma base de dados conhecida de Leucemia. Os experimentos mostram que com o emprego das abordagens propostas, foi possível reduzir, pela metade, os pacientes de treinamento e encontrar resultados ligeiramente melhores em relação àqueles que aqueles quando empregados todos os pacientes da base.Universidade Federal de Minas GeraisUFMGAntonio de Padua BragaAndre Paim LemosCristiano Leite de CastroDavid Menotti GomesLuis Enrique ZárateFrank Still TorresAlexandre Wagner Chagas Faria2019-08-13T09:11:09Z2019-08-13T09:11:09Z2016-08-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/1843/BUBD-ADLMQRinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2019-11-15T01:17:04Zoai:repositorio.ufmg.br:1843/BUBD-ADLMQRRepositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2019-11-15T01:17:04Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
title Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
spellingShingle Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
Alexandre Wagner Chagas Faria
Engenharia elétrica
Engenharia elétrica
Aprendizado de múltiplas instâncias
Kernel, Funções de
title_short Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
title_full Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
title_fullStr Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
title_full_unstemmed Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
title_sort Uma nova abordagem para aprendizado de múltiplas instâncias, baseada em seleção de instâncias via estimador de densidade por Kernel
author Alexandre Wagner Chagas Faria
author_facet Alexandre Wagner Chagas Faria
author_role author
dc.contributor.none.fl_str_mv Antonio de Padua Braga
Andre Paim Lemos
Cristiano Leite de Castro
David Menotti Gomes
Luis Enrique Zárate
Frank Still Torres
dc.contributor.author.fl_str_mv Alexandre Wagner Chagas Faria
dc.subject.por.fl_str_mv Engenharia elétrica
Engenharia elétrica
Aprendizado de múltiplas instâncias
Kernel, Funções de
topic Engenharia elétrica
Engenharia elétrica
Aprendizado de múltiplas instâncias
Kernel, Funções de
description Multiple Instance Learning (MIL) is a generalization of the supervised learning. MIL has been used in numerous applications where the instance labeling for individual instance, for the learning step, is sometimes not possible or unfeasible in practical way. For dealing with this family of problem, MIL proposes a new paradigm by assigning asingle label (positive or negative) to a set of instances, called bag. More formally, a bag is labeled positive if it contains at least one positive instance, and it is labeled negative if all instances are certainly negative.Although there is a considerable number of algorithms to work with MIL in the literature, few works provides balanced outcomes for the majority of the datasets. Furthermore, a deeper analysis, among the existing methods, is not available. In this work are proposed two new algorithms based on instance selection by likelihood computation, using Kernel Density Estimation. The approach uses the LogitBoost algorithmas classier. The instance selection approach aim to identify the most representative instances in each positive bag, eliminating possible instance noise inside those bags, in this way, perform a more robust learning step. Statistical tests, have demonstrated that the proposal methods are comparable with the best literature algorithms, overcoming all in some datasets. It is also developed in this work a new application based on the proposed method in order to select patients that best represent each class in a Leukemia dataset. After experiments, itwas possible to reduce the training patients by half, and nd slightly better results than those when is used all patients in the dataset.
publishDate 2016
dc.date.none.fl_str_mv 2016-08-12
2019-08-13T09:11:09Z
2019-08-13T09:11:09Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUBD-ADLMQR
url http://hdl.handle.net/1843/BUBD-ADLMQR
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
UFMG
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1835273056669401088