[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
MAXWELL
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=2 http://doi.org/10.17771/PUCRio.acad.66770 |
Resumo: | [pt] Modelos de Aprendizado Profundo para classificação de imagens alcançaram o estado da arte em um vasto campo de aplicações. Entretanto, é frequente deparar-se com amostras ruidosas, isto é, amostras contendo rótulos incorretos, nos conjuntos de dados provenientes de aplicações do mundo real. Quando modelos de Aprendizado Profundo são treinados nestes conjuntos de dados, a sua performance é prejudicada. Modelos do estado da arte, como Co-teaching+ e Jocor, utilizam a técnica Small Loss Approach (SLA) para lidar com amostras ruidosas no cenário multiclasse. Nesse trabalho, foi desenvolvido uma nova técnica para lidar com amostras ruidosas, chamada Recovering Discarded Samples (RDS), que atua em conjunto com a SLA. Para demostrar a eficácia da técnica, aplicou-se o RDS nos modelos Co-teaching+ e Jocor resultando em dois novos modelos RDS-C e RDS-J. Os resultados indicam ganhos de até 6 por cento nas métricas de teste para ambos os modelos. Um terceiro modelo chamado RDS-Contrastive também foi desenvolvido, este modelo superou o estado da arte em até 4 por cento na acurácia de teste. Além disso, nesse trabalho, expandiu-se a técnica SLA para o cenário multilabel, sendo desenvolvido a técnica SLA Multilabel (SLAM). Com essa técnica foi desenvolvido mais dois modelos para cenário multilabel com amostras ruidosas. Os modelos desenvolvidos nesse trabalho para multiclasse foram utilizados em um problema real de cunho ambiental. Os modelos desenvolvidos para o cenário multilabel foram aplicados como solução para um problema real na área de óleo e gás. |
| id |
PUC_RIO-1_99df04a8f21b2b6a1fcf56884e8e181a |
|---|---|
| oai_identifier_str |
oai:MAXWELL.puc-rio.br:66770 |
| network_acronym_str |
PUC_RIO-1 |
| network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| repository_id_str |
|
| spelling |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES[pt] RDS - RECUPERANDO AMOSTRAS DESCARTADAS COM RÓTULOS RUIDOSOS: TÉCNICAS PARA TREINAMENTO DE MODELOS DE DEEP LEARNING COM AMOSTRAS RUIDOSAS[pt] APRENDIZADO PROFUNDO[pt] MULTICLASSE[pt] AMOSTRA RUIDOSA[pt] MULTILABEL[en] DEEP LEARNING[en] MULTICLASS[en] NOISY SAMPLE[en] MULTI-LABEL[pt] Modelos de Aprendizado Profundo para classificação de imagens alcançaram o estado da arte em um vasto campo de aplicações. Entretanto, é frequente deparar-se com amostras ruidosas, isto é, amostras contendo rótulos incorretos, nos conjuntos de dados provenientes de aplicações do mundo real. Quando modelos de Aprendizado Profundo são treinados nestes conjuntos de dados, a sua performance é prejudicada. Modelos do estado da arte, como Co-teaching+ e Jocor, utilizam a técnica Small Loss Approach (SLA) para lidar com amostras ruidosas no cenário multiclasse. Nesse trabalho, foi desenvolvido uma nova técnica para lidar com amostras ruidosas, chamada Recovering Discarded Samples (RDS), que atua em conjunto com a SLA. Para demostrar a eficácia da técnica, aplicou-se o RDS nos modelos Co-teaching+ e Jocor resultando em dois novos modelos RDS-C e RDS-J. Os resultados indicam ganhos de até 6 por cento nas métricas de teste para ambos os modelos. Um terceiro modelo chamado RDS-Contrastive também foi desenvolvido, este modelo superou o estado da arte em até 4 por cento na acurácia de teste. Além disso, nesse trabalho, expandiu-se a técnica SLA para o cenário multilabel, sendo desenvolvido a técnica SLA Multilabel (SLAM). Com essa técnica foi desenvolvido mais dois modelos para cenário multilabel com amostras ruidosas. Os modelos desenvolvidos nesse trabalho para multiclasse foram utilizados em um problema real de cunho ambiental. Os modelos desenvolvidos para o cenário multilabel foram aplicados como solução para um problema real na área de óleo e gás.[en] Deep Learning models designed for image classification have consistently achieved state-of-the-art performance across a plethora of applications. However, the presence of noisy samples, i.e., instances with incorrect labels, is a prevalent challenge in datasets derived from real-world applications. The training of Deep Learning models on such datasets inevitably compromises their performance. State-of-the-art models, such as Co-teaching+ and Jocor, utilize the Small Loss Approach (SLA) technique to handle noisy samples in a multi-class scenario. In this work, a new technique named Recovering Discarded Samples (RDS) was developed to address noisy samples, working with SLA. To demonstrate the effectiveness of the technique, RDS was applied to the Co-teaching+ and Jocor models, resulting in two new models, RDS-C and RDS-J. The results indicate gains of up to 6 percent in test metrics for both models. A third model, named RDS-Contrastive, was also developed, surpassing the state-of-the-art by up to 4 percent in test accuracy. Furthermore, this work extended the SLA technique to the multilabel scenario, leading to the development of the SLA Multilabel (SLAM) technique. With this technique, two additional models for the multilabel scenario with noisy samples were developed. The models proposed in this work for the multiclass scenario were applied in a real-world environmental solution, while the models developed for the multilabel scenario were implemented as a solution for a real problem in the oil and gas industry.MAXWELLMARCO AURELIO CAVALCANTI PACHECOMARCO AURELIO CAVALCANTI PACHECOMARCO AURELIO CAVALCANTI PACHECOVITOR BENTO DE SOUSA2024-05-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=2http://doi.org/10.17771/PUCRio.acad.66770porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2024-05-29T00:00:00Zoai:MAXWELL.puc-rio.br:66770Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342024-05-29T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
| dc.title.none.fl_str_mv |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES [pt] RDS - RECUPERANDO AMOSTRAS DESCARTADAS COM RÓTULOS RUIDOSOS: TÉCNICAS PARA TREINAMENTO DE MODELOS DE DEEP LEARNING COM AMOSTRAS RUIDOSAS |
| title |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES |
| spellingShingle |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES VITOR BENTO DE SOUSA [pt] APRENDIZADO PROFUNDO [pt] MULTICLASSE [pt] AMOSTRA RUIDOSA [pt] MULTILABEL [en] DEEP LEARNING [en] MULTICLASS [en] NOISY SAMPLE [en] MULTI-LABEL |
| title_short |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES |
| title_full |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES |
| title_fullStr |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES |
| title_full_unstemmed |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES |
| title_sort |
[en] RDS - RECOVERING DISCARDED SAMPLES WITH NOISY LABELS: TECHNIQUES FOR TRAINING DEEP LEARNING MODELS WITH NOISY SAMPLES |
| author |
VITOR BENTO DE SOUSA |
| author_facet |
VITOR BENTO DE SOUSA |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
MARCO AURELIO CAVALCANTI PACHECO MARCO AURELIO CAVALCANTI PACHECO MARCO AURELIO CAVALCANTI PACHECO |
| dc.contributor.author.fl_str_mv |
VITOR BENTO DE SOUSA |
| dc.subject.por.fl_str_mv |
[pt] APRENDIZADO PROFUNDO [pt] MULTICLASSE [pt] AMOSTRA RUIDOSA [pt] MULTILABEL [en] DEEP LEARNING [en] MULTICLASS [en] NOISY SAMPLE [en] MULTI-LABEL |
| topic |
[pt] APRENDIZADO PROFUNDO [pt] MULTICLASSE [pt] AMOSTRA RUIDOSA [pt] MULTILABEL [en] DEEP LEARNING [en] MULTICLASS [en] NOISY SAMPLE [en] MULTI-LABEL |
| description |
[pt] Modelos de Aprendizado Profundo para classificação de imagens alcançaram o estado da arte em um vasto campo de aplicações. Entretanto, é frequente deparar-se com amostras ruidosas, isto é, amostras contendo rótulos incorretos, nos conjuntos de dados provenientes de aplicações do mundo real. Quando modelos de Aprendizado Profundo são treinados nestes conjuntos de dados, a sua performance é prejudicada. Modelos do estado da arte, como Co-teaching+ e Jocor, utilizam a técnica Small Loss Approach (SLA) para lidar com amostras ruidosas no cenário multiclasse. Nesse trabalho, foi desenvolvido uma nova técnica para lidar com amostras ruidosas, chamada Recovering Discarded Samples (RDS), que atua em conjunto com a SLA. Para demostrar a eficácia da técnica, aplicou-se o RDS nos modelos Co-teaching+ e Jocor resultando em dois novos modelos RDS-C e RDS-J. Os resultados indicam ganhos de até 6 por cento nas métricas de teste para ambos os modelos. Um terceiro modelo chamado RDS-Contrastive também foi desenvolvido, este modelo superou o estado da arte em até 4 por cento na acurácia de teste. Além disso, nesse trabalho, expandiu-se a técnica SLA para o cenário multilabel, sendo desenvolvido a técnica SLA Multilabel (SLAM). Com essa técnica foi desenvolvido mais dois modelos para cenário multilabel com amostras ruidosas. Os modelos desenvolvidos nesse trabalho para multiclasse foram utilizados em um problema real de cunho ambiental. Os modelos desenvolvidos para o cenário multilabel foram aplicados como solução para um problema real na área de óleo e gás. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-05-20 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=2 http://doi.org/10.17771/PUCRio.acad.66770 |
| url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=66770&idi=2 http://doi.org/10.17771/PUCRio.acad.66770 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
MAXWELL |
| publisher.none.fl_str_mv |
MAXWELL |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
| instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
| instacron_str |
PUC_RIO |
| institution |
PUC_RIO |
| reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
| repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
| repository.mail.fl_str_mv |
|
| _version_ |
1856395967848251392 |