Medindo a dificuldade de instâncias para classificação em aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Torquette, Gustavo Pinto [UNIFESP]
Orientador(a): Lorena, Ana Carolina
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/48912/0013000020r63
Idioma: por
Instituição de defesa: Universidade Federal de São Paulo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.unifesp.br/handle/11600/70583
Resumo: A abordagem clássica para criar modelos de Aprendizado de Máquina para a solução de problemas de classificação é uma abordagem centrada nos modelos, na qual altera-se a técnica e seus hiperparâmetros para tentar melhorar o seu desempenho. No entanto, a qualidade dos dados é crucial para ajustar os melhores modelos e obter estimativas de desempenho mais precisas. Mas como podemos melhorar a qualidade dos dados? Primeiro, precisamos saber avaliar sua qualidade, pois sem medidas de avaliação não podemos comparar diferentes abordagens ou aprimorar resultados. Nesta dissertação, procuramos explorar meios de medir o nível de dificuldade em classificar cada observação de um conjunto de dados. A motivação é que instâncias difíceis de classificar podem ter problemas de qualidade que afetam o desempenho preditivo dos modelos de classificação. O objetivo da dissertação está em entender as propriedades dos dados que indicam quando técnicas de Aprendizado de Máquina devem obter sucesso ou falha; em que tipo de conjunto de dados uma medida de avaliação de dificuldade é mais recomendada em relação à outra; e também estudos de casos de como essas medidas podem ser utilizadas para auxílio prático dos cientistas de dados. Os resultados relataram que algumas medidas se mostraram eficazes para detectar os problemas propostos e que a aplicação prática empregada em conjuntos reais revelaram respostas coerentes, identificando instâncias que possivelmente merecem uma melhor inspeção sobre sua qualidade.
id UFSP_f44e1c92d719c63833c992cbc6830ea7
oai_identifier_str oai:repositorio.unifesp.br:11600/70583
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str
spelling http://lattes.cnpq.br/3451628262694747Torquette, Gustavo Pinto [UNIFESP]http://lattes.cnpq.br/6394878155964687Lorena, Ana Carolina2024-01-18T17:04:23Z2024-01-18T17:04:23Z2023-12-08A abordagem clássica para criar modelos de Aprendizado de Máquina para a solução de problemas de classificação é uma abordagem centrada nos modelos, na qual altera-se a técnica e seus hiperparâmetros para tentar melhorar o seu desempenho. No entanto, a qualidade dos dados é crucial para ajustar os melhores modelos e obter estimativas de desempenho mais precisas. Mas como podemos melhorar a qualidade dos dados? Primeiro, precisamos saber avaliar sua qualidade, pois sem medidas de avaliação não podemos comparar diferentes abordagens ou aprimorar resultados. Nesta dissertação, procuramos explorar meios de medir o nível de dificuldade em classificar cada observação de um conjunto de dados. A motivação é que instâncias difíceis de classificar podem ter problemas de qualidade que afetam o desempenho preditivo dos modelos de classificação. O objetivo da dissertação está em entender as propriedades dos dados que indicam quando técnicas de Aprendizado de Máquina devem obter sucesso ou falha; em que tipo de conjunto de dados uma medida de avaliação de dificuldade é mais recomendada em relação à outra; e também estudos de casos de como essas medidas podem ser utilizadas para auxílio prático dos cientistas de dados. Os resultados relataram que algumas medidas se mostraram eficazes para detectar os problemas propostos e que a aplicação prática empregada em conjuntos reais revelaram respostas coerentes, identificando instâncias que possivelmente merecem uma melhor inspeção sobre sua qualidade.Não recebi financiamentoana.lorena@gp.ita.br108TORQUETTE, Gustavo P. Medindo a dificuldade de instâncias para classificação em aprendizado de máquina,2023.https://repositorio.unifesp.br/handle/11600/70583ark:/48912/0013000020r63porUniversidade Federal de São Pauloinfo:eu-repo/semantics/openAccessmeta-aprendizadoaprendizado de máquinainteligência artificialciências de dadosdificuldade de instânciamedidas de dificuldadeMedindo a dificuldade de instâncias para classificação em aprendizado de máquinainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPInstituto de Ciência e Tecnologia (ICT)Ciência da ComputaçãoSistemas InteligentesInteligência Artificial e ciências de dadosTEXTDissertação final - Gustavo Pinto Torquette.pdf.txtDissertação final - Gustavo Pinto Torquette.pdf.txtExtracted texttext/plain103117https://repositorio.unifesp.br/bitstreams/cad4120e-fcff-4914-a589-320b5cf52bf8/downloadbd1231d439241f62e08c825dce2fc13bMD57THUMBNAILDissertação final - Gustavo Pinto Torquette.pdf.jpgDissertação final - Gustavo Pinto Torquette.pdf.jpgGenerated Thumbnailimage/jpeg3448https://repositorio.unifesp.br/bitstreams/6abadb9b-fe37-4711-bbb7-e2ecb8dec764/download0ea03cfd37a99e4b8b798ae464603d45MD58ORIGINALDissertação final - Gustavo Pinto Torquette.pdfDissertação final - Gustavo Pinto Torquette.pdfDissertação de mestradoapplication/pdf13361010https://repositorio.unifesp.br/bitstreams/76634f44-c881-46b0-a465-74d8eaf3749a/download23011e7adf11ece13ef24691a04b26dcMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-85844https://repositorio.unifesp.br/bitstreams/e7008174-8275-4482-993e-60e55e597baf/download60849b4088f691962ba3fff42f902d6fMD5211600/705832024-08-13 18:56:59.969oai:repositorio.unifesp.br:11600/70583https://repositorio.unifesp.brRepositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-13T18:56:59Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)falseVEVSTU9TIEUgQ09OREnDh8OVRVMgUEFSQSBPIExJQ0VOQ0lBTUVOVE8gRE8gQVJRVUlWQU1FTlRPLCBSRVBST0RVw4fDg08gRSBESVZVTEdBw4fDg08gUMOaQkxJQ0EgREUgQ09OVEXDmkRPIE5PIFJFUE9TSVTDk1JJTyBJTlNUSVRVQ0lPTkFMIFVOSUZFU1AKCjEuIEV1LCBHdXN0YXZvIFRvcnF1ZXR0ZSAoZ3VzdGF2by50b3JxdWV0dGVAdW5pZmVzcC5iciksIHJlc3BvbnPDoXZlbCBwZWxvIHRyYWJhbGhvIOKAnE1lZGluZG8gYSBkaWZpY3VsZGFkZSBkZSBpbnN0w6JuY2lhcyBwYXJhIGNsYXNzaWZpY2HDp8OjbyBlbSBhcHJlbmRpemFkbyBkZSBtw6FxdWluYeKAnSBlL291IHVzdcOhcmlvLWRlcG9zaXRhbnRlIG5vIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsYXNzZWd1cm8gbm8gcHJlc2VudGUgYXRvIHF1ZSBzb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgZGlyZWl0b3MgY29uZXhvcyByZWZlcmVudGVzIMOgIHRvdGFsaWRhZGUgZGEgT2JyYSBvcmEgZGVwb3NpdGFkYSBlbSBmb3JtYXRvIGRpZ2l0YWwsIGJlbSBjb21vIGRlIHNldXMgY29tcG9uZW50ZXMgbWVub3JlcywgZW0gc2UgdHJhdGFuZG8gZGUgb2JyYSBjb2xldGl2YSwgY29uZm9ybWUgbyBwcmVjZWl0dWFkbyBwZWxhIExlaSA5LjYxMC85OCBlL291IExlaSA5LjYwOS85OC4gTsOjbyBzZW5kbyBlc3RlIG8gY2FzbywgYXNzZWd1cm8gdGVyIG9idGlkbyBkaXJldGFtZW50ZSBkb3MgZGV2aWRvcyB0aXR1bGFyZXMgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlIHBhcmEgYSBkaXZ1bGdhw6fDo28gZGEgT2JyYSwgYWJyYW5nZW5kbyB0b2RvcyBvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmV4b3MgYWZldGFkb3MgcGVsYSBhc3NpbmF0dXJhIGRvIHByZXNlbnRlIHRlcm1vIGRlIGxpY2VuY2lhbWVudG8sIGRlIG1vZG8gYSBlZmV0aXZhbWVudGUgaXNlbnRhciBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIGUgc2V1cyBmdW5jaW9uw6FyaW9zIGRlIHF1YWxxdWVyIHJlc3BvbnNhYmlsaWRhZGUgcGVsbyB1c28gbsOjby1hdXRvcml6YWRvIGRvIG1hdGVyaWFsIGRlcG9zaXRhZG8sIHNlamEgZW0gdmluY3VsYcOnw6NvIGFvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsIHNlamEgZW0gdmluY3VsYcOnw6NvIGEgcXVhaXNxdWVyIHNlcnZpw6dvcyBkZSBidXNjYSBlIGRlIGRpc3RyaWJ1acOnw6NvIGRlIGNvbnRlw7pkbyBxdWUgZmHDp2FtIHVzbyBkYXMgaW50ZXJmYWNlcyBlIGVzcGHDp28gZGUgYXJtYXplbmFtZW50byBwcm92aWRlbmNpYWRvcyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGNvbmNvcmTDom5jaWEgY29tIGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2VxdcOqbmNpYSBhIHRyYW5zZmVyw6puY2lhLCBhIHTDrXR1bG8gbsOjby1leGNsdXNpdm8gZSBuw6NvLW9uZXJvc28sIGlzZW50YSBkbyBwYWdhbWVudG8gZGUgcm95YWx0aWVzIG91IHF1YWxxdWVyIG91dHJhIGNvbnRyYXByZXN0YcOnw6NvLCBwZWN1bmnDoXJpYSBvdSBuw6NvLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBkb3MgZGlyZWl0b3MgZGUgYXJtYXplbmFyIGRpZ2l0YWxtZW50ZSwgZGUgcmVwcm9kdXppciBlIGRlIGRpc3RyaWJ1aXIgbmFjaW9uYWwgZSBpbnRlcm5hY2lvbmFsbWVudGUgYSBPYnJhLCBpbmNsdWluZG8tc2UgbyBzZXUgcmVzdW1vL2Fic3RyYWN0LCBwb3IgbWVpb3MgZWxldHLDtG5pY29zIGFvIHDDumJsaWNvIGVtIGdlcmFsLCBlbSByZWdpbWUgZGUgYWNlc3NvIGFiZXJ0by4KCjMuIEEgcHJlc2VudGUgbGljZW7Dp2EgdGFtYsOpbSBhYnJhbmdlLCBub3MgbWVzbW9zIHRlcm1vcyBlc3RhYmVsZWNpZG9zIG5vIGl0ZW0gMiwgc3VwcmEsIHF1YWxxdWVyIGRpcmVpdG8gZGUgY29tdW5pY2HDp8OjbyBhbyBww7pibGljbyBjYWLDrXZlbCBlbSByZWxhw6fDo28gw6AgT2JyYSBvcmEgZGVwb3NpdGFkYSwgaW5jbHVpbmRvLXNlIG9zIHVzb3MgcmVmZXJlbnRlcyDDoCByZXByZXNlbnRhw6fDo28gcMO6YmxpY2EgZS9vdSBleGVjdcOnw6NvIHDDumJsaWNhLCBiZW0gY29tbyBxdWFscXVlciBvdXRyYSBtb2RhbGlkYWRlIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gcXVlIGV4aXN0YSBvdSB2ZW5oYSBhIGV4aXN0aXIsIG5vcyB0ZXJtb3MgZG8gYXJ0aWdvIDY4IGUgc2VndWludGVzIGRhIExlaSA5LjYxMC85OCwgbmEgZXh0ZW5zw6NvIHF1ZSBmb3IgYXBsaWPDoXZlbCBhb3Mgc2VydmnDp29zIHByZXN0YWRvcyBhbyBww7pibGljbyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubyBpdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdSBleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlIGV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0gY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IgaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqiBvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0gaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZSBxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgIHB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLgogCjYuIEF1dG9yaXphIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU8OjbyBQYXVsbyBhIGRpc3BvbmliaWxpemFyIGEgb2JyYSBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQIGRlIGZvcm1hIGdyYXR1aXRhLCBkZSBhY29yZG8gY29tIGEgbGljZW7Dp2EgcMO6YmxpY2EgQ3JlYXRpdmUgQ29tbW9uczogQXRyaWJ1acOnw6NvLVNlbSBEZXJpdmHDp8O1ZXMtU2VtIERlcml2YWRvcyA0LjAgSW50ZXJuYWNpb25hbCAoQ0MgQlktTkMtTkQpLCBwZXJtaXRpbmRvIHNldSBsaXZyZSBhY2Vzc28sIHVzbyBlIGNvbXBhcnRpbGhhbWVudG8sIGRlc2RlIHF1ZSBjaXRhZGEgYSBmb250ZS4gQSBvYnJhIGNvbnRpbnVhIHByb3RlZ2lkYSBwb3IgRGlyZWl0b3MgQXV0b3JhaXMgZS9vdSBwb3Igb3V0cmFzIGxlaXMgYXBsaWPDoXZlaXMuIFF1YWxxdWVyIHVzbyBkYSBvYnJhLCBxdWUgbsOjbyBvIGF1dG9yaXphZG8gc29iIGVzdGEgbGljZW7Dp2Egb3UgcGVsYSBsZWdpc2xhw6fDo28gYXV0b3JhbCwgw6kgcHJvaWJpZG8uICAKCjcuIEF0ZXN0YSBxdWUgYSBPYnJhIHN1Ym1ldGlkYSBuw6NvIGNvbnTDqW0gcXVhbHF1ZXIgaW5mb3JtYcOnw6NvIGNvbmZpZGVuY2lhbCBzdWEgb3UgZGUgdGVyY2Vpcm9zLgoKOC4gQXRlc3RhIHF1ZSBvIHRyYWJhbGhvIHN1Ym1ldGlkbyDDqSBvcmlnaW5hbCBlIGZvaSBlbGFib3JhZG8gcmVzcGVpdGFuZG8gb3MgcHJpbmPDrXBpb3MgZGEgbW9yYWwgZSBkYSDDqXRpY2EgZSBuw6NvIHZpb2xvdSBxdWFscXVlciBkaXJlaXRvIGRlIHByb3ByaWVkYWRlIGludGVsZWN0dWFsLCBzb2IgcGVuYSBkZSByZXNwb25kZXIgY2l2aWwsIGNyaW1pbmFsLCDDqXRpY2EgZSBwcm9maXNzaW9uYWxtZW50ZSBwb3IgbWV1cyBhdG9zOwoKOS4gQXRlc3RhIHF1ZSBhIHZlcnPDo28gZG8gdHJhYmFsaG8gcHJlc2VudGUgbm8gYXJxdWl2byBzdWJtZXRpZG8gw6kgYSB2ZXJzw6NvIGRlZmluaXRpdmEgcXVlIGluY2x1aSBhcyBhbHRlcmHDp8O1ZXMgZGVjb3JyZW50ZXMgZGEgZGVmZXNhLCBzb2xpY2l0YWRhcyBwZWxhIGJhbmNhLCBzZSBob3V2ZSBhbGd1bWEsIG91IHNvbGljaXRhZGFzIHBvciBwYXJ0ZSBkZSBvcmllbnRhw6fDo28gZG9jZW50ZSByZXNwb25zw6F2ZWw7CgoxMC4gQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgcmVhbGl6YXIgcXVhaXNxdWVyIGFsdGVyYcOnw7VlcyBuYSBtw61kaWEgb3Ugbm8gZm9ybWF0byBkbyBhcnF1aXZvIHBhcmEgcHJvcMOzc2l0b3MgZGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLCBkZSBhY2Vzc2liaWxpZGFkZSBlIGRlIG1lbGhvciBpZGVudGlmaWNhw6fDo28gZG8gdHJhYmFsaG8gc3VibWV0aWRvLCBkZXNkZSBxdWUgbsOjbyBzZWphIGFsdGVyYWRvIHNldSBjb250ZcO6ZG8gaW50ZWxlY3R1YWwuCgpBbyBjb25jbHVpciBhcyBldGFwYXMgZG8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbyBkZSBhcnF1aXZvcyBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLCBhdGVzdG8gcXVlIGxpIGUgY29uY29yZGVpIGludGVncmFsbWVudGUgY29tIG9zIHRlcm1vcyBhY2ltYSBkZWxpbWl0YWRvcywgc2VtIGZhemVyIHF1YWxxdWVyIHJlc2VydmEgZSBub3ZhbWVudGUgY29uZmlybWFuZG8gcXVlIGN1bXBybyBvcyByZXF1aXNpdG9zIGluZGljYWRvcyBub3MgaXRlbnMgbWVuY2lvbmFkb3MgYW50ZXJpb3JtZW50ZS4KCkhhdmVuZG8gcXVhbHF1ZXIgZGlzY29yZMOibmNpYSBlbSByZWxhw6fDo28gYSBwcmVzZW50ZSBsaWNlbsOnYSBvdSBuw6NvIHNlIHZlcmlmaWNhbmRvIG8gZXhpZ2lkbyBub3MgaXRlbnMgYW50ZXJpb3Jlcywgdm9jw6ogZGV2ZSBpbnRlcnJvbXBlciBpbWVkaWF0YW1lbnRlIG8gcHJvY2Vzc28gZGUgc3VibWlzc8Ojby4gQSBjb250aW51aWRhZGUgZG8gcHJvY2Vzc28gZXF1aXZhbGUgw6AgY29uY29yZMOibmNpYSBlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2VxdcOqbmNpYXMgbmVsZSBwcmV2aXN0YXMsIHN1amVpdGFuZG8tc2UgbyBzaWduYXTDoXJpbyBhIHNhbsOnw7VlcyBjaXZpcyBlIGNyaW1pbmFpcyBjYXNvIG7Do28gc2VqYSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXRyaW1vbmlhaXMgZS9vdSBjb25leG9zIGFwbGljw6F2ZWlzIMOgIE9icmEgZGVwb3NpdGFkYSBkdXJhbnRlIGVzdGUgcHJvY2Vzc28sIG91IGNhc28gbsOjbyB0ZW5oYSBvYnRpZG8gcHLDqXZpYSBlIGV4cHJlc3NhIGF1dG9yaXphw6fDo28gZG8gdGl0dWxhciBwYXJhIG8gZGVww7NzaXRvIGUgdG9kb3Mgb3MgdXNvcyBkYSBPYnJhIGVudm9sdmlkb3MuCgpTZSB0aXZlciBxdWFscXVlciBkw7p2aWRhIHF1YW50byBhb3MgdGVybW9zIGRlIGxpY2VuY2lhbWVudG8gZSBxdWFudG8gYW8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbywgZW50cmUgZW0gY29udGF0byBjb20gYSBiaWJsaW90ZWNhIGRvIHNldSBjYW1wdXMgKGNvbnN1bHRlIGVtOiBodHRwczovL2JpYmxpb3RlY2FzLnVuaWZlc3AuYnIvYmlibGlvdGVjYXMtZGEtcmVkZSkuIAoKU8OjbyBQYXVsbywgVHVlIERlYyAxOSAxNjoxMjoxMyBCUlQgMjAyMy4K
dc.title.pt_BR.fl_str_mv Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
title Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
spellingShingle Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
Torquette, Gustavo Pinto [UNIFESP]
meta-aprendizado
aprendizado de máquina
inteligência artificial
ciências de dados
dificuldade de instância
medidas de dificuldade
title_short Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
title_full Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
title_fullStr Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
title_full_unstemmed Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
title_sort Medindo a dificuldade de instâncias para classificação em aprendizado de máquina
author Torquette, Gustavo Pinto [UNIFESP]
author_facet Torquette, Gustavo Pinto [UNIFESP]
author_role author
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3451628262694747
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6394878155964687
dc.contributor.author.fl_str_mv Torquette, Gustavo Pinto [UNIFESP]
dc.contributor.advisor1.fl_str_mv Lorena, Ana Carolina
contributor_str_mv Lorena, Ana Carolina
dc.subject.por.fl_str_mv meta-aprendizado
aprendizado de máquina
inteligência artificial
ciências de dados
dificuldade de instância
medidas de dificuldade
topic meta-aprendizado
aprendizado de máquina
inteligência artificial
ciências de dados
dificuldade de instância
medidas de dificuldade
description A abordagem clássica para criar modelos de Aprendizado de Máquina para a solução de problemas de classificação é uma abordagem centrada nos modelos, na qual altera-se a técnica e seus hiperparâmetros para tentar melhorar o seu desempenho. No entanto, a qualidade dos dados é crucial para ajustar os melhores modelos e obter estimativas de desempenho mais precisas. Mas como podemos melhorar a qualidade dos dados? Primeiro, precisamos saber avaliar sua qualidade, pois sem medidas de avaliação não podemos comparar diferentes abordagens ou aprimorar resultados. Nesta dissertação, procuramos explorar meios de medir o nível de dificuldade em classificar cada observação de um conjunto de dados. A motivação é que instâncias difíceis de classificar podem ter problemas de qualidade que afetam o desempenho preditivo dos modelos de classificação. O objetivo da dissertação está em entender as propriedades dos dados que indicam quando técnicas de Aprendizado de Máquina devem obter sucesso ou falha; em que tipo de conjunto de dados uma medida de avaliação de dificuldade é mais recomendada em relação à outra; e também estudos de casos de como essas medidas podem ser utilizadas para auxílio prático dos cientistas de dados. Os resultados relataram que algumas medidas se mostraram eficazes para detectar os problemas propostos e que a aplicação prática empregada em conjuntos reais revelaram respostas coerentes, identificando instâncias que possivelmente merecem uma melhor inspeção sobre sua qualidade.
publishDate 2023
dc.date.issued.fl_str_mv 2023-12-08
dc.date.accessioned.fl_str_mv 2024-01-18T17:04:23Z
dc.date.available.fl_str_mv 2024-01-18T17:04:23Z
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv TORQUETTE, Gustavo P. Medindo a dificuldade de instâncias para classificação em aprendizado de máquina,2023.
dc.identifier.uri.fl_str_mv https://repositorio.unifesp.br/handle/11600/70583
dc.identifier.dark.fl_str_mv ark:/48912/0013000020r63
identifier_str_mv TORQUETTE, Gustavo P. Medindo a dificuldade de instâncias para classificação em aprendizado de máquina,2023.
ark:/48912/0013000020r63
url https://repositorio.unifesp.br/handle/11600/70583
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 108
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
bitstream.url.fl_str_mv https://repositorio.unifesp.br/bitstreams/cad4120e-fcff-4914-a589-320b5cf52bf8/download
https://repositorio.unifesp.br/bitstreams/6abadb9b-fe37-4711-bbb7-e2ecb8dec764/download
https://repositorio.unifesp.br/bitstreams/76634f44-c881-46b0-a465-74d8eaf3749a/download
https://repositorio.unifesp.br/bitstreams/e7008174-8275-4482-993e-60e55e597baf/download
bitstream.checksum.fl_str_mv bd1231d439241f62e08c825dce2fc13b
0ea03cfd37a99e4b8b798ae464603d45
23011e7adf11ece13ef24691a04b26dc
60849b4088f691962ba3fff42f902d6f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv biblioteca.csp@unifesp.br
_version_ 1863846114502901760