Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: LUZ, Thiago Sales Freire lattes
Orientador(a): RIBEIRO, Enio Roberto lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Itajubá
Programa de Pós-Graduação: Programa de Pós-Graduação: Mestrado - Ciência e Tecnologia da Computação
Departamento: IESTI - Instituto de Engenharia de Sistemas e Tecnologia da Informação
País: Brasil
Palavras-chave em Português:
KOI
Área do conhecimento CNPq:
Link de acesso: https://repositorio.unifei.edu.br/jspui/handle/123456789/3927
Resumo: Exoplanetas são planetas encontrados fora do sistema solar. A descoberta dos exoplanetas ocorre devido ao trabalho científico envolvendo o uso de telescópios, entre eles, o Kepler. Os dados coletados por este telescópio são chamados de Kepler Object of Interest. Para a tarefa de identificação de padrões nestes dados são utilizados algoritmos de Aprendizado de Máquina. Estes algoritmos são treinados para classificar estes dados em exoplanetas ou em falso-exoplaneta, isto é, falso-positivo. Dentre os algoritmos de classificação têm-se os denominados algoritmos Ensemble. Estes algoritmos combinam o desempenho de predição de dois ou mais algoritmos visando aperfeiçoar o desempenho preditivo final. Na literatura são utilizados algoritmos tradicionais em pesquisas relacionadas a detecção de exoplanetas. Constata-se, dessa forma, a carência de trabalhos que utilizam algoritmos Ensemble com este propósito. Esta dissertação realiza uma comparação de desempenho entre algoritmos Ensemble no processo de identificação de exoplanetas. Cada algoritmo é implementado com um conjunto de diferentes valores de parâmetros e executado várias vezes por um processo de validação cruzada. Uma matriz de confusão é gerada em cada execução, a qual é usada para análise das seguintes métricas de desempenho do algoritmo: exatidão, sensibilidade, especificidade, precisão e nota F1. Os algoritmos Ensemble atingiram um desempenho maior que 80% de acerto na maioria das métricas. Com a alteração dos valores dos parâmetros das funções observa-se um melhor resultado na predição. O algoritmo com o melhor desempenho foi o Stacking. Em síntese, verifica que os algoritmos Ensemble possuem um grande potencial para melhorar o resultado da predição de exoplanetas. O algoritmo Stacking se mostrou superior aos demais algoritmos e este aspecto é discutido no artigo. Os resultados desta dissertação indicam ser relevante aumentar o uso destes algoritmos, por possuírem um alto desempenho preditivo, favorecendo a detecção de exoplanetas.
id UFEI_54f785fb5fbedda0b306874cbfbd28df
oai_identifier_str oai:repositorio.unifei.edu.br:123456789/3927
network_acronym_str UFEI
network_name_str Repositório Institucional da UNIFEI (RIUNIFEI)
repository_id_str
spelling 2023-09-282023-10-312023-10-31T11:49:19Z2023-10-31T11:49:19Zhttps://repositorio.unifei.edu.br/jspui/handle/123456789/3927Exoplanetas são planetas encontrados fora do sistema solar. A descoberta dos exoplanetas ocorre devido ao trabalho científico envolvendo o uso de telescópios, entre eles, o Kepler. Os dados coletados por este telescópio são chamados de Kepler Object of Interest. Para a tarefa de identificação de padrões nestes dados são utilizados algoritmos de Aprendizado de Máquina. Estes algoritmos são treinados para classificar estes dados em exoplanetas ou em falso-exoplaneta, isto é, falso-positivo. Dentre os algoritmos de classificação têm-se os denominados algoritmos Ensemble. Estes algoritmos combinam o desempenho de predição de dois ou mais algoritmos visando aperfeiçoar o desempenho preditivo final. Na literatura são utilizados algoritmos tradicionais em pesquisas relacionadas a detecção de exoplanetas. Constata-se, dessa forma, a carência de trabalhos que utilizam algoritmos Ensemble com este propósito. Esta dissertação realiza uma comparação de desempenho entre algoritmos Ensemble no processo de identificação de exoplanetas. Cada algoritmo é implementado com um conjunto de diferentes valores de parâmetros e executado várias vezes por um processo de validação cruzada. Uma matriz de confusão é gerada em cada execução, a qual é usada para análise das seguintes métricas de desempenho do algoritmo: exatidão, sensibilidade, especificidade, precisão e nota F1. Os algoritmos Ensemble atingiram um desempenho maior que 80% de acerto na maioria das métricas. Com a alteração dos valores dos parâmetros das funções observa-se um melhor resultado na predição. O algoritmo com o melhor desempenho foi o Stacking. Em síntese, verifica que os algoritmos Ensemble possuem um grande potencial para melhorar o resultado da predição de exoplanetas. O algoritmo Stacking se mostrou superior aos demais algoritmos e este aspecto é discutido no artigo. Os resultados desta dissertação indicam ser relevante aumentar o uso destes algoritmos, por possuírem um alto desempenho preditivo, favorecendo a detecção de exoplanetas.Exoplanets are planets discovered outside our solar system. Their discovery happens because of scientific work with telescopes such as the Kepler. The data collected by Kepler is known as Kepler Object of Interest. Machine Learning algorithms are trained to classify these data into exoplanets or non-exoplanets. An Ensemble Algorithm is a type of Machine Learning technique that combines the prediction performance of two or more algorithms to gain an improved final prediction. The current works on exoplanet identification use mostly traditional non-Ensemble algorithms. Therefore, research that uses Ensemble algorithms for exoplanet identification is scarce. This paper performs a comparison among some Ensemble algorithms on the exoplanet identification process. Each algorithm is implemented with a set of different values for its parameters and executed multiple times. All executions are performed with the cross-validation method. A confusion matrix is created for each algorithm implementation. The results of each confusion matrix provided data to evaluate the following algorithm’s performance metrics: accuracy, sensitivity, specificity, precision, and F1 score. The Ensemble algorithms achieved an average performance of more than 80% in all metrics. Changing the default values of the Ensemble algorithms parameters improved their predictive performance. The algorithm with the best performance is Stacking. In summary, the Ensemble algorithms have great potential to improve exoplanet prediction. The Stacking algorithm achieved a higher performance than the other algorithms. This aspect is discussed in the text. The results of this work show that it is reasonable to increase the use of Ensemble algorithms. The reason is their high prediction performance to improve exoplanet identification.porUniversidade Federal de ItajubáPrograma de Pós-Graduação: Mestrado - Ciência e Tecnologia da ComputaçãoUNIFEIBrasilIESTI - Instituto de Engenharia de Sistemas e Tecnologia da InformaçãoCNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃOAlgoritmos ensembleKOIAprendizado de máquinaMatriz de confusãoStackingAnálise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisRIBEIRO, Enio Robertohttp://lattes.cnpq.br/6416752942017019BRAGA, Rodrigo Aparecido da Silvahttp://lattes.cnpq.br/4343678779982973http://lattes.cnpq.br/1717282381510877LUZ, Thiago Sales FreireLUZ, Thiago Sales Freire. Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas. 2023. 84 f. Dissertação (Mestrado em Ciência e Tecnologia da Computação.) – Universidade Federal de Itajubá, Itabira, 2023.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFEI (RIUNIFEI)instname:Universidade Federal de Itajubá (UNIFEI)instacron:UNIFEILICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unifei.edu.br/jspui/bitstream/123456789/3927/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALDissertação_2023134.pdfDissertação_2023134.pdfapplication/pdf2824635https://repositorio.unifei.edu.br/jspui/bitstream/123456789/3927/1/Disserta%c3%a7%c3%a3o_2023134.pdfe52189a941e9750875c5696316481339MD51123456789/39272023-10-31 08:49:19.677oai:repositorio.unifei.edu.br:123456789/3927Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.unifei.edu.br/oai/requestrepositorio@unifei.edu.br || geraldocarlos@unifei.edu.bropendoar:70442025-08-26T21:09:05.533065Repositório Institucional da UNIFEI (RIUNIFEI) - Universidade Federal de Itajubá (UNIFEI)false
dc.title.pt_BR.fl_str_mv Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
title Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
spellingShingle Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
LUZ, Thiago Sales Freire
CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO
Algoritmos ensemble
KOI
Aprendizado de máquina
Matriz de confusão
Stacking
title_short Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
title_full Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
title_fullStr Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
title_full_unstemmed Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
title_sort Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas
author LUZ, Thiago Sales Freire
author_facet LUZ, Thiago Sales Freire
author_role author
dc.contributor.advisor1.fl_str_mv RIBEIRO, Enio Roberto
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6416752942017019
dc.contributor.advisor-co1.fl_str_mv BRAGA, Rodrigo Aparecido da Silva
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/4343678779982973
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/1717282381510877
dc.contributor.author.fl_str_mv LUZ, Thiago Sales Freire
contributor_str_mv RIBEIRO, Enio Roberto
BRAGA, Rodrigo Aparecido da Silva
dc.subject.cnpq.fl_str_mv CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO
topic CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO
Algoritmos ensemble
KOI
Aprendizado de máquina
Matriz de confusão
Stacking
dc.subject.por.fl_str_mv Algoritmos ensemble
KOI
Aprendizado de máquina
Matriz de confusão
Stacking
description Exoplanetas são planetas encontrados fora do sistema solar. A descoberta dos exoplanetas ocorre devido ao trabalho científico envolvendo o uso de telescópios, entre eles, o Kepler. Os dados coletados por este telescópio são chamados de Kepler Object of Interest. Para a tarefa de identificação de padrões nestes dados são utilizados algoritmos de Aprendizado de Máquina. Estes algoritmos são treinados para classificar estes dados em exoplanetas ou em falso-exoplaneta, isto é, falso-positivo. Dentre os algoritmos de classificação têm-se os denominados algoritmos Ensemble. Estes algoritmos combinam o desempenho de predição de dois ou mais algoritmos visando aperfeiçoar o desempenho preditivo final. Na literatura são utilizados algoritmos tradicionais em pesquisas relacionadas a detecção de exoplanetas. Constata-se, dessa forma, a carência de trabalhos que utilizam algoritmos Ensemble com este propósito. Esta dissertação realiza uma comparação de desempenho entre algoritmos Ensemble no processo de identificação de exoplanetas. Cada algoritmo é implementado com um conjunto de diferentes valores de parâmetros e executado várias vezes por um processo de validação cruzada. Uma matriz de confusão é gerada em cada execução, a qual é usada para análise das seguintes métricas de desempenho do algoritmo: exatidão, sensibilidade, especificidade, precisão e nota F1. Os algoritmos Ensemble atingiram um desempenho maior que 80% de acerto na maioria das métricas. Com a alteração dos valores dos parâmetros das funções observa-se um melhor resultado na predição. O algoritmo com o melhor desempenho foi o Stacking. Em síntese, verifica que os algoritmos Ensemble possuem um grande potencial para melhorar o resultado da predição de exoplanetas. O algoritmo Stacking se mostrou superior aos demais algoritmos e este aspecto é discutido no artigo. Os resultados desta dissertação indicam ser relevante aumentar o uso destes algoritmos, por possuírem um alto desempenho preditivo, favorecendo a detecção de exoplanetas.
publishDate 2023
dc.date.issued.fl_str_mv 2023-09-28
dc.date.available.fl_str_mv 2023-10-31
2023-10-31T11:49:19Z
dc.date.accessioned.fl_str_mv 2023-10-31T11:49:19Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.unifei.edu.br/jspui/handle/123456789/3927
url https://repositorio.unifei.edu.br/jspui/handle/123456789/3927
dc.language.iso.fl_str_mv por
language por
dc.relation.references.pt_BR.fl_str_mv LUZ, Thiago Sales Freire. Análise e comparação de algoritmos ensemble de classificação na descoberta de exoplanetas. 2023. 84 f. Dissertação (Mestrado em Ciência e Tecnologia da Computação.) – Universidade Federal de Itajubá, Itabira, 2023.
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Itajubá
dc.publisher.program.fl_str_mv Programa de Pós-Graduação: Mestrado - Ciência e Tecnologia da Computação
dc.publisher.initials.fl_str_mv UNIFEI
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv IESTI - Instituto de Engenharia de Sistemas e Tecnologia da Informação
publisher.none.fl_str_mv Universidade Federal de Itajubá
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFEI (RIUNIFEI)
instname:Universidade Federal de Itajubá (UNIFEI)
instacron:UNIFEI
instname_str Universidade Federal de Itajubá (UNIFEI)
instacron_str UNIFEI
institution UNIFEI
reponame_str Repositório Institucional da UNIFEI (RIUNIFEI)
collection Repositório Institucional da UNIFEI (RIUNIFEI)
bitstream.url.fl_str_mv https://repositorio.unifei.edu.br/jspui/bitstream/123456789/3927/2/license.txt
https://repositorio.unifei.edu.br/jspui/bitstream/123456789/3927/1/Disserta%c3%a7%c3%a3o_2023134.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
e52189a941e9750875c5696316481339
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNIFEI (RIUNIFEI) - Universidade Federal de Itajubá (UNIFEI)
repository.mail.fl_str_mv repositorio@unifei.edu.br || geraldocarlos@unifei.edu.br
_version_ 1854751250835308544