Um framework semissupervisionado para classificação de dados em fluxos contínuos
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal do Rio Grande do Norte
Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.ufrn.br/handle/123456789/46790 |
Resumo: | Data stream applications receive a large volume of data quickly, and they need to process them sequentially. In these applications, the data may change during the use of the model; in addition, the number of instances whose label is known may not be sufficient to generate an effective model. Semi-supervised learning can be used to suppress the difficulty of the small number of instances labelled. Also, an ensemble of classifiers can assist in the concept drift detection. So, in this work, we proposed a framework to perform the semi-supervised classification in tasks in a data stream context, using an approach based on an ensemble of classifiers. This framework use an ensemble to evaluate itself and determine when a new classifier must be trained to update the pool, during the classification process. In order to evaluate the effectiveness of this proposal, empirical tests are carried out with eleven databases using two different batches sizes, nine supervised approaches (three simple classifiers and six ensembles), using the metrics accuracy, precision, recall and F-Score. When assessing the number of instances processed, the supervised approaches achieved practically stable performance, while the proposal showed an improvement of 8.28% and 3.81% using 5% and 10% of labelled instances, respectively. Finally, the results of this research are promising and the proposed framework achieve results equal or better in 118 out of 198 (60%). |
| id |
UFRN_5b551b75c230773a258e7ba5742e20ed |
|---|---|
| oai_identifier_str |
oai:repositorio.ufrn.br:123456789/46790 |
| network_acronym_str |
UFRN |
| network_name_str |
Repositório Institucional da UFRN |
| repository_id_str |
|
| spelling |
Um framework semissupervisionado para classificação de dados em fluxos contínuosA data stream framework for semi-supervised classification in non-stationary environmentsComputaçãoAprendizado semissupervisionadoClassificação em fluxos contínuos de dadosMudança de contextoData stream applications receive a large volume of data quickly, and they need to process them sequentially. In these applications, the data may change during the use of the model; in addition, the number of instances whose label is known may not be sufficient to generate an effective model. Semi-supervised learning can be used to suppress the difficulty of the small number of instances labelled. Also, an ensemble of classifiers can assist in the concept drift detection. So, in this work, we proposed a framework to perform the semi-supervised classification in tasks in a data stream context, using an approach based on an ensemble of classifiers. This framework use an ensemble to evaluate itself and determine when a new classifier must be trained to update the pool, during the classification process. In order to evaluate the effectiveness of this proposal, empirical tests are carried out with eleven databases using two different batches sizes, nine supervised approaches (three simple classifiers and six ensembles), using the metrics accuracy, precision, recall and F-Score. When assessing the number of instances processed, the supervised approaches achieved practically stable performance, while the proposal showed an improvement of 8.28% and 3.81% using 5% and 10% of labelled instances, respectively. Finally, the results of this research are promising and the proposed framework achieve results equal or better in 118 out of 198 (60%).Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESAplicações no domínio de fluxos contínuos de dados (do inglês, Data Streams) recebem um grande volume de dados rapidamente e, existe a necessidade de processá-los sequencialmente. Uma característica destas aplicações é que os dados podem sofrer mudanças durante o processo da utilização do modelo, ademais a quantidade de instâncias cujo rótulo é conhecido pode não ser suficiente para gerar um modelo eficaz. A fim de suprimir a dificuldade da pouca quantidade de instâncias rotulada, pode-se utilizar o aprendizado semissupervisionado. Além disso, o uso de comitês de classificadores pode auxiliar na detecção da mudança de contexto. Assim, neste trabalho, é proposto um framework para realizar a classificação semissupervisionada em tarefas com fluxos contínuos de dados, utilizando uma abordagem baseada em comitês de classificadores. Este framework utiliza o comitê para se auto avaliar e determinar quando treinar um novo classificador durante o processo de classificação. Para avaliar a eficácia da proposta, foram realizados testes empíricos com onze bases de dados utilizando dois diferentes tamanhos de batch, nove abordagens supervisionadas , por meio das métricas acurácia, precision, recall e f-score. Ao avaliar a quantidade de instâncias processadas, as abordagens supervisionadas obtiveram um desempenho praticamente constantes, enquanto que a proposta apresentou uma melhora de 8,28% e 3,81% utilizando 5% e 10% de instâncias rotuladas, respectivamente. Por fim, os resultados desta pesquisa são promissores, o framework proposto obteve resultados semelhantes ou superiores em 118 dos 198 (60%) casos, em termos estatísticos.Universidade Federal do Rio Grande do NorteBrasilUFRNPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOCanuto, Anne Magaly de Paulahttp://lattes.cnpq.br/8213279977425231http://lattes.cnpq.br/1357887401899097Vale, Karliane Medeiros Ovidio02973877407http://lattes.cnpq.br/7907570677010860Abreu, Marjory Cristiany da Costahttp://lattes.cnpq.br/2234040548103596Xavier Júnior, João Carloshttp://lattes.cnpq.br/5088238300241110Santos, Araken de Medeiroshttp://lattes.cnpq.br/8059198436766378Gorgônio, Arthur Costa2022-04-04T23:49:33Z2022-04-04T23:49:33Z2021-06-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfGORGÔNIO, Arthur Costa. Um framework semissupervisionado para classificação de dados em fluxos contínuos. 2021. 123f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2021.https://repositorio.ufrn.br/handle/123456789/46790info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRN2022-05-02T16:02:09Zoai:repositorio.ufrn.br:123456789/46790Repositório InstitucionalPUBhttp://repositorio.ufrn.br/oai/repositorio@bczm.ufrn.bropendoar:2022-05-02T16:02:09Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
| dc.title.none.fl_str_mv |
Um framework semissupervisionado para classificação de dados em fluxos contínuos A data stream framework for semi-supervised classification in non-stationary environments |
| title |
Um framework semissupervisionado para classificação de dados em fluxos contínuos |
| spellingShingle |
Um framework semissupervisionado para classificação de dados em fluxos contínuos Gorgônio, Arthur Costa Computação Aprendizado semissupervisionado Classificação em fluxos contínuos de dados Mudança de contexto |
| title_short |
Um framework semissupervisionado para classificação de dados em fluxos contínuos |
| title_full |
Um framework semissupervisionado para classificação de dados em fluxos contínuos |
| title_fullStr |
Um framework semissupervisionado para classificação de dados em fluxos contínuos |
| title_full_unstemmed |
Um framework semissupervisionado para classificação de dados em fluxos contínuos |
| title_sort |
Um framework semissupervisionado para classificação de dados em fluxos contínuos |
| author |
Gorgônio, Arthur Costa |
| author_facet |
Gorgônio, Arthur Costa |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Canuto, Anne Magaly de Paula http://lattes.cnpq.br/8213279977425231 http://lattes.cnpq.br/1357887401899097 Vale, Karliane Medeiros Ovidio 02973877407 http://lattes.cnpq.br/7907570677010860 Abreu, Marjory Cristiany da Costa http://lattes.cnpq.br/2234040548103596 Xavier Júnior, João Carlos http://lattes.cnpq.br/5088238300241110 Santos, Araken de Medeiros http://lattes.cnpq.br/8059198436766378 |
| dc.contributor.author.fl_str_mv |
Gorgônio, Arthur Costa |
| dc.subject.por.fl_str_mv |
Computação Aprendizado semissupervisionado Classificação em fluxos contínuos de dados Mudança de contexto |
| topic |
Computação Aprendizado semissupervisionado Classificação em fluxos contínuos de dados Mudança de contexto |
| description |
Data stream applications receive a large volume of data quickly, and they need to process them sequentially. In these applications, the data may change during the use of the model; in addition, the number of instances whose label is known may not be sufficient to generate an effective model. Semi-supervised learning can be used to suppress the difficulty of the small number of instances labelled. Also, an ensemble of classifiers can assist in the concept drift detection. So, in this work, we proposed a framework to perform the semi-supervised classification in tasks in a data stream context, using an approach based on an ensemble of classifiers. This framework use an ensemble to evaluate itself and determine when a new classifier must be trained to update the pool, during the classification process. In order to evaluate the effectiveness of this proposal, empirical tests are carried out with eleven databases using two different batches sizes, nine supervised approaches (three simple classifiers and six ensembles), using the metrics accuracy, precision, recall and F-Score. When assessing the number of instances processed, the supervised approaches achieved practically stable performance, while the proposal showed an improvement of 8.28% and 3.81% using 5% and 10% of labelled instances, respectively. Finally, the results of this research are promising and the proposed framework achieve results equal or better in 118 out of 198 (60%). |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-06-25 2022-04-04T23:49:33Z 2022-04-04T23:49:33Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
GORGÔNIO, Arthur Costa. Um framework semissupervisionado para classificação de dados em fluxos contínuos. 2021. 123f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2021. https://repositorio.ufrn.br/handle/123456789/46790 |
| identifier_str_mv |
GORGÔNIO, Arthur Costa. Um framework semissupervisionado para classificação de dados em fluxos contínuos. 2021. 123f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2021. |
| url |
https://repositorio.ufrn.br/handle/123456789/46790 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO |
| publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
| instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
| instacron_str |
UFRN |
| institution |
UFRN |
| reponame_str |
Repositório Institucional da UFRN |
| collection |
Repositório Institucional da UFRN |
| repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
| repository.mail.fl_str_mv |
repositorio@bczm.ufrn.br |
| _version_ |
1855758706975703040 |