Análise sobre o fator temporal em tarefas de quantificação com dados textuais

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Ueno, Caio Luiggy Riyoichi Sawada
Orientador(a): Silva, Diego Furtado lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/19702
Resumo: The quantification task, a recently discovered field in machine learning, estimates the class distribution of a dataset. Usually, quantification tasks are solved through classifica- tion, an inducted classifier predicts each instance on the set and then counts how many were labeled for each class - this approach is also known as Classify and Count. However, the Classify and Count approach shows poor results as soon as the class distribution of the test set differs from the class distribution of the training set. Thus, specific algorithms and models have been proposed to solve quantification problems accurately. It is really common to analyze big data through time. In text domains, as the Twitter platform, which have a large set of unstructured data being generate at every instant, it is challenging to extract useful and summarized information at the same time. Besides, text domains show specific characteristics that increase the complexity of how those infor- mation are extracted. A popular analysis is to discovery trending topics or how people’s opinion about a specific topic. To do this, it is possible to use quantification methods to categorize and consequently summarize a massive number of texts. The proposal of this work is to make an analysis about textual quantification pro- blems distributed over time. More precisely, this work intent to evaluate how time affects the perfomance of quantification models. Three different approaches were evaluated to understand the impact of time: training only once the quantification model; update the model periodically, thus decreasing its time lag; and a forecasting approach, using regres- sion models. This research presents some intereseting conclusions which show that there are some peculiarities in these evaluated datasets and that state-of-the-art models may not present the best performances as expected.
id SCAR_69d5746dcd54d86481bed35dd1c547ce
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/19702
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Ueno, Caio Luiggy Riyoichi SawadaSilva, Diego Furtadohttp://lattes.cnpq.br/7662777934692986http://lattes.cnpq.br/97176438674501732024-07-02T12:41:46Z2024-07-02T12:41:46Z2023-12-13UENO, Caio Luiggy Riyoichi Sawada. Análise sobre o fator temporal em tarefas de quantificação com dados textuais. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19702.https://repositorio.ufscar.br/handle/20.500.14289/19702The quantification task, a recently discovered field in machine learning, estimates the class distribution of a dataset. Usually, quantification tasks are solved through classifica- tion, an inducted classifier predicts each instance on the set and then counts how many were labeled for each class - this approach is also known as Classify and Count. However, the Classify and Count approach shows poor results as soon as the class distribution of the test set differs from the class distribution of the training set. Thus, specific algorithms and models have been proposed to solve quantification problems accurately. It is really common to analyze big data through time. In text domains, as the Twitter platform, which have a large set of unstructured data being generate at every instant, it is challenging to extract useful and summarized information at the same time. Besides, text domains show specific characteristics that increase the complexity of how those infor- mation are extracted. A popular analysis is to discovery trending topics or how people’s opinion about a specific topic. To do this, it is possible to use quantification methods to categorize and consequently summarize a massive number of texts. The proposal of this work is to make an analysis about textual quantification pro- blems distributed over time. More precisely, this work intent to evaluate how time affects the perfomance of quantification models. Three different approaches were evaluated to understand the impact of time: training only once the quantification model; update the model periodically, thus decreasing its time lag; and a forecasting approach, using regres- sion models. This research presents some intereseting conclusions which show that there are some peculiarities in these evaluated datasets and that state-of-the-art models may not present the best performances as expected.A quantificação, área relativamente nova em aprendizado de máquina, se preocupa em estimar a distribuição das classes em um determinado conjunto de instâncias. Usualmente, tarefas de quantificação são resolvidas por meio de classificação, onde um classificador prediz a classe das instâncias dentro do conjunto e uma contagem simples dos rótulos preditos é feita - método conhecido como Classify and Count. Entretanto, esse método não apresenta bons resultados à medida que a distribuição das classes no conjunto de teste se distância da distribuição das classes no conjunto de treinamento do classificador. Por isso, métodos e modelos específicos têm sido desenvolvidos para a resolução de problemas de quantificação. Em cenários de dados volumosos é comum realizar análises da perspectiva temporal. Por exemplo, em domínios textuais como postagens em redes sociais, que possuem uma grande quantidade de dados não estruturados sendo gerados a todo instante, é um de- safio grande extrair informações de forma condensada. Além disso, o domínio apresenta características próprias que aumentam a complexidade da forma como essas informações são extraídas. Uma das principais demandas nesse domínio é sumarizar o que ou como se fala sobre determinados tópicos na plataforma. Para tanto, é possível utilizar técnicas de quantificação para resumir uma quantidade massiva de textos. Este trabalho apresenta uma análise sobre o problema de quantificação em conjun- tos de dados textuais distribuídos ao longo do tempo. Mais precisamente, este trabalho propõe avaliar como a estrutura temporal dos dados afeta a performance de modelos treinados para solucionar o problema da quantificação. Três formas distintas foram ado- tadas para se entender o impacto da passagem do tempo: treinar somente uma vez o modelo de quantificação; atualizar o modelo periodicamente, diminuindo assim a defasa- gem temporal; e, por fim, uma abordagem de forecasting de séries temporais, utilizando modelos de regressão. Os resultados mostram que existem peculiaridades nos conjuntos de dados avaliados neste trabalho e que, em determinados cenários, modelos considerados estado-da-arte não apresentam as melhores performances.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nd/3.0/br/info:eu-repo/semantics/openAccessAprendizado de MáquinaQuantificaçãoSéries temporaisMachine learningQuantificationTime seriesCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAnálise sobre o fator temporal em tarefas de quantificação com dados textuaisTemporal factor analysis in quantification tasks in text datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXT_Caio_Ueno__Dissertação_de_Mestrado.pdf.txt_Caio_Ueno__Dissertação_de_Mestrado.pdf.txtExtracted texttext/plain104722https://repositorio.ufscar.br/bitstreams/45186728-03f1-471d-9f09-48b2a5986420/download10c2dfe2162fa39697b66f54f2d0bcdaMD53falseAnonymousREADTHUMBNAIL_Caio_Ueno__Dissertação_de_Mestrado.pdf.jpg_Caio_Ueno__Dissertação_de_Mestrado.pdf.jpgGenerated Thumbnailimage/jpeg4065https://repositorio.ufscar.br/bitstreams/d6770b69-488c-4b76-bba5-50b6521a4b94/downloadd5e9958bd33d0a41b7326e78ab106055MD54falseAnonymousREADORIGINAL_Caio_Ueno__Dissertação_de_Mestrado.pdf_Caio_Ueno__Dissertação_de_Mestrado.pdfapplication/pdf3636366https://repositorio.ufscar.br/bitstreams/9b752d01-93c6-4add-ae0b-206f73c4747e/download10f318c4eedb73210b976c75136f943dMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8804https://repositorio.ufscar.br/bitstreams/f84928dd-1454-4346-97e2-c61e9abd8604/download4774e414fb27824b0dfca5f33e4ff24fMD52falseAnonymousREAD20.500.14289/197022025-02-06 01:58:08.573http://creativecommons.org/licenses/by-nd/3.0/br/Attribution-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19702https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T04:58:08Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Análise sobre o fator temporal em tarefas de quantificação com dados textuais
dc.title.alternative.eng.fl_str_mv Temporal factor analysis in quantification tasks in text data
title Análise sobre o fator temporal em tarefas de quantificação com dados textuais
spellingShingle Análise sobre o fator temporal em tarefas de quantificação com dados textuais
Ueno, Caio Luiggy Riyoichi Sawada
Aprendizado de Máquina
Quantificação
Séries temporais
Machine learning
Quantification
Time series
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Análise sobre o fator temporal em tarefas de quantificação com dados textuais
title_full Análise sobre o fator temporal em tarefas de quantificação com dados textuais
title_fullStr Análise sobre o fator temporal em tarefas de quantificação com dados textuais
title_full_unstemmed Análise sobre o fator temporal em tarefas de quantificação com dados textuais
title_sort Análise sobre o fator temporal em tarefas de quantificação com dados textuais
author Ueno, Caio Luiggy Riyoichi Sawada
author_facet Ueno, Caio Luiggy Riyoichi Sawada
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/9717643867450173
dc.contributor.author.fl_str_mv Ueno, Caio Luiggy Riyoichi Sawada
dc.contributor.advisor1.fl_str_mv Silva, Diego Furtado
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7662777934692986
contributor_str_mv Silva, Diego Furtado
dc.subject.por.fl_str_mv Aprendizado de Máquina
Quantificação
Séries temporais
topic Aprendizado de Máquina
Quantificação
Séries temporais
Machine learning
Quantification
Time series
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Machine learning
Quantification
Time series
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description The quantification task, a recently discovered field in machine learning, estimates the class distribution of a dataset. Usually, quantification tasks are solved through classifica- tion, an inducted classifier predicts each instance on the set and then counts how many were labeled for each class - this approach is also known as Classify and Count. However, the Classify and Count approach shows poor results as soon as the class distribution of the test set differs from the class distribution of the training set. Thus, specific algorithms and models have been proposed to solve quantification problems accurately. It is really common to analyze big data through time. In text domains, as the Twitter platform, which have a large set of unstructured data being generate at every instant, it is challenging to extract useful and summarized information at the same time. Besides, text domains show specific characteristics that increase the complexity of how those infor- mation are extracted. A popular analysis is to discovery trending topics or how people’s opinion about a specific topic. To do this, it is possible to use quantification methods to categorize and consequently summarize a massive number of texts. The proposal of this work is to make an analysis about textual quantification pro- blems distributed over time. More precisely, this work intent to evaluate how time affects the perfomance of quantification models. Three different approaches were evaluated to understand the impact of time: training only once the quantification model; update the model periodically, thus decreasing its time lag; and a forecasting approach, using regres- sion models. This research presents some intereseting conclusions which show that there are some peculiarities in these evaluated datasets and that state-of-the-art models may not present the best performances as expected.
publishDate 2023
dc.date.issued.fl_str_mv 2023-12-13
dc.date.accessioned.fl_str_mv 2024-07-02T12:41:46Z
dc.date.available.fl_str_mv 2024-07-02T12:41:46Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv UENO, Caio Luiggy Riyoichi Sawada. Análise sobre o fator temporal em tarefas de quantificação com dados textuais. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19702.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/19702
identifier_str_mv UENO, Caio Luiggy Riyoichi Sawada. Análise sobre o fator temporal em tarefas de quantificação com dados textuais. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19702.
url https://repositorio.ufscar.br/handle/20.500.14289/19702
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/45186728-03f1-471d-9f09-48b2a5986420/download
https://repositorio.ufscar.br/bitstreams/d6770b69-488c-4b76-bba5-50b6521a4b94/download
https://repositorio.ufscar.br/bitstreams/9b752d01-93c6-4add-ae0b-206f73c4747e/download
https://repositorio.ufscar.br/bitstreams/f84928dd-1454-4346-97e2-c61e9abd8604/download
bitstream.checksum.fl_str_mv 10c2dfe2162fa39697b66f54f2d0bcda
d5e9958bd33d0a41b7326e78ab106055
10f318c4eedb73210b976c75136f943d
4774e414fb27824b0dfca5f33e4ff24f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688797775855616