Análise sobre o fator temporal em tarefas de quantificação com dados textuais
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/19702 |
Resumo: | The quantification task, a recently discovered field in machine learning, estimates the class distribution of a dataset. Usually, quantification tasks are solved through classifica- tion, an inducted classifier predicts each instance on the set and then counts how many were labeled for each class - this approach is also known as Classify and Count. However, the Classify and Count approach shows poor results as soon as the class distribution of the test set differs from the class distribution of the training set. Thus, specific algorithms and models have been proposed to solve quantification problems accurately. It is really common to analyze big data through time. In text domains, as the Twitter platform, which have a large set of unstructured data being generate at every instant, it is challenging to extract useful and summarized information at the same time. Besides, text domains show specific characteristics that increase the complexity of how those infor- mation are extracted. A popular analysis is to discovery trending topics or how people’s opinion about a specific topic. To do this, it is possible to use quantification methods to categorize and consequently summarize a massive number of texts. The proposal of this work is to make an analysis about textual quantification pro- blems distributed over time. More precisely, this work intent to evaluate how time affects the perfomance of quantification models. Three different approaches were evaluated to understand the impact of time: training only once the quantification model; update the model periodically, thus decreasing its time lag; and a forecasting approach, using regres- sion models. This research presents some intereseting conclusions which show that there are some peculiarities in these evaluated datasets and that state-of-the-art models may not present the best performances as expected. |
| id |
SCAR_69d5746dcd54d86481bed35dd1c547ce |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/19702 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Ueno, Caio Luiggy Riyoichi SawadaSilva, Diego Furtadohttp://lattes.cnpq.br/7662777934692986http://lattes.cnpq.br/97176438674501732024-07-02T12:41:46Z2024-07-02T12:41:46Z2023-12-13UENO, Caio Luiggy Riyoichi Sawada. Análise sobre o fator temporal em tarefas de quantificação com dados textuais. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19702.https://repositorio.ufscar.br/handle/20.500.14289/19702The quantification task, a recently discovered field in machine learning, estimates the class distribution of a dataset. Usually, quantification tasks are solved through classifica- tion, an inducted classifier predicts each instance on the set and then counts how many were labeled for each class - this approach is also known as Classify and Count. However, the Classify and Count approach shows poor results as soon as the class distribution of the test set differs from the class distribution of the training set. Thus, specific algorithms and models have been proposed to solve quantification problems accurately. It is really common to analyze big data through time. In text domains, as the Twitter platform, which have a large set of unstructured data being generate at every instant, it is challenging to extract useful and summarized information at the same time. Besides, text domains show specific characteristics that increase the complexity of how those infor- mation are extracted. A popular analysis is to discovery trending topics or how people’s opinion about a specific topic. To do this, it is possible to use quantification methods to categorize and consequently summarize a massive number of texts. The proposal of this work is to make an analysis about textual quantification pro- blems distributed over time. More precisely, this work intent to evaluate how time affects the perfomance of quantification models. Three different approaches were evaluated to understand the impact of time: training only once the quantification model; update the model periodically, thus decreasing its time lag; and a forecasting approach, using regres- sion models. This research presents some intereseting conclusions which show that there are some peculiarities in these evaluated datasets and that state-of-the-art models may not present the best performances as expected.A quantificação, área relativamente nova em aprendizado de máquina, se preocupa em estimar a distribuição das classes em um determinado conjunto de instâncias. Usualmente, tarefas de quantificação são resolvidas por meio de classificação, onde um classificador prediz a classe das instâncias dentro do conjunto e uma contagem simples dos rótulos preditos é feita - método conhecido como Classify and Count. Entretanto, esse método não apresenta bons resultados à medida que a distribuição das classes no conjunto de teste se distância da distribuição das classes no conjunto de treinamento do classificador. Por isso, métodos e modelos específicos têm sido desenvolvidos para a resolução de problemas de quantificação. Em cenários de dados volumosos é comum realizar análises da perspectiva temporal. Por exemplo, em domínios textuais como postagens em redes sociais, que possuem uma grande quantidade de dados não estruturados sendo gerados a todo instante, é um de- safio grande extrair informações de forma condensada. Além disso, o domínio apresenta características próprias que aumentam a complexidade da forma como essas informações são extraídas. Uma das principais demandas nesse domínio é sumarizar o que ou como se fala sobre determinados tópicos na plataforma. Para tanto, é possível utilizar técnicas de quantificação para resumir uma quantidade massiva de textos. Este trabalho apresenta uma análise sobre o problema de quantificação em conjun- tos de dados textuais distribuídos ao longo do tempo. Mais precisamente, este trabalho propõe avaliar como a estrutura temporal dos dados afeta a performance de modelos treinados para solucionar o problema da quantificação. Três formas distintas foram ado- tadas para se entender o impacto da passagem do tempo: treinar somente uma vez o modelo de quantificação; atualizar o modelo periodicamente, diminuindo assim a defasa- gem temporal; e, por fim, uma abordagem de forecasting de séries temporais, utilizando modelos de regressão. Os resultados mostram que existem peculiaridades nos conjuntos de dados avaliados neste trabalho e que, em determinados cenários, modelos considerados estado-da-arte não apresentam as melhores performances.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nd/3.0/br/info:eu-repo/semantics/openAccessAprendizado de MáquinaQuantificaçãoSéries temporaisMachine learningQuantificationTime seriesCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAnálise sobre o fator temporal em tarefas de quantificação com dados textuaisTemporal factor analysis in quantification tasks in text datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXT_Caio_Ueno__Dissertação_de_Mestrado.pdf.txt_Caio_Ueno__Dissertação_de_Mestrado.pdf.txtExtracted texttext/plain104722https://repositorio.ufscar.br/bitstreams/45186728-03f1-471d-9f09-48b2a5986420/download10c2dfe2162fa39697b66f54f2d0bcdaMD53falseAnonymousREADTHUMBNAIL_Caio_Ueno__Dissertação_de_Mestrado.pdf.jpg_Caio_Ueno__Dissertação_de_Mestrado.pdf.jpgGenerated Thumbnailimage/jpeg4065https://repositorio.ufscar.br/bitstreams/d6770b69-488c-4b76-bba5-50b6521a4b94/downloadd5e9958bd33d0a41b7326e78ab106055MD54falseAnonymousREADORIGINAL_Caio_Ueno__Dissertação_de_Mestrado.pdf_Caio_Ueno__Dissertação_de_Mestrado.pdfapplication/pdf3636366https://repositorio.ufscar.br/bitstreams/9b752d01-93c6-4add-ae0b-206f73c4747e/download10f318c4eedb73210b976c75136f943dMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8804https://repositorio.ufscar.br/bitstreams/f84928dd-1454-4346-97e2-c61e9abd8604/download4774e414fb27824b0dfca5f33e4ff24fMD52falseAnonymousREAD20.500.14289/197022025-02-06 01:58:08.573http://creativecommons.org/licenses/by-nd/3.0/br/Attribution-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19702https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T04:58:08Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais |
| dc.title.alternative.eng.fl_str_mv |
Temporal factor analysis in quantification tasks in text data |
| title |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais |
| spellingShingle |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais Ueno, Caio Luiggy Riyoichi Sawada Aprendizado de Máquina Quantificação Séries temporais Machine learning Quantification Time series CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| title_short |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais |
| title_full |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais |
| title_fullStr |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais |
| title_full_unstemmed |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais |
| title_sort |
Análise sobre o fator temporal em tarefas de quantificação com dados textuais |
| author |
Ueno, Caio Luiggy Riyoichi Sawada |
| author_facet |
Ueno, Caio Luiggy Riyoichi Sawada |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/9717643867450173 |
| dc.contributor.author.fl_str_mv |
Ueno, Caio Luiggy Riyoichi Sawada |
| dc.contributor.advisor1.fl_str_mv |
Silva, Diego Furtado |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7662777934692986 |
| contributor_str_mv |
Silva, Diego Furtado |
| dc.subject.por.fl_str_mv |
Aprendizado de Máquina Quantificação Séries temporais |
| topic |
Aprendizado de Máquina Quantificação Séries temporais Machine learning Quantification Time series CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Machine learning Quantification Time series |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| description |
The quantification task, a recently discovered field in machine learning, estimates the class distribution of a dataset. Usually, quantification tasks are solved through classifica- tion, an inducted classifier predicts each instance on the set and then counts how many were labeled for each class - this approach is also known as Classify and Count. However, the Classify and Count approach shows poor results as soon as the class distribution of the test set differs from the class distribution of the training set. Thus, specific algorithms and models have been proposed to solve quantification problems accurately. It is really common to analyze big data through time. In text domains, as the Twitter platform, which have a large set of unstructured data being generate at every instant, it is challenging to extract useful and summarized information at the same time. Besides, text domains show specific characteristics that increase the complexity of how those infor- mation are extracted. A popular analysis is to discovery trending topics or how people’s opinion about a specific topic. To do this, it is possible to use quantification methods to categorize and consequently summarize a massive number of texts. The proposal of this work is to make an analysis about textual quantification pro- blems distributed over time. More precisely, this work intent to evaluate how time affects the perfomance of quantification models. Three different approaches were evaluated to understand the impact of time: training only once the quantification model; update the model periodically, thus decreasing its time lag; and a forecasting approach, using regres- sion models. This research presents some intereseting conclusions which show that there are some peculiarities in these evaluated datasets and that state-of-the-art models may not present the best performances as expected. |
| publishDate |
2023 |
| dc.date.issued.fl_str_mv |
2023-12-13 |
| dc.date.accessioned.fl_str_mv |
2024-07-02T12:41:46Z |
| dc.date.available.fl_str_mv |
2024-07-02T12:41:46Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
UENO, Caio Luiggy Riyoichi Sawada. Análise sobre o fator temporal em tarefas de quantificação com dados textuais. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19702. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/19702 |
| identifier_str_mv |
UENO, Caio Luiggy Riyoichi Sawada. Análise sobre o fator temporal em tarefas de quantificação com dados textuais. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19702. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/19702 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/45186728-03f1-471d-9f09-48b2a5986420/download https://repositorio.ufscar.br/bitstreams/d6770b69-488c-4b76-bba5-50b6521a4b94/download https://repositorio.ufscar.br/bitstreams/9b752d01-93c6-4add-ae0b-206f73c4747e/download https://repositorio.ufscar.br/bitstreams/f84928dd-1454-4346-97e2-c61e9abd8604/download |
| bitstream.checksum.fl_str_mv |
10c2dfe2162fa39697b66f54f2d0bcda d5e9958bd33d0a41b7326e78ab106055 10f318c4eedb73210b976c75136f943d 4774e414fb27824b0dfca5f33e4ff24f |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688797775855616 |