Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: ROLIM, Vitor Belarmino
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/59934
Resumo: Com o estabelecimento do ensino a distância como modelo educacional, diversas fer- ramentas foram desenvolvidas com o objetivo de proporcionar uma experiência de ensino semelhante à do ensino presencial. Entre essas ferramentas, destacam-se os fóruns de discus- são, que oferecem aos alunos um ambiente para construção de conhecimento. Técnicas de aprendizagem de máquina vêm sendo empregadas para fornecer classificações dos níveis de desenvolvimento cognitivo dos alunos, baseadas nas interações ocorridas nos fóruns educacio- nais. A criação desses classificadores depende de diversos aspectos para aumentar a acurácia dos modelos treinados; contudo, esses modelos são altamente dependentes da quantidade e qualidade dos dados. A anotação desses dados é um trabalho intensivo que depende de espe- cialistas de domínio e, além disso, há uma escassez de dados devido à dificuldade de aquisição de dados educacionais. Este trabalho investiga a aplicação de técnicas de aprendizagem de máquina para a análise automatizada de discussões online em AVAs, utilizando o modelo CoI. Explora-se a viabilidade de métodos automáticos para a identificação da presença cognitiva em fóruns de discussão, visando entender e otimizar a construção de conhecimento em contex- tos educacionais à distância. Foram utilizados diferentes modelos de aprendizado de máquina, incluindo Random Forest, XGBoost, MLP, além de abordagens de aumento de dados com BERT e GPT-4 para lidar com o desbalanceamento das categorias da presença cognitiva. As características textuais foram extraídas utilizando ferramentas como LIWC, Coh-Metrix e SNA, proporcionando uma representação abrangente das interações e conteúdos discutidos, além de modelos de linguagem focados em codificação, como o DeBERTa. Os resultados mostram que a combinação de técnicas de aprendizado ativo tem grande potencial para o problema abor- dado, considerando a limitação de dados na área educacional, especialmente em relação aos dados anotados. Conseguimos atingir um coeficiente de Cohen’s Kappa de 0.43 e uma acurácia de 0.60 com aprendizado ativo utilizando Random Forest sem aumentação de dados e 0.42 e 0.62 de Cohen’s Kappa e acurácia respectivamente ao utilizar modelos de linguagem para classificação e aumentação dos dados. Esta pesquisa contribui para o avanço das metodologias de análise automatizada em ambientes de aprendizagem online, abrindo possibilidades para a utilização das técnicas desenvolvidas no monitoramento e apoio ao desenvolvimento cognitivo dos alunos, promovendo uma melhor experiência de aprendizagem no ensino à distância.
id UFPE_16c005c8193b8930a6de2ce3263c859a
oai_identifier_str oai:repositorio.ufpe.br:123456789/59934
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem naturalComunidade de investigaçãoFóruns de discussãoPresença cognitivaAnalíticas de aprendizagemProcessamento de linguagem naturalAprendizado ativoCom o estabelecimento do ensino a distância como modelo educacional, diversas fer- ramentas foram desenvolvidas com o objetivo de proporcionar uma experiência de ensino semelhante à do ensino presencial. Entre essas ferramentas, destacam-se os fóruns de discus- são, que oferecem aos alunos um ambiente para construção de conhecimento. Técnicas de aprendizagem de máquina vêm sendo empregadas para fornecer classificações dos níveis de desenvolvimento cognitivo dos alunos, baseadas nas interações ocorridas nos fóruns educacio- nais. A criação desses classificadores depende de diversos aspectos para aumentar a acurácia dos modelos treinados; contudo, esses modelos são altamente dependentes da quantidade e qualidade dos dados. A anotação desses dados é um trabalho intensivo que depende de espe- cialistas de domínio e, além disso, há uma escassez de dados devido à dificuldade de aquisição de dados educacionais. Este trabalho investiga a aplicação de técnicas de aprendizagem de máquina para a análise automatizada de discussões online em AVAs, utilizando o modelo CoI. Explora-se a viabilidade de métodos automáticos para a identificação da presença cognitiva em fóruns de discussão, visando entender e otimizar a construção de conhecimento em contex- tos educacionais à distância. Foram utilizados diferentes modelos de aprendizado de máquina, incluindo Random Forest, XGBoost, MLP, além de abordagens de aumento de dados com BERT e GPT-4 para lidar com o desbalanceamento das categorias da presença cognitiva. As características textuais foram extraídas utilizando ferramentas como LIWC, Coh-Metrix e SNA, proporcionando uma representação abrangente das interações e conteúdos discutidos, além de modelos de linguagem focados em codificação, como o DeBERTa. Os resultados mostram que a combinação de técnicas de aprendizado ativo tem grande potencial para o problema abor- dado, considerando a limitação de dados na área educacional, especialmente em relação aos dados anotados. Conseguimos atingir um coeficiente de Cohen’s Kappa de 0.43 e uma acurácia de 0.60 com aprendizado ativo utilizando Random Forest sem aumentação de dados e 0.42 e 0.62 de Cohen’s Kappa e acurácia respectivamente ao utilizar modelos de linguagem para classificação e aumentação dos dados. Esta pesquisa contribui para o avanço das metodologias de análise automatizada em ambientes de aprendizagem online, abrindo possibilidades para a utilização das técnicas desenvolvidas no monitoramento e apoio ao desenvolvimento cognitivo dos alunos, promovendo uma melhor experiência de aprendizagem no ensino à distância.With the establishment of distance learning as an educational model, various tools have been developed to provide an experience similar to that of in-person education. Among these tools, discussion forums stand out, offering students an environment for knowledge construc- tion, social interaction, and information sharing. Machine learning techniques have also been employed to provide classifications of students’ social and cognitive development levels based on their interactions in educational forums. The creation of these classifiers depends on vari- ous aspects (features) to increase the accuracy of the trained models; however, these models are highly dependent on the quantity and quality of the annotated data in the training set. Annotating this data is a labor-intensive task that relies on several domain experts, and there is also a scarcity of data due to the difficulty of large-scale acquisition of educational data. This work investigates the application of machine learning techniques for the automated anal- ysis of online discussions in virtual learning environments, using the Community of Inquiry (CoI) model. It explores the feasibility of automatic methods for identifying cognitive presence in discussion forums, aiming to understand and optimize knowledge construction in distance education contexts. Different machine learning models were used, including Random Forest, XGBoost, and MLP, along with data augmentation approaches using BERT and GPT-4 to address the imbalance in cognitive presence categories. Textual features were extracted using tools like LIWC, Coh-Metrix, and social network analysis (SNA), providing a comprehensive representation of the interactions and content discussed, along with language models focused on encoding, such as DeBERTa. The results show that the combination of active learning techniques has great potential for the addressed problem, considering the limitation of data in the educational field, especially regarding annotated data. We achieved a Cohen’s Kappa coefficient of 0.43 and an accuracy of 0.60 with active learning using Random Forest without data augmentation, and 0.42 and 0.62 of Cohen’s Kappa and accuracy, respectively, when us- ing language models for classification and data augmentation. This research contributes to the advancement of automated analysis methodologies in online learning environments, opening possibilities for the use of the developed techniques in monitoring and supporting students’ cognitive development, promoting a better learning experience in distance education.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoLINS, Rafael DueireMELLO, Rafael Ferreira Leite dehttp://lattes.cnpq.br/8727432934866593http://lattes.cnpq.br/7601016626256808http://lattes.cnpq.br/6190254569597745ROLIM, Vitor Belarmino2025-01-22T13:50:13Z2025-01-22T13:50:13Z2024-09-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfROLIM, Vitor Belarmino. Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2024.https://repositorio.ufpe.br/handle/123456789/59934porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2025-01-23T05:59:19Zoai:repositorio.ufpe.br:123456789/59934Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212025-01-23T05:59:19Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
title Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
spellingShingle Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
ROLIM, Vitor Belarmino
Comunidade de investigação
Fóruns de discussão
Presença cognitiva
Analíticas de aprendizagem
Processamento de linguagem natural
Aprendizado ativo
title_short Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
title_full Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
title_fullStr Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
title_full_unstemmed Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
title_sort Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural
author ROLIM, Vitor Belarmino
author_facet ROLIM, Vitor Belarmino
author_role author
dc.contributor.none.fl_str_mv LINS, Rafael Dueire
MELLO, Rafael Ferreira Leite de
http://lattes.cnpq.br/8727432934866593
http://lattes.cnpq.br/7601016626256808
http://lattes.cnpq.br/6190254569597745
dc.contributor.author.fl_str_mv ROLIM, Vitor Belarmino
dc.subject.por.fl_str_mv Comunidade de investigação
Fóruns de discussão
Presença cognitiva
Analíticas de aprendizagem
Processamento de linguagem natural
Aprendizado ativo
topic Comunidade de investigação
Fóruns de discussão
Presença cognitiva
Analíticas de aprendizagem
Processamento de linguagem natural
Aprendizado ativo
description Com o estabelecimento do ensino a distância como modelo educacional, diversas fer- ramentas foram desenvolvidas com o objetivo de proporcionar uma experiência de ensino semelhante à do ensino presencial. Entre essas ferramentas, destacam-se os fóruns de discus- são, que oferecem aos alunos um ambiente para construção de conhecimento. Técnicas de aprendizagem de máquina vêm sendo empregadas para fornecer classificações dos níveis de desenvolvimento cognitivo dos alunos, baseadas nas interações ocorridas nos fóruns educacio- nais. A criação desses classificadores depende de diversos aspectos para aumentar a acurácia dos modelos treinados; contudo, esses modelos são altamente dependentes da quantidade e qualidade dos dados. A anotação desses dados é um trabalho intensivo que depende de espe- cialistas de domínio e, além disso, há uma escassez de dados devido à dificuldade de aquisição de dados educacionais. Este trabalho investiga a aplicação de técnicas de aprendizagem de máquina para a análise automatizada de discussões online em AVAs, utilizando o modelo CoI. Explora-se a viabilidade de métodos automáticos para a identificação da presença cognitiva em fóruns de discussão, visando entender e otimizar a construção de conhecimento em contex- tos educacionais à distância. Foram utilizados diferentes modelos de aprendizado de máquina, incluindo Random Forest, XGBoost, MLP, além de abordagens de aumento de dados com BERT e GPT-4 para lidar com o desbalanceamento das categorias da presença cognitiva. As características textuais foram extraídas utilizando ferramentas como LIWC, Coh-Metrix e SNA, proporcionando uma representação abrangente das interações e conteúdos discutidos, além de modelos de linguagem focados em codificação, como o DeBERTa. Os resultados mostram que a combinação de técnicas de aprendizado ativo tem grande potencial para o problema abor- dado, considerando a limitação de dados na área educacional, especialmente em relação aos dados anotados. Conseguimos atingir um coeficiente de Cohen’s Kappa de 0.43 e uma acurácia de 0.60 com aprendizado ativo utilizando Random Forest sem aumentação de dados e 0.42 e 0.62 de Cohen’s Kappa e acurácia respectivamente ao utilizar modelos de linguagem para classificação e aumentação dos dados. Esta pesquisa contribui para o avanço das metodologias de análise automatizada em ambientes de aprendizagem online, abrindo possibilidades para a utilização das técnicas desenvolvidas no monitoramento e apoio ao desenvolvimento cognitivo dos alunos, promovendo uma melhor experiência de aprendizagem no ensino à distância.
publishDate 2024
dc.date.none.fl_str_mv 2024-09-03
2025-01-22T13:50:13Z
2025-01-22T13:50:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ROLIM, Vitor Belarmino. Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2024.
https://repositorio.ufpe.br/handle/123456789/59934
identifier_str_mv ROLIM, Vitor Belarmino. Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2024.
url https://repositorio.ufpe.br/handle/123456789/59934
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856041902645706752