Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07042021-133413/ |
Resumo: | Contexto: A expansão do acesso à banda larga no mundo está abrindo novos caminhos para o ensino, os quais podemos destacar o ensino aberto. A UNESCO em seu relatório anual de 2016 destacou que existem fortes interesses em incentivar a utilização de recursos educacionais abertos (REA) no campo de aprendizagem. Porém, a falta de qualidade dos REA é um desafio a ser superado. Em uma recolha na Plataforma Integrada do Ministério da Educação (MEC-RED) de maio de 2018, 41% dos recursos não possuíam classificação da etapa de ensino, dificultando sua busca, uso e edição. A literatura mais recente em avaliação automática da complexidade textual traz três grandes abordagens para essa tarefa: (i) uso de técnicas estatísticas como a Análise de Componentes Principais e a Análise Fatorial para reduzir um grande número de métricas linguísticas em poucas dimensões explicativas da complexidade textual; (ii) a abordagem de aprendizado de máquina, via construção de classificadores ou regressores, muitas vezes com o uso de métodos de seleção de features ou com avaliação da contribuição de conjuntos de features para a tarefa; e (iii) a abordagem de Deep Learning, que usa arquiteturas neurais com diversas características para evitar o uso de engenharia de features. Lacunas: Na avaliação automática da complexidade textual, até onde sabemos, não há trabalhos que aplicaram a abordagem Multi-task Learning com o propósito de construir um preditor de complexidade textual, e na avaliação da qualidade de metadados de REA a abordagem Deep Learning não havia sido explorada antes desta pesquisa. Proposta: A tarefa Complexidade Textual pode ajudar a identificar textos que tem complexidade linguística adequada a séries específicas, permitindo completar a etapa de ensino na MEC-RED. Avaliamos o impacto do gênero textual na avaliação da complexidade textual, com modelos treinados em um grande córpus de textos didáticos e testados em 2 datasets de REA da MEC-RED. Para REA que não possuem material textual, como vídeos e áudios, propusemos a avaliação de sua qualidade via título e resumo. Métodos de Avaliação: Para a avaliação em geral, foram usadas métricas comuns da área de Processamento de Línguas Naturais (PLN). Resultados: Como resultados, propusemos dois métodos de classificação da qualidade dos metadados de REA, usando Deep Learning (DeepMD e DeepMDX); além de uma larga avaliação da complexidade textual de REA no Português Brasileiro. Nesta última, usamos várias abordagens, incluindo Multi-task Learning, que não havia sido testada anteriormente, em duas arquiteturas (MTC-DTG Simplex e MTC-DTG). O melhor resultado para a classificação da qualidade de metadados, utilizando um dataset com 1.179 título/resumo de REA, foi de 0.98% de medida F, tanto com o modelo DeepMD como com o DeepMDX. Na avaliação da complexidade textual, podemos destacar o desempenho do modelo multi-task learning com duas tarefas auxiliares (MTC-DTG) que obteve 0.95% de medida F, o que trouxe uma melhoria de 0.15 pontos no melhor modelo de aprendizado de máquina tradicional (SVM). |
| id |
USP_e02de12118b9ba1c8fd5174572125e47 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-07042021-133413 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas NaturaisAutomatically assessing open educational resources using computational techniques based on natural language processingComplexidade TextualDeep learningDeep learningMulti-task learningMulti-task learningNatural language processingProcessamento de língua naturalReadabilityContexto: A expansão do acesso à banda larga no mundo está abrindo novos caminhos para o ensino, os quais podemos destacar o ensino aberto. A UNESCO em seu relatório anual de 2016 destacou que existem fortes interesses em incentivar a utilização de recursos educacionais abertos (REA) no campo de aprendizagem. Porém, a falta de qualidade dos REA é um desafio a ser superado. Em uma recolha na Plataforma Integrada do Ministério da Educação (MEC-RED) de maio de 2018, 41% dos recursos não possuíam classificação da etapa de ensino, dificultando sua busca, uso e edição. A literatura mais recente em avaliação automática da complexidade textual traz três grandes abordagens para essa tarefa: (i) uso de técnicas estatísticas como a Análise de Componentes Principais e a Análise Fatorial para reduzir um grande número de métricas linguísticas em poucas dimensões explicativas da complexidade textual; (ii) a abordagem de aprendizado de máquina, via construção de classificadores ou regressores, muitas vezes com o uso de métodos de seleção de features ou com avaliação da contribuição de conjuntos de features para a tarefa; e (iii) a abordagem de Deep Learning, que usa arquiteturas neurais com diversas características para evitar o uso de engenharia de features. Lacunas: Na avaliação automática da complexidade textual, até onde sabemos, não há trabalhos que aplicaram a abordagem Multi-task Learning com o propósito de construir um preditor de complexidade textual, e na avaliação da qualidade de metadados de REA a abordagem Deep Learning não havia sido explorada antes desta pesquisa. Proposta: A tarefa Complexidade Textual pode ajudar a identificar textos que tem complexidade linguística adequada a séries específicas, permitindo completar a etapa de ensino na MEC-RED. Avaliamos o impacto do gênero textual na avaliação da complexidade textual, com modelos treinados em um grande córpus de textos didáticos e testados em 2 datasets de REA da MEC-RED. Para REA que não possuem material textual, como vídeos e áudios, propusemos a avaliação de sua qualidade via título e resumo. Métodos de Avaliação: Para a avaliação em geral, foram usadas métricas comuns da área de Processamento de Línguas Naturais (PLN). Resultados: Como resultados, propusemos dois métodos de classificação da qualidade dos metadados de REA, usando Deep Learning (DeepMD e DeepMDX); além de uma larga avaliação da complexidade textual de REA no Português Brasileiro. Nesta última, usamos várias abordagens, incluindo Multi-task Learning, que não havia sido testada anteriormente, em duas arquiteturas (MTC-DTG Simplex e MTC-DTG). O melhor resultado para a classificação da qualidade de metadados, utilizando um dataset com 1.179 título/resumo de REA, foi de 0.98% de medida F, tanto com o modelo DeepMD como com o DeepMDX. Na avaliação da complexidade textual, podemos destacar o desempenho do modelo multi-task learning com duas tarefas auxiliares (MTC-DTG) que obteve 0.95% de medida F, o que trouxe uma melhoria de 0.15 pontos no melhor modelo de aprendizado de máquina tradicional (SVM).Background: The expansion of broadband access in the world is opening new paths for education, which we can highlight open education. UNESCO in its 2016 annual report highlighted that there are strong interests in encouraging the use of open educational resources (OER) for learning. However, the lack of quality of OER is a challenge to be overcome. The analysis of a corpus of resources taken from a dump of May 2018 of the Integrated Platform of the Ministry of Education (MEC-RED), 41% of the resources did not have classification of the teaching stage, making it difficult to search, use and edit them. The literature on automatic assessment of textual complexity (or readability) brings three major approaches to this task: (i) use of statistical techniques such as Principal Component Analysis and Factor Analysis to reduce a large number of linguistic metrics in a few explanatory dimensions of textual complexity; (ii) the machine learning approach, through the construction of classifiers or regressors, often with the use of features selection methods or with the evaluation of the contribution of feature sets to the task; and (iii) the Deep Learning approach, which uses neural architectures with different characteristics to avoid the use of feature engineering. Gaps: In the automatic evaluation of textual complexity, as far as we know, there are no studies that applied the Multi-task Learning (MTL) approach in order to build a predictor of textual complexity and in the evaluation of the quality of OER metadata, Deep Learning approaches had not been explored before this research. Objectives: The Textual Complexity task can help to identify texts that have linguistic complexity appropriate to specific grades, allowing to complete the teaching stage of MEC-RED. We evaluated the impact of the textual genre in the assessment of textual complexity, with models trained in a large corpus of textbooks and tested in two datasets of OER from MEC-RED. For OER that do not have textual material, such as videos and audios, we proposed to assess their quality via title and summary. Evaluation: For evaluation, common metrics from the Natural Language Processing (PLN) area were used to assess the performance of the developed approaches. Results: As for results, we have developed two methods for classifying the quality of OER metadata, using Deep Learning (DeepMD and DeepMDX) and carried out a broad assessment of the textual complexity of OER in Brazilian Portuguese. In the latter, we used several approaches, including Multi-task Learning, which had not been previously tested, on two architectures (MTC-DTG Simplex and MTC-DTG). The best result for the classification of metadata quality, using a dataset with 1,179 OER title/abstract, was 0.98 % of F-measure, both with the DeepMD model and with the DeepMDX. In the assessment of textual complexity, we can highlight the performance of the multi-task learning model with two auxiliary tasks (MTC-DTG) that obtained 0.95% of F-measure, an improvement of 0.15 points over the best model using traditional machine learning (SVM).Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaGazzola, Murilo Gleyson2021-02-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-07042021-133413/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-04-07T19:39:02Zoai:teses.usp.br:tde-07042021-133413Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-04-07T19:39:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais Automatically assessing open educational resources using computational techniques based on natural language processing |
| title |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais |
| spellingShingle |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais Gazzola, Murilo Gleyson Complexidade Textual Deep learning Deep learning Multi-task learning Multi-task learning Natural language processing Processamento de língua natural Readability |
| title_short |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais |
| title_full |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais |
| title_fullStr |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais |
| title_full_unstemmed |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais |
| title_sort |
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais |
| author |
Gazzola, Murilo Gleyson |
| author_facet |
Gazzola, Murilo Gleyson |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Aluisio, Sandra Maria |
| dc.contributor.author.fl_str_mv |
Gazzola, Murilo Gleyson |
| dc.subject.por.fl_str_mv |
Complexidade Textual Deep learning Deep learning Multi-task learning Multi-task learning Natural language processing Processamento de língua natural Readability |
| topic |
Complexidade Textual Deep learning Deep learning Multi-task learning Multi-task learning Natural language processing Processamento de língua natural Readability |
| description |
Contexto: A expansão do acesso à banda larga no mundo está abrindo novos caminhos para o ensino, os quais podemos destacar o ensino aberto. A UNESCO em seu relatório anual de 2016 destacou que existem fortes interesses em incentivar a utilização de recursos educacionais abertos (REA) no campo de aprendizagem. Porém, a falta de qualidade dos REA é um desafio a ser superado. Em uma recolha na Plataforma Integrada do Ministério da Educação (MEC-RED) de maio de 2018, 41% dos recursos não possuíam classificação da etapa de ensino, dificultando sua busca, uso e edição. A literatura mais recente em avaliação automática da complexidade textual traz três grandes abordagens para essa tarefa: (i) uso de técnicas estatísticas como a Análise de Componentes Principais e a Análise Fatorial para reduzir um grande número de métricas linguísticas em poucas dimensões explicativas da complexidade textual; (ii) a abordagem de aprendizado de máquina, via construção de classificadores ou regressores, muitas vezes com o uso de métodos de seleção de features ou com avaliação da contribuição de conjuntos de features para a tarefa; e (iii) a abordagem de Deep Learning, que usa arquiteturas neurais com diversas características para evitar o uso de engenharia de features. Lacunas: Na avaliação automática da complexidade textual, até onde sabemos, não há trabalhos que aplicaram a abordagem Multi-task Learning com o propósito de construir um preditor de complexidade textual, e na avaliação da qualidade de metadados de REA a abordagem Deep Learning não havia sido explorada antes desta pesquisa. Proposta: A tarefa Complexidade Textual pode ajudar a identificar textos que tem complexidade linguística adequada a séries específicas, permitindo completar a etapa de ensino na MEC-RED. Avaliamos o impacto do gênero textual na avaliação da complexidade textual, com modelos treinados em um grande córpus de textos didáticos e testados em 2 datasets de REA da MEC-RED. Para REA que não possuem material textual, como vídeos e áudios, propusemos a avaliação de sua qualidade via título e resumo. Métodos de Avaliação: Para a avaliação em geral, foram usadas métricas comuns da área de Processamento de Línguas Naturais (PLN). Resultados: Como resultados, propusemos dois métodos de classificação da qualidade dos metadados de REA, usando Deep Learning (DeepMD e DeepMDX); além de uma larga avaliação da complexidade textual de REA no Português Brasileiro. Nesta última, usamos várias abordagens, incluindo Multi-task Learning, que não havia sido testada anteriormente, em duas arquiteturas (MTC-DTG Simplex e MTC-DTG). O melhor resultado para a classificação da qualidade de metadados, utilizando um dataset com 1.179 título/resumo de REA, foi de 0.98% de medida F, tanto com o modelo DeepMD como com o DeepMDX. Na avaliação da complexidade textual, podemos destacar o desempenho do modelo multi-task learning com duas tarefas auxiliares (MTC-DTG) que obteve 0.95% de medida F, o que trouxe uma melhoria de 0.15 pontos no melhor modelo de aprendizado de máquina tradicional (SVM). |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-02-09 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07042021-133413/ |
| url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-07042021-133413/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815257956243996672 |