Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/8/8139/tde-16072024-121803/ |
Resumo: | Os diagnósticos de Doença de Alzheimer (DA) e de Comprometimento Cognitivo Leve (CCL) são processos, por vezes, custosos (para o indivíduo ou para o orçamento público) por envolverem recursos materiais e humanos, como consultas e exames médicos; além disso, podem ser obtidos quando essas condições neurodegenerativas já se encontram em estado avançado. No entanto, quanto mais precoce for o diagnóstico, melhor qualidade de vida o indivíduo tenderá a ter. Assim, para isso e para além de marcadores biológicos, existem outras pistas que o corpo humano fornece, cujos surgimentos e primeiros estágios o indivíduo ou seus familiares podem até não notar, mas são bons caminhos para se tentar identificar o início dessas doenças. Dentre essas pistas, estão alterações no campo da linguagem e é da classificação automática delas, bem uma análise linguística pormenorizada delas que esta pesquisa se ocupa. Para isso, foi feita (a) uma revisão da literatura acerca de corpora, tarefas, técnicas e resultados que tangenciam nosso escopo; (b) a escolha de um corpus para trabalho, chamado Datasets of Neuropsychological Language Tests in Brazilian Portuguese (DNLT-BP), além da realização de uma breve limpeza, organização dos dados; (c) elaboração, por meio de técnicas de Processamento de Linguagem Natural, de quatro modelos de classificação textual, um bayesiano ingênuo, outros dois calcados em redes neurais artificiais recorrentes (uma de propagação para frente e outra bidirecional, BiLSTM), além de um modelo baseado em transformers adaptado ao Português Brasileiro, DistilBERT. Os resultados mostram que três dos modelos cumpriram a tarefa satisfatoriamente, conseguindo cobrir bem métricas de avaliação da tarefa de classificação, sobretudo na distinção entre DA vs. controle e CCL vs. controle. Uma análise paralela que conduzimos foi a da incidência de fenômenos linguísticos de hesitação, a saber: pausas preenchidas, gaguejamentos, falsos inícios e repetições hesitativas. Por parte dessa análise, notar-se-á novamente que o grupo-controle apresenta a menor incidência deles em relação aos outros dois grupos |
| id |
USP_2c95b74a29e75464bbf2960dcf97f1f5 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-16072024-121803 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo LeveText classification of narratives produced by individuals with Alzheimers Disease or Mild Cognitive DeficitAlzheimer's diseaseClassificação textualDéficit cognitivo leveDoença de AlzheimerLinguística computacionalMild Cognitive ImpairmentNatural Language ProcessingText ClassificationOs diagnósticos de Doença de Alzheimer (DA) e de Comprometimento Cognitivo Leve (CCL) são processos, por vezes, custosos (para o indivíduo ou para o orçamento público) por envolverem recursos materiais e humanos, como consultas e exames médicos; além disso, podem ser obtidos quando essas condições neurodegenerativas já se encontram em estado avançado. No entanto, quanto mais precoce for o diagnóstico, melhor qualidade de vida o indivíduo tenderá a ter. Assim, para isso e para além de marcadores biológicos, existem outras pistas que o corpo humano fornece, cujos surgimentos e primeiros estágios o indivíduo ou seus familiares podem até não notar, mas são bons caminhos para se tentar identificar o início dessas doenças. Dentre essas pistas, estão alterações no campo da linguagem e é da classificação automática delas, bem uma análise linguística pormenorizada delas que esta pesquisa se ocupa. Para isso, foi feita (a) uma revisão da literatura acerca de corpora, tarefas, técnicas e resultados que tangenciam nosso escopo; (b) a escolha de um corpus para trabalho, chamado Datasets of Neuropsychological Language Tests in Brazilian Portuguese (DNLT-BP), além da realização de uma breve limpeza, organização dos dados; (c) elaboração, por meio de técnicas de Processamento de Linguagem Natural, de quatro modelos de classificação textual, um bayesiano ingênuo, outros dois calcados em redes neurais artificiais recorrentes (uma de propagação para frente e outra bidirecional, BiLSTM), além de um modelo baseado em transformers adaptado ao Português Brasileiro, DistilBERT. Os resultados mostram que três dos modelos cumpriram a tarefa satisfatoriamente, conseguindo cobrir bem métricas de avaliação da tarefa de classificação, sobretudo na distinção entre DA vs. controle e CCL vs. controle. Uma análise paralela que conduzimos foi a da incidência de fenômenos linguísticos de hesitação, a saber: pausas preenchidas, gaguejamentos, falsos inícios e repetições hesitativas. Por parte dessa análise, notar-se-á novamente que o grupo-controle apresenta a menor incidência deles em relação aos outros dois gruposThe diagnoses of Alzheimers Disease (AD) and Mild Cognitive Impairment (MCI) are sometimes costly processes (either for the individual or for public budgets) as they involve material and human resources, such as medical consultations and exams. Additionally, they may be obtained when these neurodegenerative conditions are already in an advanced state. However, the earlier the diagnosis, the better the individuals quality of life tends to be. Hence, in addition to biological markers, there are other clues provided by the human body, whose emergence and initial stages the individual or their family may not notice but are promising paths to try to identify the onset of these diseases. Among these clues are changes in the field of language, and it is the automatic classification of these changes, as well as a detailed linguistic analysis of them, that this research addresses. To achieve this, the study carried out: (a) A literature review on corpora, tasks, techniques, and results related to our scope. (b) The selection of a corpus for the study, named Datasets of Neuropsychological Language Tests in Brazilian Portuguese (DNLT-BP), along with a brief pre-processing routine of the data. (c) The development of four text classification models using Natural Language Processing techniques: a naïve Bayesian model, two based on recurrent artificial neural networks (one feedforward and one bidirectional, BiLSTM), and a model based on transformers adapted to Brazilian Portuguese, DistilBERT. The results show that three of the models successfully performed the task, achieving good evaluation metrics, particularly in distinguishing between AD vs. control and MCI vs. control. A parallel analysis was conducted regarding the occurrence of linguistic hesitation phenomena, namely filled pauses, stuttering, false onsets, and hesitative repetitions. From this analysis, it is noteworthy that the control group has the lowest incidence of these phenomena compared to the other two groupsBiblioteca Digitais de Teses e Dissertações da USPLopes, Marcos FernandoSilva, José Roberto Homeli da2024-01-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/8/8139/tde-16072024-121803/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-07T18:20:09Zoai:teses.usp.br:tde-16072024-121803Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-07T18:20:09Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve Text classification of narratives produced by individuals with Alzheimers Disease or Mild Cognitive Deficit |
| title |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve |
| spellingShingle |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve Silva, José Roberto Homeli da Alzheimer's disease Classificação textual Déficit cognitivo leve Doença de Alzheimer Linguística computacional Mild Cognitive Impairment Natural Language Processing Text Classification |
| title_short |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve |
| title_full |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve |
| title_fullStr |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve |
| title_full_unstemmed |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve |
| title_sort |
Classificação textual de narrativas de indivíduos com Doença de Alzheimer ou Déficit Cognitivo Leve |
| author |
Silva, José Roberto Homeli da |
| author_facet |
Silva, José Roberto Homeli da |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lopes, Marcos Fernando |
| dc.contributor.author.fl_str_mv |
Silva, José Roberto Homeli da |
| dc.subject.por.fl_str_mv |
Alzheimer's disease Classificação textual Déficit cognitivo leve Doença de Alzheimer Linguística computacional Mild Cognitive Impairment Natural Language Processing Text Classification |
| topic |
Alzheimer's disease Classificação textual Déficit cognitivo leve Doença de Alzheimer Linguística computacional Mild Cognitive Impairment Natural Language Processing Text Classification |
| description |
Os diagnósticos de Doença de Alzheimer (DA) e de Comprometimento Cognitivo Leve (CCL) são processos, por vezes, custosos (para o indivíduo ou para o orçamento público) por envolverem recursos materiais e humanos, como consultas e exames médicos; além disso, podem ser obtidos quando essas condições neurodegenerativas já se encontram em estado avançado. No entanto, quanto mais precoce for o diagnóstico, melhor qualidade de vida o indivíduo tenderá a ter. Assim, para isso e para além de marcadores biológicos, existem outras pistas que o corpo humano fornece, cujos surgimentos e primeiros estágios o indivíduo ou seus familiares podem até não notar, mas são bons caminhos para se tentar identificar o início dessas doenças. Dentre essas pistas, estão alterações no campo da linguagem e é da classificação automática delas, bem uma análise linguística pormenorizada delas que esta pesquisa se ocupa. Para isso, foi feita (a) uma revisão da literatura acerca de corpora, tarefas, técnicas e resultados que tangenciam nosso escopo; (b) a escolha de um corpus para trabalho, chamado Datasets of Neuropsychological Language Tests in Brazilian Portuguese (DNLT-BP), além da realização de uma breve limpeza, organização dos dados; (c) elaboração, por meio de técnicas de Processamento de Linguagem Natural, de quatro modelos de classificação textual, um bayesiano ingênuo, outros dois calcados em redes neurais artificiais recorrentes (uma de propagação para frente e outra bidirecional, BiLSTM), além de um modelo baseado em transformers adaptado ao Português Brasileiro, DistilBERT. Os resultados mostram que três dos modelos cumpriram a tarefa satisfatoriamente, conseguindo cobrir bem métricas de avaliação da tarefa de classificação, sobretudo na distinção entre DA vs. controle e CCL vs. controle. Uma análise paralela que conduzimos foi a da incidência de fenômenos linguísticos de hesitação, a saber: pausas preenchidas, gaguejamentos, falsos inícios e repetições hesitativas. Por parte dessa análise, notar-se-á novamente que o grupo-controle apresenta a menor incidência deles em relação aos outros dois grupos |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-01-15 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/8/8139/tde-16072024-121803/ |
| url |
https://www.teses.usp.br/teses/disponiveis/8/8139/tde-16072024-121803/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815258220497731584 |