Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Duarte, José Marcio [UNIFESP]
Orientador(a): Berton, Lilian
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
dARK ID: ark:/48912/001300001hx02
Idioma: por
Instituição de defesa: Universidade Federal de São Paulo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.unifesp.br/handle/11600/70610
Resumo: O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.
id UFSP_def43fb4e642b98888e154ed2a774ec2
oai_identifier_str oai:repositorio.unifesp.br:11600/70610
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str
spelling http://lattes.cnpq.br/9064767888093340Duarte, José Marcio [UNIFESP]http://lattes.cnpq.br/9673214814425178Berton, LilianInstituto de Ciência e Tecnologia da Universidade Federal de São Paulo2024-01-23T12:23:17Z2024-01-23T12:23:17Z2023-11-27O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.The advent of the Internet has transformed the way people and companies interact and communicate information and has generated a significant amount of data in natural language text format. Textual documents are unstructured data and Natural Language Processing (NLP) is a method to treat them, which is a sub-area of Artificial Intelligence, aimed at developing techniques capable of computationally interpreting and processing texts. With the support of machine learning algorithms, especially neural networks, relevant results have been achieved in the understanding and analysis of natural languages. One of the NLP tasks that is widely useful is automatic text classification. In the text classification process, textual representation has been attract attention, and has been improved with advanced neural network techniques that generate a distributed representation of words considering their contexts, aiming to contribute to the classifier's performance. In this work, we carried out an analysis of static and contextual text representation methods for NLP tasks, including word sense disambiguation and text classification. In automatic classification, the supervised approach is commonly used, where the data needs to be labeled for model training, however, the labeling task involves costs and requires a considerable period of time. Therefore, a strategy to overcome the difficulty of the data annotation process is semi-supervised learning, whose approach requires a small amount of labeled data and the most part of the data does not need to be annotated. In order to map the state of the art in the use of semi-supervised learning in textual classification, we carried out a systematic review and we identified that this approach is prominent in several applications. In semi-supervised text classification, Virtual Adversarial Training (TAV) presents itself as a suitable method to regularize the classifier and reduce overfitting. Inspired by the attention mechanism and adversarial training for semi-supervised learning, this research proposed a new approach with adversarial perturbation for the attention mechanism. The proposed method investigated perturbation methods to attention mechanisms to generate adversarial examples and with the virtual adversarial training regularize the classification model. The results obtained considering four benchmarks datasets (AgNews, IMDB, SST, 20News) show good performance of the model with a gain in accuracy in some datasets and shorter processing time, surpassing TAV with embeddings perturbation, previously explored in the literature.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88887.661868/2022-00lberton@unifesp.br142 f.Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023.https://repositorio.unifesp.br/handle/11600/70610ark:/48912/001300001hx02porUniversidade Federal de São Pauloinfo:eu-repo/semantics/openAccessClassificação de textoProcessamento de linguagem naturalInteligência artificialAprendizado semissupervisionadoTreinamento adversário virtualText classificationNatural language processingArtificial InteligenceSemi-supervised learningVirtual adversarial trainingDesenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textosPerturbation development in attention mechanism and virutal adversarial training to improve the semi-supevised learning to text classificationinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPInstituto de Ciência e Tecnologia (ICT)Ciência da ComputaçãoCiência da ComputaçãoSistemas InteligentesTEXTDoutorado_A.pdf.txtDoutorado_A.pdf.txtExtracted texttext/plain103068https://repositorio.unifesp.br/bitstreams/6d97cb3e-9dae-4480-94d2-c6c0ef961964/downloadfd5189c40a70e4accccd623926a2b75aMD513Doutorado_final_A.pdf.txtDoutorado_final_A.pdf.txtExtracted texttext/plain103071https://repositorio.unifesp.br/bitstreams/9d15936b-4726-44fe-a493-b4c329c6a97b/downloadc8ae10f801f4991eb4d76c81d3eedd09MD515THUMBNAILDoutorado_A.pdf.jpgDoutorado_A.pdf.jpgGenerated Thumbnailimage/jpeg3850https://repositorio.unifesp.br/bitstreams/09f0b9d8-372c-446d-b57e-0b744e5e4a2b/download6f88d98dbebe1895eaa0f41fc0ece212MD514Doutorado_final_A.pdf.jpgDoutorado_final_A.pdf.jpgGenerated Thumbnailimage/jpeg3897https://repositorio.unifesp.br/bitstreams/3b0163f1-e1d1-4275-880f-df291793d969/download2f8c7217d8f3ede2f191c874eea76742MD516ORIGINALDoutorado_A.pdfDoutorado_A.pdfapplication/pdf15540813https://repositorio.unifesp.br/bitstreams/e58297bd-af0c-4782-96c0-8beea18a7e71/downloadcba7596c777314dedf2d5d7e4b3d758fMD51Doutorado_final_A.pdfDoutorado_final_A.pdfapplication/pdf16159184https://repositorio.unifesp.br/bitstreams/e00a9bd6-342d-4acc-a547-41b8123d4797/download947b0813097971d6d24a1798270aca53MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-85916https://repositorio.unifesp.br/bitstreams/ebf3c049-be37-4f14-96ac-2aca69f36ef2/downloadf9c1a4534dcd8fc9803fd6de91374a41MD5411600/706102024-08-13 19:10:36.31oai:repositorio.unifesp.br:11600/70610https://repositorio.unifesp.brRepositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-13T19:10:36Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)falseVEVSTU9TIEUgQ09OREnDh8OVRVMgUEFSQSBPIExJQ0VOQ0lBTUVOVE8gRE8gQVJRVUlWQU1FTlRPLCBSRVBST0RVw4fDg08gRSBESVZVTEdBw4fDg08gUMOaQkxJQ0EgREUgQ09OVEXDmkRPIE5PIFJFUE9TSVTDk1JJTyBJTlNUSVRVQ0lPTkFMIFVOSUZFU1AKCjEuIEV1LCBKb3NlIER1YXJ0ZSAoam0uZHVhcnRlQHVuaWZlc3AuYnIpLCByZXNwb25zw6F2ZWwgcGVsbyB0cmFiYWxobyDigJxEZXNlbnZvbHZpbWVudG8gZGUgcGVydHVyYmHDp8OjbyBubyBtZWNhbmlzbW8gZGUgYXRlbsOnw6NvIGUgdHJlaW5hbWVudG8gYWR2ZXJzw6FyaW8gdmlydHVhbCBwYXJhIGFwcmltb3JhciBvIGFwcmVuZGl6YWRvIHNlbWlzc3VwZXJ2aXNpb25hZG8gbmEgY2xhc3NpZmljYcOnw6NvIGRlIHRleHRvc+KAnSBlL291IHVzdcOhcmlvLWRlcG9zaXRhbnRlIG5vIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsYXNzZWd1cm8gbm8gcHJlc2VudGUgYXRvIHF1ZSBzb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgZGlyZWl0b3MgY29uZXhvcyByZWZlcmVudGVzIMOgIHRvdGFsaWRhZGUgZGEgT2JyYSBvcmEgZGVwb3NpdGFkYSBlbSBmb3JtYXRvIGRpZ2l0YWwsIGJlbSBjb21vIGRlIHNldXMgY29tcG9uZW50ZXMgbWVub3JlcywgZW0gc2UgdHJhdGFuZG8gZGUgb2JyYSBjb2xldGl2YSwgY29uZm9ybWUgbyBwcmVjZWl0dWFkbyBwZWxhIExlaSA5LjYxMC85OCBlL291IExlaSA5LjYwOS85OC4gTsOjbyBzZW5kbyBlc3RlIG8gY2FzbywgYXNzZWd1cm8gdGVyIG9idGlkbyBkaXJldGFtZW50ZSBkb3MgZGV2aWRvcyB0aXR1bGFyZXMgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlIHBhcmEgYSBkaXZ1bGdhw6fDo28gZGEgT2JyYSwgYWJyYW5nZW5kbyB0b2RvcyBvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmV4b3MgYWZldGFkb3MgcGVsYSBhc3NpbmF0dXJhIGRvIHByZXNlbnRlIHRlcm1vIGRlIGxpY2VuY2lhbWVudG8sIGRlIG1vZG8gYSBlZmV0aXZhbWVudGUgaXNlbnRhciBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIGUgc2V1cyBmdW5jaW9uw6FyaW9zIGRlIHF1YWxxdWVyIHJlc3BvbnNhYmlsaWRhZGUgcGVsbyB1c28gbsOjby1hdXRvcml6YWRvIGRvIG1hdGVyaWFsIGRlcG9zaXRhZG8sIHNlamEgZW0gdmluY3VsYcOnw6NvIGFvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsIHNlamEgZW0gdmluY3VsYcOnw6NvIGEgcXVhaXNxdWVyIHNlcnZpw6dvcyBkZSBidXNjYSBlIGRlIGRpc3RyaWJ1acOnw6NvIGRlIGNvbnRlw7pkbyBxdWUgZmHDp2FtIHVzbyBkYXMgaW50ZXJmYWNlcyBlIGVzcGHDp28gZGUgYXJtYXplbmFtZW50byBwcm92aWRlbmNpYWRvcyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGNvbmNvcmTDom5jaWEgY29tIGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2VxdcOqbmNpYSBhIHRyYW5zZmVyw6puY2lhLCBhIHTDrXR1bG8gbsOjby1leGNsdXNpdm8gZSBuw6NvLW9uZXJvc28sIGlzZW50YSBkbyBwYWdhbWVudG8gZGUgcm95YWx0aWVzIG91IHF1YWxxdWVyIG91dHJhIGNvbnRyYXByZXN0YcOnw6NvLCBwZWN1bmnDoXJpYSBvdSBuw6NvLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBkb3MgZGlyZWl0b3MgZGUgYXJtYXplbmFyIGRpZ2l0YWxtZW50ZSwgZGUgcmVwcm9kdXppciBlIGRlIGRpc3RyaWJ1aXIgbmFjaW9uYWwgZSBpbnRlcm5hY2lvbmFsbWVudGUgYSBPYnJhLCBpbmNsdWluZG8tc2UgbyBzZXUgcmVzdW1vL2Fic3RyYWN0LCBwb3IgbWVpb3MgZWxldHLDtG5pY29zIGFvIHDDumJsaWNvIGVtIGdlcmFsLCBlbSByZWdpbWUgZGUgYWNlc3NvIGFiZXJ0by4KCjMuIEEgcHJlc2VudGUgbGljZW7Dp2EgdGFtYsOpbSBhYnJhbmdlLCBub3MgbWVzbW9zIHRlcm1vcyBlc3RhYmVsZWNpZG9zIG5vIGl0ZW0gMiwgc3VwcmEsIHF1YWxxdWVyIGRpcmVpdG8gZGUgY29tdW5pY2HDp8OjbyBhbyBww7pibGljbyBjYWLDrXZlbCBlbSByZWxhw6fDo28gw6AgT2JyYSBvcmEgZGVwb3NpdGFkYSwgaW5jbHVpbmRvLXNlIG9zIHVzb3MgcmVmZXJlbnRlcyDDoCByZXByZXNlbnRhw6fDo28gcMO6YmxpY2EgZS9vdSBleGVjdcOnw6NvIHDDumJsaWNhLCBiZW0gY29tbyBxdWFscXVlciBvdXRyYSBtb2RhbGlkYWRlIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gcXVlIGV4aXN0YSBvdSB2ZW5oYSBhIGV4aXN0aXIsIG5vcyB0ZXJtb3MgZG8gYXJ0aWdvIDY4IGUgc2VndWludGVzIGRhIExlaSA5LjYxMC85OCwgbmEgZXh0ZW5zw6NvIHF1ZSBmb3IgYXBsaWPDoXZlbCBhb3Mgc2VydmnDp29zIHByZXN0YWRvcyBhbyBww7pibGljbyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubyBpdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdSBleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlIGV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0gY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IgaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqiBvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0gaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZSBxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgIHB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLgogCjYuIEF1dG9yaXphIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU8OjbyBQYXVsbyBhIGRpc3BvbmliaWxpemFyIGEgb2JyYSBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQIGRlIGZvcm1hIGdyYXR1aXRhLCBkZSBhY29yZG8gY29tIGEgbGljZW7Dp2EgcMO6YmxpY2EgQ3JlYXRpdmUgQ29tbW9uczogQXRyaWJ1acOnw6NvLVNlbSBEZXJpdmHDp8O1ZXMtU2VtIERlcml2YWRvcyA0LjAgSW50ZXJuYWNpb25hbCAoQ0MgQlktTkMtTkQpLCBwZXJtaXRpbmRvIHNldSBsaXZyZSBhY2Vzc28sIHVzbyBlIGNvbXBhcnRpbGhhbWVudG8sIGRlc2RlIHF1ZSBjaXRhZGEgYSBmb250ZS4gQSBvYnJhIGNvbnRpbnVhIHByb3RlZ2lkYSBwb3IgRGlyZWl0b3MgQXV0b3JhaXMgZS9vdSBwb3Igb3V0cmFzIGxlaXMgYXBsaWPDoXZlaXMuIFF1YWxxdWVyIHVzbyBkYSBvYnJhLCBxdWUgbsOjbyBvIGF1dG9yaXphZG8gc29iIGVzdGEgbGljZW7Dp2Egb3UgcGVsYSBsZWdpc2xhw6fDo28gYXV0b3JhbCwgw6kgcHJvaWJpZG8uICAKCjcuIEF0ZXN0YSBxdWUgYSBPYnJhIHN1Ym1ldGlkYSBuw6NvIGNvbnTDqW0gcXVhbHF1ZXIgaW5mb3JtYcOnw6NvIGNvbmZpZGVuY2lhbCBzdWEgb3UgZGUgdGVyY2Vpcm9zLgoKOC4gQXRlc3RhIHF1ZSBvIHRyYWJhbGhvIHN1Ym1ldGlkbyDDqSBvcmlnaW5hbCBlIGZvaSBlbGFib3JhZG8gcmVzcGVpdGFuZG8gb3MgcHJpbmPDrXBpb3MgZGEgbW9yYWwgZSBkYSDDqXRpY2EgZSBuw6NvIHZpb2xvdSBxdWFscXVlciBkaXJlaXRvIGRlIHByb3ByaWVkYWRlIGludGVsZWN0dWFsLCBzb2IgcGVuYSBkZSByZXNwb25kZXIgY2l2aWwsIGNyaW1pbmFsLCDDqXRpY2EgZSBwcm9maXNzaW9uYWxtZW50ZSBwb3IgbWV1cyBhdG9zOwoKOS4gQXRlc3RhIHF1ZSBhIHZlcnPDo28gZG8gdHJhYmFsaG8gcHJlc2VudGUgbm8gYXJxdWl2byBzdWJtZXRpZG8gw6kgYSB2ZXJzw6NvIGRlZmluaXRpdmEgcXVlIGluY2x1aSBhcyBhbHRlcmHDp8O1ZXMgZGVjb3JyZW50ZXMgZGEgZGVmZXNhLCBzb2xpY2l0YWRhcyBwZWxhIGJhbmNhLCBzZSBob3V2ZSBhbGd1bWEsIG91IHNvbGljaXRhZGFzIHBvciBwYXJ0ZSBkZSBvcmllbnRhw6fDo28gZG9jZW50ZSByZXNwb25zw6F2ZWw7CgoxMC4gQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgcmVhbGl6YXIgcXVhaXNxdWVyIGFsdGVyYcOnw7VlcyBuYSBtw61kaWEgb3Ugbm8gZm9ybWF0byBkbyBhcnF1aXZvIHBhcmEgcHJvcMOzc2l0b3MgZGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLCBkZSBhY2Vzc2liaWxpZGFkZSBlIGRlIG1lbGhvciBpZGVudGlmaWNhw6fDo28gZG8gdHJhYmFsaG8gc3VibWV0aWRvLCBkZXNkZSBxdWUgbsOjbyBzZWphIGFsdGVyYWRvIHNldSBjb250ZcO6ZG8gaW50ZWxlY3R1YWwuCgpBbyBjb25jbHVpciBhcyBldGFwYXMgZG8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbyBkZSBhcnF1aXZvcyBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLCBhdGVzdG8gcXVlIGxpIGUgY29uY29yZGVpIGludGVncmFsbWVudGUgY29tIG9zIHRlcm1vcyBhY2ltYSBkZWxpbWl0YWRvcywgc2VtIGZhemVyIHF1YWxxdWVyIHJlc2VydmEgZSBub3ZhbWVudGUgY29uZmlybWFuZG8gcXVlIGN1bXBybyBvcyByZXF1aXNpdG9zIGluZGljYWRvcyBub3MgaXRlbnMgbWVuY2lvbmFkb3MgYW50ZXJpb3JtZW50ZS4KCkhhdmVuZG8gcXVhbHF1ZXIgZGlzY29yZMOibmNpYSBlbSByZWxhw6fDo28gYSBwcmVzZW50ZSBsaWNlbsOnYSBvdSBuw6NvIHNlIHZlcmlmaWNhbmRvIG8gZXhpZ2lkbyBub3MgaXRlbnMgYW50ZXJpb3Jlcywgdm9jw6ogZGV2ZSBpbnRlcnJvbXBlciBpbWVkaWF0YW1lbnRlIG8gcHJvY2Vzc28gZGUgc3VibWlzc8Ojby4gQSBjb250aW51aWRhZGUgZG8gcHJvY2Vzc28gZXF1aXZhbGUgw6AgY29uY29yZMOibmNpYSBlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2VxdcOqbmNpYXMgbmVsZSBwcmV2aXN0YXMsIHN1amVpdGFuZG8tc2UgbyBzaWduYXTDoXJpbyBhIHNhbsOnw7VlcyBjaXZpcyBlIGNyaW1pbmFpcyBjYXNvIG7Do28gc2VqYSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXRyaW1vbmlhaXMgZS9vdSBjb25leG9zIGFwbGljw6F2ZWlzIMOgIE9icmEgZGVwb3NpdGFkYSBkdXJhbnRlIGVzdGUgcHJvY2Vzc28sIG91IGNhc28gbsOjbyB0ZW5oYSBvYnRpZG8gcHLDqXZpYSBlIGV4cHJlc3NhIGF1dG9yaXphw6fDo28gZG8gdGl0dWxhciBwYXJhIG8gZGVww7NzaXRvIGUgdG9kb3Mgb3MgdXNvcyBkYSBPYnJhIGVudm9sdmlkb3MuCgpTZSB0aXZlciBxdWFscXVlciBkw7p2aWRhIHF1YW50byBhb3MgdGVybW9zIGRlIGxpY2VuY2lhbWVudG8gZSBxdWFudG8gYW8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbywgZW50cmUgZW0gY29udGF0byBjb20gYSBiaWJsaW90ZWNhIGRvIHNldSBjYW1wdXMgKGNvbnN1bHRlIGVtOiBodHRwczovL2JpYmxpb3RlY2FzLnVuaWZlc3AuYnIvYmlibGlvdGVjYXMtZGEtcmVkZSkuIAoKU8OjbyBQYXVsbywgTW9uIEphbiAyMiAyMDoyNDo1NiBCUlQgMjAyNC4K
dc.title.pt_BR.fl_str_mv Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
dc.title.alternative.pt_BR.fl_str_mv Perturbation development in attention mechanism and virutal adversarial training to improve the semi-supevised learning to text classification
title Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
spellingShingle Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
Duarte, José Marcio [UNIFESP]
Classificação de texto
Processamento de linguagem natural
Inteligência artificial
Aprendizado semissupervisionado
Treinamento adversário virtual
Text classification
Natural language processing
Artificial Inteligence
Semi-supervised learning
Virtual adversarial training
title_short Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_full Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_fullStr Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_full_unstemmed Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_sort Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
author Duarte, José Marcio [UNIFESP]
author_facet Duarte, José Marcio [UNIFESP]
author_role author
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9064767888093340
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9673214814425178
dc.contributor.author.fl_str_mv Duarte, José Marcio [UNIFESP]
dc.contributor.advisor1.fl_str_mv Berton, Lilian
contributor_str_mv Berton, Lilian
dc.subject.por.fl_str_mv Classificação de texto
Processamento de linguagem natural
Inteligência artificial
Aprendizado semissupervisionado
Treinamento adversário virtual
Text classification
Natural language processing
Artificial Inteligence
Semi-supervised learning
Virtual adversarial training
topic Classificação de texto
Processamento de linguagem natural
Inteligência artificial
Aprendizado semissupervisionado
Treinamento adversário virtual
Text classification
Natural language processing
Artificial Inteligence
Semi-supervised learning
Virtual adversarial training
description O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.
publishDate 2023
dc.date.issued.fl_str_mv 2023-11-27
dc.date.accessioned.fl_str_mv 2024-01-23T12:23:17Z
dc.date.available.fl_str_mv 2024-01-23T12:23:17Z
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.unifesp.br/handle/11600/70610
dc.identifier.dark.fl_str_mv ark:/48912/001300001hx02
identifier_str_mv Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023.
ark:/48912/001300001hx02
url https://repositorio.unifesp.br/handle/11600/70610
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 142 f.
dc.coverage.spatial.pt_BR.fl_str_mv Instituto de Ciência e Tecnologia da Universidade Federal de São Paulo
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
bitstream.url.fl_str_mv https://repositorio.unifesp.br/bitstreams/6d97cb3e-9dae-4480-94d2-c6c0ef961964/download
https://repositorio.unifesp.br/bitstreams/9d15936b-4726-44fe-a493-b4c329c6a97b/download
https://repositorio.unifesp.br/bitstreams/09f0b9d8-372c-446d-b57e-0b744e5e4a2b/download
https://repositorio.unifesp.br/bitstreams/3b0163f1-e1d1-4275-880f-df291793d969/download
https://repositorio.unifesp.br/bitstreams/e58297bd-af0c-4782-96c0-8beea18a7e71/download
https://repositorio.unifesp.br/bitstreams/e00a9bd6-342d-4acc-a547-41b8123d4797/download
https://repositorio.unifesp.br/bitstreams/ebf3c049-be37-4f14-96ac-2aca69f36ef2/download
bitstream.checksum.fl_str_mv fd5189c40a70e4accccd623926a2b75a
c8ae10f801f4991eb4d76c81d3eedd09
6f88d98dbebe1895eaa0f41fc0ece212
2f8c7217d8f3ede2f191c874eea76742
cba7596c777314dedf2d5d7e4b3d758f
947b0813097971d6d24a1798270aca53
f9c1a4534dcd8fc9803fd6de91374a41
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv biblioteca.csp@unifesp.br
_version_ 1863845829762088960