Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Duarte, José Marcio [UNIFESP]

Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Duarte, José Marcio [UNIFESP]
Orientador(a):	Berton, Lilian
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
dARK ID:	ark:/48912/001300001hx02
Idioma:	por
Instituição de defesa:	Universidade Federal de São Paulo
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Classificação de texto Processamento de linguagem natural Inteligência artificial Aprendizado semissupervisionado Treinamento adversário virtual Text classification Natural language processing Artificial Inteligence Semi-supervised learning Virtual adversarial training
Link de acesso:	https://repositorio.unifesp.br/handle/11600/70610
Resumo:	O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.

Metadados do item

id	UFSP_def43fb4e642b98888e154ed2a774ec2
oai_identifier_str	oai:repositorio.unifesp.br:11600/70610
network_acronym_str	UFSP
network_name_str	Repositório Institucional da UNIFESP
repository_id_str
spelling	http://lattes.cnpq.br/9064767888093340Duarte, José Marcio [UNIFESP]http://lattes.cnpq.br/9673214814425178Berton, LilianInstituto de Ciência e Tecnologia da Universidade Federal de São Paulo2024-01-23T12:23:17Z2024-01-23T12:23:17Z2023-11-27O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.The advent of the Internet has transformed the way people and companies interact and communicate information and has generated a significant amount of data in natural language text format. Textual documents are unstructured data and Natural Language Processing (NLP) is a method to treat them, which is a sub-area of Artificial Intelligence, aimed at developing techniques capable of computationally interpreting and processing texts. With the support of machine learning algorithms, especially neural networks, relevant results have been achieved in the understanding and analysis of natural languages. One of the NLP tasks that is widely useful is automatic text classification. In the text classification process, textual representation has been attract attention, and has been improved with advanced neural network techniques that generate a distributed representation of words considering their contexts, aiming to contribute to the classifier's performance. In this work, we carried out an analysis of static and contextual text representation methods for NLP tasks, including word sense disambiguation and text classification. In automatic classification, the supervised approach is commonly used, where the data needs to be labeled for model training, however, the labeling task involves costs and requires a considerable period of time. Therefore, a strategy to overcome the difficulty of the data annotation process is semi-supervised learning, whose approach requires a small amount of labeled data and the most part of the data does not need to be annotated. In order to map the state of the art in the use of semi-supervised learning in textual classification, we carried out a systematic review and we identified that this approach is prominent in several applications. In semi-supervised text classification, Virtual Adversarial Training (TAV) presents itself as a suitable method to regularize the classifier and reduce overfitting. Inspired by the attention mechanism and adversarial training for semi-supervised learning, this research proposed a new approach with adversarial perturbation for the attention mechanism. The proposed method investigated perturbation methods to attention mechanisms to generate adversarial examples and with the virtual adversarial training regularize the classification model. The results obtained considering four benchmarks datasets (AgNews, IMDB, SST, 20News) show good performance of the model with a gain in accuracy in some datasets and shorter processing time, surpassing TAV with embeddings perturbation, previously explored in the literature.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88887.661868/2022-00lberton@unifesp.br142 f.Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023.https://repositorio.unifesp.br/handle/11600/70610ark:/48912/001300001hx02porUniversidade Federal de São Pauloinfo:eu-repo/semantics/openAccessClassificação de textoProcessamento de linguagem naturalInteligência artificialAprendizado semissupervisionadoTreinamento adversário virtualText classificationNatural language processingArtificial InteligenceSemi-supervised learningVirtual adversarial trainingDesenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textosPerturbation development in attention mechanism and virutal adversarial training to improve the semi-supevised learning to text classificationinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPInstituto de Ciência e Tecnologia (ICT)Ciência da ComputaçãoCiência da ComputaçãoSistemas InteligentesTEXTDoutorado_A.pdf.txtDoutorado_A.pdf.txtExtracted texttext/plain103068https://repositorio.unifesp.br/bitstreams/6d97cb3e-9dae-4480-94d2-c6c0ef961964/downloadfd5189c40a70e4accccd623926a2b75aMD513Doutorado_final_A.pdf.txtDoutorado_final_A.pdf.txtExtracted texttext/plain103071https://repositorio.unifesp.br/bitstreams/9d15936b-4726-44fe-a493-b4c329c6a97b/downloadc8ae10f801f4991eb4d76c81d3eedd09MD515THUMBNAILDoutorado_A.pdf.jpgDoutorado_A.pdf.jpgGenerated Thumbnailimage/jpeg3850https://repositorio.unifesp.br/bitstreams/09f0b9d8-372c-446d-b57e-0b744e5e4a2b/download6f88d98dbebe1895eaa0f41fc0ece212MD514Doutorado_final_A.pdf.jpgDoutorado_final_A.pdf.jpgGenerated Thumbnailimage/jpeg3897https://repositorio.unifesp.br/bitstreams/3b0163f1-e1d1-4275-880f-df291793d969/download2f8c7217d8f3ede2f191c874eea76742MD516ORIGINALDoutorado_A.pdfDoutorado_A.pdfapplication/pdf15540813https://repositorio.unifesp.br/bitstreams/e58297bd-af0c-4782-96c0-8beea18a7e71/downloadcba7596c777314dedf2d5d7e4b3d758fMD51Doutorado_final_A.pdfDoutorado_final_A.pdfapplication/pdf16159184https://repositorio.unifesp.br/bitstreams/e00a9bd6-342d-4acc-a547-41b8123d4797/download947b0813097971d6d24a1798270aca53MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-85916https://repositorio.unifesp.br/bitstreams/ebf3c049-be37-4f14-96ac-2aca69f36ef2/downloadf9c1a4534dcd8fc9803fd6de91374a41MD5411600/706102024-08-13 19:10:36.31oai:repositorio.unifesp.br:11600/70610https://repositorio.unifesp.brRepositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-13T19:10:36Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)falseVEVSTU9TIEUgQ09OREnDh8OVRVMgUEFSQSBPIExJQ0VOQ0lBTUVOVE8gRE8gQVJRVUlWQU1FTlRPLCBSRVBST0RVw4fDg08gRSBESVZVTEdBw4fDg08gUMOaQkxJQ0EgREUgQ09OVEXDmkRPIE5PIFJFUE9TSVTDk1JJTyBJTlNUSVRVQ0lPTkFMIFVOSUZFU1AKCjEuIEV1LCBKb3NlIER1YXJ0ZSAoam0uZHVhcnRlQHVuaWZlc3AuYnIpLCByZXNwb25zw6F2ZWwgcGVsbyB0cmFiYWxobyDigJxEZXNlbnZvbHZpbWVudG8gZGUgcGVydHVyYmHDp8OjbyBubyBtZWNhbmlzbW8gZGUgYXRlbsOnw6NvIGUgdHJlaW5hbWVudG8gYWR2ZXJzw6FyaW8gdmlydHVhbCBwYXJhIGFwcmltb3JhciBvIGFwcmVuZGl6YWRvIHNlbWlzc3VwZXJ2aXNpb25hZG8gbmEgY2xhc3NpZmljYcOnw6NvIGRlIHRleHRvc+KAnSBlL291IHVzdcOhcmlvLWRlcG9zaXRhbnRlIG5vIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsYXNzZWd1cm8gbm8gcHJlc2VudGUgYXRvIHF1ZSBzb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgZGlyZWl0b3MgY29uZXhvcyByZWZlcmVudGVzIMOgIHRvdGFsaWRhZGUgZGEgT2JyYSBvcmEgZGVwb3NpdGFkYSBlbSBmb3JtYXRvIGRpZ2l0YWwsIGJlbSBjb21vIGRlIHNldXMgY29tcG9uZW50ZXMgbWVub3JlcywgZW0gc2UgdHJhdGFuZG8gZGUgb2JyYSBjb2xldGl2YSwgY29uZm9ybWUgbyBwcmVjZWl0dWFkbyBwZWxhIExlaSA5LjYxMC85OCBlL291IExlaSA5LjYwOS85OC4gTsOjbyBzZW5kbyBlc3RlIG8gY2FzbywgYXNzZWd1cm8gdGVyIG9idGlkbyBkaXJldGFtZW50ZSBkb3MgZGV2aWRvcyB0aXR1bGFyZXMgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlIHBhcmEgYSBkaXZ1bGdhw6fDo28gZGEgT2JyYSwgYWJyYW5nZW5kbyB0b2RvcyBvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmV4b3MgYWZldGFkb3MgcGVsYSBhc3NpbmF0dXJhIGRvIHByZXNlbnRlIHRlcm1vIGRlIGxpY2VuY2lhbWVudG8sIGRlIG1vZG8gYSBlZmV0aXZhbWVudGUgaXNlbnRhciBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIGUgc2V1cyBmdW5jaW9uw6FyaW9zIGRlIHF1YWxxdWVyIHJlc3BvbnNhYmlsaWRhZGUgcGVsbyB1c28gbsOjby1hdXRvcml6YWRvIGRvIG1hdGVyaWFsIGRlcG9zaXRhZG8sIHNlamEgZW0gdmluY3VsYcOnw6NvIGFvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsIHNlamEgZW0gdmluY3VsYcOnw6NvIGEgcXVhaXNxdWVyIHNlcnZpw6dvcyBkZSBidXNjYSBlIGRlIGRpc3RyaWJ1acOnw6NvIGRlIGNvbnRlw7pkbyBxdWUgZmHDp2FtIHVzbyBkYXMgaW50ZXJmYWNlcyBlIGVzcGHDp28gZGUgYXJtYXplbmFtZW50byBwcm92aWRlbmNpYWRvcyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGNvbmNvcmTDom5jaWEgY29tIGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2VxdcOqbmNpYSBhIHRyYW5zZmVyw6puY2lhLCBhIHTDrXR1bG8gbsOjby1leGNsdXNpdm8gZSBuw6NvLW9uZXJvc28sIGlzZW50YSBkbyBwYWdhbWVudG8gZGUgcm95YWx0aWVzIG91IHF1YWxxdWVyIG91dHJhIGNvbnRyYXByZXN0YcOnw6NvLCBwZWN1bmnDoXJpYSBvdSBuw6NvLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBkb3MgZGlyZWl0b3MgZGUgYXJtYXplbmFyIGRpZ2l0YWxtZW50ZSwgZGUgcmVwcm9kdXppciBlIGRlIGRpc3RyaWJ1aXIgbmFjaW9uYWwgZSBpbnRlcm5hY2lvbmFsbWVudGUgYSBPYnJhLCBpbmNsdWluZG8tc2UgbyBzZXUgcmVzdW1vL2Fic3RyYWN0LCBwb3IgbWVpb3MgZWxldHLDtG5pY29zIGFvIHDDumJsaWNvIGVtIGdlcmFsLCBlbSByZWdpbWUgZGUgYWNlc3NvIGFiZXJ0by4KCjMuIEEgcHJlc2VudGUgbGljZW7Dp2EgdGFtYsOpbSBhYnJhbmdlLCBub3MgbWVzbW9zIHRlcm1vcyBlc3RhYmVsZWNpZG9zIG5vIGl0ZW0gMiwgc3VwcmEsIHF1YWxxdWVyIGRpcmVpdG8gZGUgY29tdW5pY2HDp8OjbyBhbyBww7pibGljbyBjYWLDrXZlbCBlbSByZWxhw6fDo28gw6AgT2JyYSBvcmEgZGVwb3NpdGFkYSwgaW5jbHVpbmRvLXNlIG9zIHVzb3MgcmVmZXJlbnRlcyDDoCByZXByZXNlbnRhw6fDo28gcMO6YmxpY2EgZS9vdSBleGVjdcOnw6NvIHDDumJsaWNhLCBiZW0gY29tbyBxdWFscXVlciBvdXRyYSBtb2RhbGlkYWRlIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gcXVlIGV4aXN0YSBvdSB2ZW5oYSBhIGV4aXN0aXIsIG5vcyB0ZXJtb3MgZG8gYXJ0aWdvIDY4IGUgc2VndWludGVzIGRhIExlaSA5LjYxMC85OCwgbmEgZXh0ZW5zw6NvIHF1ZSBmb3IgYXBsaWPDoXZlbCBhb3Mgc2VydmnDp29zIHByZXN0YWRvcyBhbyBww7pibGljbyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubyBpdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdSBleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlIGV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0gY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IgaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqiBvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0gaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZSBxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgIHB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLgogCjYuIEF1dG9yaXphIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU8OjbyBQYXVsbyBhIGRpc3BvbmliaWxpemFyIGEgb2JyYSBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQIGRlIGZvcm1hIGdyYXR1aXRhLCBkZSBhY29yZG8gY29tIGEgbGljZW7Dp2EgcMO6YmxpY2EgQ3JlYXRpdmUgQ29tbW9uczogQXRyaWJ1acOnw6NvLVNlbSBEZXJpdmHDp8O1ZXMtU2VtIERlcml2YWRvcyA0LjAgSW50ZXJuYWNpb25hbCAoQ0MgQlktTkMtTkQpLCBwZXJtaXRpbmRvIHNldSBsaXZyZSBhY2Vzc28sIHVzbyBlIGNvbXBhcnRpbGhhbWVudG8sIGRlc2RlIHF1ZSBjaXRhZGEgYSBmb250ZS4gQSBvYnJhIGNvbnRpbnVhIHByb3RlZ2lkYSBwb3IgRGlyZWl0b3MgQXV0b3JhaXMgZS9vdSBwb3Igb3V0cmFzIGxlaXMgYXBsaWPDoXZlaXMuIFF1YWxxdWVyIHVzbyBkYSBvYnJhLCBxdWUgbsOjbyBvIGF1dG9yaXphZG8gc29iIGVzdGEgbGljZW7Dp2Egb3UgcGVsYSBsZWdpc2xhw6fDo28gYXV0b3JhbCwgw6kgcHJvaWJpZG8uICAKCjcuIEF0ZXN0YSBxdWUgYSBPYnJhIHN1Ym1ldGlkYSBuw6NvIGNvbnTDqW0gcXVhbHF1ZXIgaW5mb3JtYcOnw6NvIGNvbmZpZGVuY2lhbCBzdWEgb3UgZGUgdGVyY2Vpcm9zLgoKOC4gQXRlc3RhIHF1ZSBvIHRyYWJhbGhvIHN1Ym1ldGlkbyDDqSBvcmlnaW5hbCBlIGZvaSBlbGFib3JhZG8gcmVzcGVpdGFuZG8gb3MgcHJpbmPDrXBpb3MgZGEgbW9yYWwgZSBkYSDDqXRpY2EgZSBuw6NvIHZpb2xvdSBxdWFscXVlciBkaXJlaXRvIGRlIHByb3ByaWVkYWRlIGludGVsZWN0dWFsLCBzb2IgcGVuYSBkZSByZXNwb25kZXIgY2l2aWwsIGNyaW1pbmFsLCDDqXRpY2EgZSBwcm9maXNzaW9uYWxtZW50ZSBwb3IgbWV1cyBhdG9zOwoKOS4gQXRlc3RhIHF1ZSBhIHZlcnPDo28gZG8gdHJhYmFsaG8gcHJlc2VudGUgbm8gYXJxdWl2byBzdWJtZXRpZG8gw6kgYSB2ZXJzw6NvIGRlZmluaXRpdmEgcXVlIGluY2x1aSBhcyBhbHRlcmHDp8O1ZXMgZGVjb3JyZW50ZXMgZGEgZGVmZXNhLCBzb2xpY2l0YWRhcyBwZWxhIGJhbmNhLCBzZSBob3V2ZSBhbGd1bWEsIG91IHNvbGljaXRhZGFzIHBvciBwYXJ0ZSBkZSBvcmllbnRhw6fDo28gZG9jZW50ZSByZXNwb25zw6F2ZWw7CgoxMC4gQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgcmVhbGl6YXIgcXVhaXNxdWVyIGFsdGVyYcOnw7VlcyBuYSBtw61kaWEgb3Ugbm8gZm9ybWF0byBkbyBhcnF1aXZvIHBhcmEgcHJvcMOzc2l0b3MgZGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLCBkZSBhY2Vzc2liaWxpZGFkZSBlIGRlIG1lbGhvciBpZGVudGlmaWNhw6fDo28gZG8gdHJhYmFsaG8gc3VibWV0aWRvLCBkZXNkZSBxdWUgbsOjbyBzZWphIGFsdGVyYWRvIHNldSBjb250ZcO6ZG8gaW50ZWxlY3R1YWwuCgpBbyBjb25jbHVpciBhcyBldGFwYXMgZG8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbyBkZSBhcnF1aXZvcyBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLCBhdGVzdG8gcXVlIGxpIGUgY29uY29yZGVpIGludGVncmFsbWVudGUgY29tIG9zIHRlcm1vcyBhY2ltYSBkZWxpbWl0YWRvcywgc2VtIGZhemVyIHF1YWxxdWVyIHJlc2VydmEgZSBub3ZhbWVudGUgY29uZmlybWFuZG8gcXVlIGN1bXBybyBvcyByZXF1aXNpdG9zIGluZGljYWRvcyBub3MgaXRlbnMgbWVuY2lvbmFkb3MgYW50ZXJpb3JtZW50ZS4KCkhhdmVuZG8gcXVhbHF1ZXIgZGlzY29yZMOibmNpYSBlbSByZWxhw6fDo28gYSBwcmVzZW50ZSBsaWNlbsOnYSBvdSBuw6NvIHNlIHZlcmlmaWNhbmRvIG8gZXhpZ2lkbyBub3MgaXRlbnMgYW50ZXJpb3Jlcywgdm9jw6ogZGV2ZSBpbnRlcnJvbXBlciBpbWVkaWF0YW1lbnRlIG8gcHJvY2Vzc28gZGUgc3VibWlzc8Ojby4gQSBjb250aW51aWRhZGUgZG8gcHJvY2Vzc28gZXF1aXZhbGUgw6AgY29uY29yZMOibmNpYSBlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2VxdcOqbmNpYXMgbmVsZSBwcmV2aXN0YXMsIHN1amVpdGFuZG8tc2UgbyBzaWduYXTDoXJpbyBhIHNhbsOnw7VlcyBjaXZpcyBlIGNyaW1pbmFpcyBjYXNvIG7Do28gc2VqYSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXRyaW1vbmlhaXMgZS9vdSBjb25leG9zIGFwbGljw6F2ZWlzIMOgIE9icmEgZGVwb3NpdGFkYSBkdXJhbnRlIGVzdGUgcHJvY2Vzc28sIG91IGNhc28gbsOjbyB0ZW5oYSBvYnRpZG8gcHLDqXZpYSBlIGV4cHJlc3NhIGF1dG9yaXphw6fDo28gZG8gdGl0dWxhciBwYXJhIG8gZGVww7NzaXRvIGUgdG9kb3Mgb3MgdXNvcyBkYSBPYnJhIGVudm9sdmlkb3MuCgpTZSB0aXZlciBxdWFscXVlciBkw7p2aWRhIHF1YW50byBhb3MgdGVybW9zIGRlIGxpY2VuY2lhbWVudG8gZSBxdWFudG8gYW8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbywgZW50cmUgZW0gY29udGF0byBjb20gYSBiaWJsaW90ZWNhIGRvIHNldSBjYW1wdXMgKGNvbnN1bHRlIGVtOiBodHRwczovL2JpYmxpb3RlY2FzLnVuaWZlc3AuYnIvYmlibGlvdGVjYXMtZGEtcmVkZSkuIAoKU8OjbyBQYXVsbywgTW9uIEphbiAyMiAyMDoyNDo1NiBCUlQgMjAyNC4K
dc.title.pt_BR.fl_str_mv	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
dc.title.alternative.pt_BR.fl_str_mv	Perturbation development in attention mechanism and virutal adversarial training to improve the semi-supevised learning to text classification
title	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
spellingShingle	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos Duarte, José Marcio [UNIFESP] Classificação de texto Processamento de linguagem natural Inteligência artificial Aprendizado semissupervisionado Treinamento adversário virtual Text classification Natural language processing Artificial Inteligence Semi-supervised learning Virtual adversarial training
title_short	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_full	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_fullStr	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_full_unstemmed	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_sort	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
author	Duarte, José Marcio [UNIFESP]
author_facet	Duarte, José Marcio [UNIFESP]
author_role	author
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/9064767888093340
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/9673214814425178
dc.contributor.author.fl_str_mv	Duarte, José Marcio [UNIFESP]
dc.contributor.advisor1.fl_str_mv	Berton, Lilian
contributor_str_mv	Berton, Lilian
dc.subject.por.fl_str_mv	Classificação de texto Processamento de linguagem natural Inteligência artificial Aprendizado semissupervisionado Treinamento adversário virtual Text classification Natural language processing Artificial Inteligence Semi-supervised learning Virtual adversarial training
topic	Classificação de texto Processamento de linguagem natural Inteligência artificial Aprendizado semissupervisionado Treinamento adversário virtual Text classification Natural language processing Artificial Inteligence Semi-supervised learning Virtual adversarial training
description	O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.
publishDate	2023
dc.date.issued.fl_str_mv	2023-11-27
dc.date.accessioned.fl_str_mv	2024-01-23T12:23:17Z
dc.date.available.fl_str_mv	2024-01-23T12:23:17Z
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023.
dc.identifier.uri.fl_str_mv	https://repositorio.unifesp.br/handle/11600/70610
dc.identifier.dark.fl_str_mv	ark:/48912/001300001hx02
identifier_str_mv	Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023. ark:/48912/001300001hx02
url	https://repositorio.unifesp.br/handle/11600/70610
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	142 f.
dc.coverage.spatial.pt_BR.fl_str_mv	Instituto de Ciência e Tecnologia da Universidade Federal de São Paulo
dc.publisher.none.fl_str_mv	Universidade Federal de São Paulo
publisher.none.fl_str_mv	Universidade Federal de São Paulo
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP
instname_str	Universidade Federal de São Paulo (UNIFESP)
instacron_str	UNIFESP
institution	UNIFESP
reponame_str	Repositório Institucional da UNIFESP
collection	Repositório Institucional da UNIFESP
bitstream.url.fl_str_mv	https://repositorio.unifesp.br/bitstreams/6d97cb3e-9dae-4480-94d2-c6c0ef961964/download https://repositorio.unifesp.br/bitstreams/9d15936b-4726-44fe-a493-b4c329c6a97b/download https://repositorio.unifesp.br/bitstreams/09f0b9d8-372c-446d-b57e-0b744e5e4a2b/download https://repositorio.unifesp.br/bitstreams/3b0163f1-e1d1-4275-880f-df291793d969/download https://repositorio.unifesp.br/bitstreams/e58297bd-af0c-4782-96c0-8beea18a7e71/download https://repositorio.unifesp.br/bitstreams/e00a9bd6-342d-4acc-a547-41b8123d4797/download https://repositorio.unifesp.br/bitstreams/ebf3c049-be37-4f14-96ac-2aca69f36ef2/download
bitstream.checksum.fl_str_mv	fd5189c40a70e4accccd623926a2b75a c8ae10f801f4991eb4d76c81d3eedd09 6f88d98dbebe1895eaa0f41fc0ece212 2f8c7217d8f3ede2f191c874eea76742 cba7596c777314dedf2d5d7e4b3d758f 947b0813097971d6d24a1798270aca53 f9c1a4534dcd8fc9803fd6de91374a41
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv	biblioteca.csp@unifesp.br
_version_	1863845829762088960

Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Registros relacionados