[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA

DAVID EVANDRO AMORIM MARTINS

[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA

Detalhes bibliográficos
Ano de defesa:	2020
Autor(a) principal:	DAVID EVANDRO AMORIM MARTINS
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	MAXWELL
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	[pt] APRENDIZADO DE MAQUINA [pt] VAGA DE EMPREGO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] JOB VACANCIES [en] NATURAL LANGUAGE PROCESSING
Link de acesso:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=2 http://doi.org/10.17771/PUCRio.acad.49087
Resumo:	[pt] Este trabalho demonstra como web mining, processamento de linguagem natural e aprendizado de máquina podem ser combinados para melhorar a compreensão de vagas de emprego segmentando semanticamente os textos de suas descrições. Para atingir essa finalidade, foram coletados dados textuais de três grandes sites de vagas de emprego: Catho, LinkedIn e VAGAS.com.br. Baseado na literatura, este trabalho propôe uma estrutura semântica simplificada em que cada sentença da descrição da vaga de emprego pode pertencer a uma dessas classes: Responsabilidades, Requisitos, Benefícios e Outros. De posse dessa ideia, a tarefa de segmentação semântica pode ser repensada como uma segmentação de sentenças seguida de uma classificação. Usando o Python como ferramenta, são experimentadas algumas formas de construção de atributos a partir de textos, tanto léxicas quanto semânticas, e quatro algoritmos clássicos de aprendizado de máquina: Naive Bayes, Regressão Logística, Máquina de Vetores de Suporte e Floresta Aleatória. Como resultados, este trabalho traz um classificador (Regressão Logística com representação binária) com 95.58 porcento de acurácia, sem sobreajuste de modelo e sem degenerar as classificações por desbalanceio de classes, que é comparável ao estado da arte para Classificação de Texto. Esse classificador foi treinado e validado usando dados do Catho, mas foi testado também nos dados do VAGAS.com.br (88.60 porcento) e do LinkedIn (91.14 porcento), apresentando uma evidência de que seu aprendizado é generalizável para dados de outros sites. Além disso, o classificador foi usado para segmentação semântica das vagas de emprego e obteve uma métrica Pk de 3.67 porcento e uma métrica WindowDiff de 4.78 porcento, que é comparável ao estado da arte de Segmentação de Texto. Por fim, vale salientar duas contribuições indiretas deste trabalho: 1) uma estrutura para pensar e analisar vagas de emprego e 2) uma indicação de que algoritmos clássicos também podem alcançar o estado da arte e, portanto, sempre devem experimentados.

Metadados do item

id	PUC_RIO-1_ed545643b141ada387feb0f0baa44e89
oai_identifier_str	oai:MAXWELL.puc-rio.br:49087
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str
spelling	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA[en] SEMANTIC JOB VACANCY SEGMENTATION: COMPARATIVE STUDY OF CLASSICAL MACHINE LEARNING ALGORITHMS[pt] APRENDIZADO DE MAQUINA[pt] VAGA DE EMPREGO[pt] PROCESSAMENTO DE LINGUAGEM NATURAL[en] MACHINE LEARNING[en] JOB VACANCIES[en] NATURAL LANGUAGE PROCESSING[pt] Este trabalho demonstra como web mining, processamento de linguagem natural e aprendizado de máquina podem ser combinados para melhorar a compreensão de vagas de emprego segmentando semanticamente os textos de suas descrições. Para atingir essa finalidade, foram coletados dados textuais de três grandes sites de vagas de emprego: Catho, LinkedIn e VAGAS.com.br. Baseado na literatura, este trabalho propôe uma estrutura semântica simplificada em que cada sentença da descrição da vaga de emprego pode pertencer a uma dessas classes: Responsabilidades, Requisitos, Benefícios e Outros. De posse dessa ideia, a tarefa de segmentação semântica pode ser repensada como uma segmentação de sentenças seguida de uma classificação. Usando o Python como ferramenta, são experimentadas algumas formas de construção de atributos a partir de textos, tanto léxicas quanto semânticas, e quatro algoritmos clássicos de aprendizado de máquina: Naive Bayes, Regressão Logística, Máquina de Vetores de Suporte e Floresta Aleatória. Como resultados, este trabalho traz um classificador (Regressão Logística com representação binária) com 95.58 porcento de acurácia, sem sobreajuste de modelo e sem degenerar as classificações por desbalanceio de classes, que é comparável ao estado da arte para Classificação de Texto. Esse classificador foi treinado e validado usando dados do Catho, mas foi testado também nos dados do VAGAS.com.br (88.60 porcento) e do LinkedIn (91.14 porcento), apresentando uma evidência de que seu aprendizado é generalizável para dados de outros sites. Além disso, o classificador foi usado para segmentação semântica das vagas de emprego e obteve uma métrica Pk de 3.67 porcento e uma métrica WindowDiff de 4.78 porcento, que é comparável ao estado da arte de Segmentação de Texto. Por fim, vale salientar duas contribuições indiretas deste trabalho: 1) uma estrutura para pensar e analisar vagas de emprego e 2) uma indicação de que algoritmos clássicos também podem alcançar o estado da arte e, portanto, sempre devem experimentados.[en] This dissertation demonstrates how web mining, natural language processing, and machine learning can be combined to improve understanding of job openings by semantically segmenting the texts of their descriptions. To achieve this purpose, textual data were collected from three major job sites: Catho, LinkedIn and VAGAS.com.br. Based on the literature, this work proposes a simplified semantic structure in which each sentence of the job description can belong to one of these classes: Responsibilities, Requirements, Benefits and Others. With this idea, the semantic segmentation task can be rethought as a sentence segmentation followed by a classification. Using Python as a tool, some ways of constructing features from texts are tried out, both lexical and semantic, and four classic machine learning algorithms: Naïve Bayes, Logistic Regression, Support Vector Machine, and Random Forest. As a result, this work presents a classifier (Logistic Regression with binary representation) with 95.58 percent accuracy, without model overfitting and without degeneration by class unbalance, which is comparable to state-of-the-art for Text Classification. This classifier was trained and validated using Catho data, but was also tested on VAGAS.com.br (88.60 percent) and LinkedIn (91.14 percent) data, providing evidence that its learning is generalizable to data from other sites. In addition, the classifier was used for semantic segmentation of job openings and obtained a Pk metric equals to 3.67 percent and a WindowDiff metric equals to 4.78 percent, which is comparable to state-of-the-art for Text Segmentation. Finally, it is worth highlighting two indirect contributions of this work: 1) a structure for thinking and analyzing job openings and 2) an indication that classical algorithms can also reach the state of the art and therefore should always be tried.MAXWELLEDUARDO SANY LABEREDUARDO SANY LABERDAVID EVANDRO AMORIM MARTINS2020-08-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=2http://doi.org/10.17771/PUCRio.acad.49087porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-08-29T00:00:00Zoai:MAXWELL.puc-rio.br:49087Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-29T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA [en] SEMANTIC JOB VACANCY SEGMENTATION: COMPARATIVE STUDY OF CLASSICAL MACHINE LEARNING ALGORITHMS
title	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA
spellingShingle	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA DAVID EVANDRO AMORIM MARTINS [pt] APRENDIZADO DE MAQUINA [pt] VAGA DE EMPREGO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] JOB VACANCIES [en] NATURAL LANGUAGE PROCESSING
title_short	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA
title_full	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA
title_fullStr	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA
title_full_unstemmed	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA
title_sort	[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA
author	DAVID EVANDRO AMORIM MARTINS
author_facet	DAVID EVANDRO AMORIM MARTINS
author_role	author
dc.contributor.none.fl_str_mv	EDUARDO SANY LABER EDUARDO SANY LABER
dc.contributor.author.fl_str_mv	DAVID EVANDRO AMORIM MARTINS
dc.subject.por.fl_str_mv	[pt] APRENDIZADO DE MAQUINA [pt] VAGA DE EMPREGO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] JOB VACANCIES [en] NATURAL LANGUAGE PROCESSING
topic	[pt] APRENDIZADO DE MAQUINA [pt] VAGA DE EMPREGO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] JOB VACANCIES [en] NATURAL LANGUAGE PROCESSING
description	[pt] Este trabalho demonstra como web mining, processamento de linguagem natural e aprendizado de máquina podem ser combinados para melhorar a compreensão de vagas de emprego segmentando semanticamente os textos de suas descrições. Para atingir essa finalidade, foram coletados dados textuais de três grandes sites de vagas de emprego: Catho, LinkedIn e VAGAS.com.br. Baseado na literatura, este trabalho propôe uma estrutura semântica simplificada em que cada sentença da descrição da vaga de emprego pode pertencer a uma dessas classes: Responsabilidades, Requisitos, Benefícios e Outros. De posse dessa ideia, a tarefa de segmentação semântica pode ser repensada como uma segmentação de sentenças seguida de uma classificação. Usando o Python como ferramenta, são experimentadas algumas formas de construção de atributos a partir de textos, tanto léxicas quanto semânticas, e quatro algoritmos clássicos de aprendizado de máquina: Naive Bayes, Regressão Logística, Máquina de Vetores de Suporte e Floresta Aleatória. Como resultados, este trabalho traz um classificador (Regressão Logística com representação binária) com 95.58 porcento de acurácia, sem sobreajuste de modelo e sem degenerar as classificações por desbalanceio de classes, que é comparável ao estado da arte para Classificação de Texto. Esse classificador foi treinado e validado usando dados do Catho, mas foi testado também nos dados do VAGAS.com.br (88.60 porcento) e do LinkedIn (91.14 porcento), apresentando uma evidência de que seu aprendizado é generalizável para dados de outros sites. Além disso, o classificador foi usado para segmentação semântica das vagas de emprego e obteve uma métrica Pk de 3.67 porcento e uma métrica WindowDiff de 4.78 porcento, que é comparável ao estado da arte de Segmentação de Texto. Por fim, vale salientar duas contribuições indiretas deste trabalho: 1) uma estrutura para pensar e analisar vagas de emprego e 2) uma indicação de que algoritmos clássicos também podem alcançar o estado da arte e, portanto, sempre devem experimentados.
publishDate	2020
dc.date.none.fl_str_mv	2020-08-18
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=2 http://doi.org/10.17771/PUCRio.acad.49087
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=49087&idi=2 http://doi.org/10.17771/PUCRio.acad.49087
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1862548630611689472

[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA

Registros relacionados