A data science approach to Lattes CV data analysis

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Thiago Luís Viana de Santana
Orientador(a): Rafael Duarte Coelho dos Santos
Banca de defesa: Gilberto Ribeiro de Queiroz, Ezzat Selim Chalhoub
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Instituto Nacional de Pesquisas Espaciais (INPE)
Programa de Pós-Graduação: Programa de Pós-Graduação do INPE em Computação Aplicada
Departamento: Não Informado pela instituição
País: BR
Resumo em Inglês: The Lattes Platform is the de facto database of the Brazilian academic community. This web-based platform was created by the Brazilian National Council of Technological and Scientific Development (CNPq) and is updated by the researchers and students themselves, being of great value not only to store information about publications and other academic data about the users and their evaluation by the community but also for analysis of its data in different applications, such as to create reports, to evaluate research groups, higher-level educational programs and institutions. All data on the Lattes CV is public to a certain extent: CVs can be downloaded provided one knows the full name of the person of interest or its Lattes platform unique identifier. Also, there are no native tools on the platform that allow specific analysis of groups of researchers and students; one must either browse or download a set of CVs and extract the required data from that set for posterior analysis. This work intends to fill this gap by presenting a tool that processes and cleans up a Lattes CVs data set, that was developed with focus on users with little knowledge of programming. In this work we present the reports that this tool generates and that are related to Exploratory Data Analysis such as reports generated with Lattes CV data word clouds and graphs that exhibit relationship between researchers. This work also discusses extensions of this tool capabilities with unsupervised classification algorithms, showing its integration with artificial intelligence methods.
Link de acesso: http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07
Resumo: A Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial.
id INPE_48e833b35d14cfcfcd8659638c4f6ce5
oai_identifier_str oai:urlib.net:sid.inpe.br/mtc-m21c/2018/10.17.00.07.57-0
network_acronym_str INPE
network_name_str Biblioteca Digital de Teses e Dissertações do INPE
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisA data science approach to Lattes CV data analysisUma abordagem de ciência de dados para análise de dados de Curriculum Lattes2018-09-20Rafael Duarte Coelho dos SantosGilberto Ribeiro de QueirozEzzat Selim ChalhoubThiago Luís Viana de SantanaInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRdata analysisdata scienceLattes Platformbibliometricsartificial intelligenceanálise de dadosciência de dadosPlataforma Lattesbibliometriainteligência artificialA Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial.The Lattes Platform is the de facto database of the Brazilian academic community. This web-based platform was created by the Brazilian National Council of Technological and Scientific Development (CNPq) and is updated by the researchers and students themselves, being of great value not only to store information about publications and other academic data about the users and their evaluation by the community but also for analysis of its data in different applications, such as to create reports, to evaluate research groups, higher-level educational programs and institutions. All data on the Lattes CV is public to a certain extent: CVs can be downloaded provided one knows the full name of the person of interest or its Lattes platform unique identifier. Also, there are no native tools on the platform that allow specific analysis of groups of researchers and students; one must either browse or download a set of CVs and extract the required data from that set for posterior analysis. This work intends to fill this gap by presenting a tool that processes and cleans up a Lattes CVs data set, that was developed with focus on users with little knowledge of programming. In this work we present the reports that this tool generates and that are related to Exploratory Data Analysis such as reports generated with Lattes CV data word clouds and graphs that exhibit relationship between researchers. This work also discusses extensions of this tool capabilities with unsupervised classification algorithms, showing its integration with artificial intelligence methods.http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:55:55Zoai:urlib.net:sid.inpe.br/mtc-m21c/2018/10.17.00.07.57-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:55:56.055Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false
dc.title.en.fl_str_mv A data science approach to Lattes CV data analysis
dc.title.alternative.pt.fl_str_mv Uma abordagem de ciência de dados para análise de dados de Curriculum Lattes
title A data science approach to Lattes CV data analysis
spellingShingle A data science approach to Lattes CV data analysis
Thiago Luís Viana de Santana
title_short A data science approach to Lattes CV data analysis
title_full A data science approach to Lattes CV data analysis
title_fullStr A data science approach to Lattes CV data analysis
title_full_unstemmed A data science approach to Lattes CV data analysis
title_sort A data science approach to Lattes CV data analysis
author Thiago Luís Viana de Santana
author_facet Thiago Luís Viana de Santana
author_role author
dc.contributor.advisor1.fl_str_mv Rafael Duarte Coelho dos Santos
dc.contributor.referee1.fl_str_mv Gilberto Ribeiro de Queiroz
dc.contributor.referee2.fl_str_mv Ezzat Selim Chalhoub
dc.contributor.author.fl_str_mv Thiago Luís Viana de Santana
contributor_str_mv Rafael Duarte Coelho dos Santos
Gilberto Ribeiro de Queiroz
Ezzat Selim Chalhoub
dc.description.abstract.por.fl_txt_mv A Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial.
dc.description.abstract.eng.fl_txt_mv The Lattes Platform is the de facto database of the Brazilian academic community. This web-based platform was created by the Brazilian National Council of Technological and Scientific Development (CNPq) and is updated by the researchers and students themselves, being of great value not only to store information about publications and other academic data about the users and their evaluation by the community but also for analysis of its data in different applications, such as to create reports, to evaluate research groups, higher-level educational programs and institutions. All data on the Lattes CV is public to a certain extent: CVs can be downloaded provided one knows the full name of the person of interest or its Lattes platform unique identifier. Also, there are no native tools on the platform that allow specific analysis of groups of researchers and students; one must either browse or download a set of CVs and extract the required data from that set for posterior analysis. This work intends to fill this gap by presenting a tool that processes and cleans up a Lattes CVs data set, that was developed with focus on users with little knowledge of programming. In this work we present the reports that this tool generates and that are related to Exploratory Data Analysis such as reports generated with Lattes CV data word clouds and graphs that exhibit relationship between researchers. This work also discusses extensions of this tool capabilities with unsupervised classification algorithms, showing its integration with artificial intelligence methods.
description A Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial.
publishDate 2018
dc.date.issued.fl_str_mv 2018-09-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07
url http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.publisher.program.fl_str_mv Programa de Pós-Graduação do INPE em Computação Aplicada
dc.publisher.initials.fl_str_mv INPE
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Instituto Nacional de Pesquisas Espaciais (INPE)
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INPE
instname:Instituto Nacional de Pesquisas Espaciais (INPE)
instacron:INPE
reponame_str Biblioteca Digital de Teses e Dissertações do INPE
collection Biblioteca Digital de Teses e Dissertações do INPE
instname_str Instituto Nacional de Pesquisas Espaciais (INPE)
instacron_str INPE
institution INPE
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)
repository.mail.fl_str_mv
publisher_program_txtF_mv Programa de Pós-Graduação do INPE em Computação Aplicada
contributor_advisor1_txtF_mv Rafael Duarte Coelho dos Santos
_version_ 1706805042522095616