A data science approach to Lattes CV data analysis
| Ano de defesa: | 2018 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Instituto Nacional de Pesquisas Espaciais (INPE)
|
| Programa de Pós-Graduação: |
Programa de Pós-Graduação do INPE em Computação Aplicada
|
| Departamento: |
Não Informado pela instituição
|
| País: |
BR
|
| Resumo em Inglês: | The Lattes Platform is the de facto database of the Brazilian academic community. This web-based platform was created by the Brazilian National Council of Technological and Scientific Development (CNPq) and is updated by the researchers and students themselves, being of great value not only to store information about publications and other academic data about the users and their evaluation by the community but also for analysis of its data in different applications, such as to create reports, to evaluate research groups, higher-level educational programs and institutions. All data on the Lattes CV is public to a certain extent: CVs can be downloaded provided one knows the full name of the person of interest or its Lattes platform unique identifier. Also, there are no native tools on the platform that allow specific analysis of groups of researchers and students; one must either browse or download a set of CVs and extract the required data from that set for posterior analysis. This work intends to fill this gap by presenting a tool that processes and cleans up a Lattes CVs data set, that was developed with focus on users with little knowledge of programming. In this work we present the reports that this tool generates and that are related to Exploratory Data Analysis such as reports generated with Lattes CV data word clouds and graphs that exhibit relationship between researchers. This work also discusses extensions of this tool capabilities with unsupervised classification algorithms, showing its integration with artificial intelligence methods. |
| Link de acesso: | http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07 |
Resumo: | A Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial. |
| id |
INPE_48e833b35d14cfcfcd8659638c4f6ce5 |
|---|---|
| oai_identifier_str |
oai:urlib.net:sid.inpe.br/mtc-m21c/2018/10.17.00.07.57-0 |
| network_acronym_str |
INPE |
| network_name_str |
Biblioteca Digital de Teses e Dissertações do INPE |
| spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisA data science approach to Lattes CV data analysisUma abordagem de ciência de dados para análise de dados de Curriculum Lattes2018-09-20Rafael Duarte Coelho dos SantosGilberto Ribeiro de QueirozEzzat Selim ChalhoubThiago Luís Viana de SantanaInstituto Nacional de Pesquisas Espaciais (INPE)Programa de Pós-Graduação do INPE em Computação AplicadaINPEBRdata analysisdata scienceLattes Platformbibliometricsartificial intelligenceanálise de dadosciência de dadosPlataforma Lattesbibliometriainteligência artificialA Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial.The Lattes Platform is the de facto database of the Brazilian academic community. This web-based platform was created by the Brazilian National Council of Technological and Scientific Development (CNPq) and is updated by the researchers and students themselves, being of great value not only to store information about publications and other academic data about the users and their evaluation by the community but also for analysis of its data in different applications, such as to create reports, to evaluate research groups, higher-level educational programs and institutions. All data on the Lattes CV is public to a certain extent: CVs can be downloaded provided one knows the full name of the person of interest or its Lattes platform unique identifier. Also, there are no native tools on the platform that allow specific analysis of groups of researchers and students; one must either browse or download a set of CVs and extract the required data from that set for posterior analysis. This work intends to fill this gap by presenting a tool that processes and cleans up a Lattes CVs data set, that was developed with focus on users with little knowledge of programming. In this work we present the reports that this tool generates and that are related to Exploratory Data Analysis such as reports generated with Lattes CV data word clouds and graphs that exhibit relationship between researchers. This work also discusses extensions of this tool capabilities with unsupervised classification algorithms, showing its integration with artificial intelligence methods.http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07info:eu-repo/semantics/openAccessengreponame:Biblioteca Digital de Teses e Dissertações do INPEinstname:Instituto Nacional de Pesquisas Espaciais (INPE)instacron:INPE2021-07-31T06:55:55Zoai:urlib.net:sid.inpe.br/mtc-m21c/2018/10.17.00.07.57-0Biblioteca Digital de Teses e Dissertaçõeshttp://bibdigital.sid.inpe.br/PUBhttp://bibdigital.sid.inpe.br/col/iconet.com.br/banon/2003/11.21.21.08/doc/oai.cgiopendoar:32772021-07-31 06:55:56.055Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE)false |
| dc.title.en.fl_str_mv |
A data science approach to Lattes CV data analysis |
| dc.title.alternative.pt.fl_str_mv |
Uma abordagem de ciência de dados para análise de dados de Curriculum Lattes |
| title |
A data science approach to Lattes CV data analysis |
| spellingShingle |
A data science approach to Lattes CV data analysis Thiago Luís Viana de Santana |
| title_short |
A data science approach to Lattes CV data analysis |
| title_full |
A data science approach to Lattes CV data analysis |
| title_fullStr |
A data science approach to Lattes CV data analysis |
| title_full_unstemmed |
A data science approach to Lattes CV data analysis |
| title_sort |
A data science approach to Lattes CV data analysis |
| author |
Thiago Luís Viana de Santana |
| author_facet |
Thiago Luís Viana de Santana |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Rafael Duarte Coelho dos Santos |
| dc.contributor.referee1.fl_str_mv |
Gilberto Ribeiro de Queiroz |
| dc.contributor.referee2.fl_str_mv |
Ezzat Selim Chalhoub |
| dc.contributor.author.fl_str_mv |
Thiago Luís Viana de Santana |
| contributor_str_mv |
Rafael Duarte Coelho dos Santos Gilberto Ribeiro de Queiroz Ezzat Selim Chalhoub |
| dc.description.abstract.por.fl_txt_mv |
A Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial. |
| dc.description.abstract.eng.fl_txt_mv |
The Lattes Platform is the de facto database of the Brazilian academic community. This web-based platform was created by the Brazilian National Council of Technological and Scientific Development (CNPq) and is updated by the researchers and students themselves, being of great value not only to store information about publications and other academic data about the users and their evaluation by the community but also for analysis of its data in different applications, such as to create reports, to evaluate research groups, higher-level educational programs and institutions. All data on the Lattes CV is public to a certain extent: CVs can be downloaded provided one knows the full name of the person of interest or its Lattes platform unique identifier. Also, there are no native tools on the platform that allow specific analysis of groups of researchers and students; one must either browse or download a set of CVs and extract the required data from that set for posterior analysis. This work intends to fill this gap by presenting a tool that processes and cleans up a Lattes CVs data set, that was developed with focus on users with little knowledge of programming. In this work we present the reports that this tool generates and that are related to Exploratory Data Analysis such as reports generated with Lattes CV data word clouds and graphs that exhibit relationship between researchers. This work also discusses extensions of this tool capabilities with unsupervised classification algorithms, showing its integration with artificial intelligence methods. |
| description |
A Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial. |
| publishDate |
2018 |
| dc.date.issued.fl_str_mv |
2018-09-20 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| status_str |
publishedVersion |
| format |
masterThesis |
| dc.identifier.uri.fl_str_mv |
http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07 |
| url |
http://urlib.net/sid.inpe.br/mtc-m21c/2018/10.17.00.07 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
| dc.publisher.initials.fl_str_mv |
INPE |
| dc.publisher.country.fl_str_mv |
BR |
| publisher.none.fl_str_mv |
Instituto Nacional de Pesquisas Espaciais (INPE) |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do INPE instname:Instituto Nacional de Pesquisas Espaciais (INPE) instacron:INPE |
| reponame_str |
Biblioteca Digital de Teses e Dissertações do INPE |
| collection |
Biblioteca Digital de Teses e Dissertações do INPE |
| instname_str |
Instituto Nacional de Pesquisas Espaciais (INPE) |
| instacron_str |
INPE |
| institution |
INPE |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do INPE - Instituto Nacional de Pesquisas Espaciais (INPE) |
| repository.mail.fl_str_mv |
|
| publisher_program_txtF_mv |
Programa de Pós-Graduação do INPE em Computação Aplicada |
| contributor_advisor1_txtF_mv |
Rafael Duarte Coelho dos Santos |
| _version_ |
1706805042522095616 |