Exploração de dados gerados em trens de passageiros: informações operacionais em estações.

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Doratiotto, Cesar Augusto
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3138/tde-14012026-090241/
Resumo: Muitas companhias ferroviárias enfrentam desafios para melhorar seus serviços e a experiência dos passageiros, devido à complexidade da dinâmica operacional e ao monitoramento do fluxo de passageiros, especialmente em estações que contam com várias linhas de conexão. Para superar esses desafios, é fundamental ter acesso a dados operacionais abrangentes, além do simples controle de entradas e saídas nos bloqueios das estações. Os trens paulistas geram dados em seus sistemas embarcados, incluindo métricas como a massa total e velocidade. Esses dados podem contribuir para melhorar a operação ferroviária e o planejamento de novos sistemas. Lacuna: A exploração desses dados ainda se mostra complexa devido ao excesso de registros e à dificuldade de identificar os pontos de relevância. Objetivo: Propomos um recurso computacional que identifica automaticamente os pontos de parada nas estações, sem utilizar sistemas de geolocalização, gerando indicadores operacionais. Metodologia: Foi desenvolvida uma máquina de estados em Python para identificar as paradas dos trens nas estações. O recurso opera comparando a quilometragem percorrida com uma tabela de referência, de forma a extrair informações operacionais. Resultados: A partir dos dados disponibilizados pela Companhia Paulista de Trens Metropolitanos, realizou-se o processamento de mais de 46 milhões de linhas de dados, provenientes de 19 trens operando ao longo de sete dias. Esse processamento, concluído em aproximadamente 39 minutos, resultou na redução de 99,96% do volume original, consolidando as informações em um único arquivo de 1,4 MB, a partir de 5,90 GB inicialmente. O algoritmo classificou corretamente 98,74% das 17.004 paradas em estações, enquanto 214 paradas permaneceram não classificadas, principalmente devido à ausência de dados referenciais necessários para sua identificação com a metodologia proposta. A partir desse processamento, foram obtidas informações operacionais que resultaram em 21 análises gráficas ilustrando diferentes características, sendo uma delas o deslocamento típico de passageiros: nas viagens matutinas, o fluxo predominante ocorre da região metropolitana para o centro, enquanto nos períodos vespertino e noturno, o movimento se inverte. Conclusão: O recurso classificou de maneira eficaz as paradas dos trens nas estações, possibilitando a obtenção de diversas informações operacionais que podem contribuir para superar os desafios inicialmente apresentados. Destacou-se que a taxa de carregamento dos trens ilustra adequadamente a capacidade de lugares disponíveis, mas não reflete com precisão o fluxo de passageiros no sistema ferroviário, uma vez que considera apenas o saldo entre embarques e desembarques. Sendo assim, o recurso atendeu aos objetivos propostos, oferecendo uma nova solução computacional e destacando o potencial dos dados gerados em trens, não apenas para operadores e pesquisadores, mas também como insumo estratégico para sistemas de Big Data, o desenvolvimento de modelos de aprendizado de máquina e outras aplicações em Inteligência Artificial.
id USP_7775445c7f043d60af6fee3389f9822f
oai_identifier_str oai:teses.usp.br:tde-14012026-090241
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Exploração de dados gerados em trens de passageiros: informações operacionais em estações.Exploration of data generated by passenger trains: operational information at stations.Carregamento de trensClassificaçãoi de paradas de tremDemanda ferroviáriaGestão operacional ferroviáriaRail vehiclesRailway demandRailway operational managementTrain stop classificationTrain loadingVeículos sobre trilhosMuitas companhias ferroviárias enfrentam desafios para melhorar seus serviços e a experiência dos passageiros, devido à complexidade da dinâmica operacional e ao monitoramento do fluxo de passageiros, especialmente em estações que contam com várias linhas de conexão. Para superar esses desafios, é fundamental ter acesso a dados operacionais abrangentes, além do simples controle de entradas e saídas nos bloqueios das estações. Os trens paulistas geram dados em seus sistemas embarcados, incluindo métricas como a massa total e velocidade. Esses dados podem contribuir para melhorar a operação ferroviária e o planejamento de novos sistemas. Lacuna: A exploração desses dados ainda se mostra complexa devido ao excesso de registros e à dificuldade de identificar os pontos de relevância. Objetivo: Propomos um recurso computacional que identifica automaticamente os pontos de parada nas estações, sem utilizar sistemas de geolocalização, gerando indicadores operacionais. Metodologia: Foi desenvolvida uma máquina de estados em Python para identificar as paradas dos trens nas estações. O recurso opera comparando a quilometragem percorrida com uma tabela de referência, de forma a extrair informações operacionais. Resultados: A partir dos dados disponibilizados pela Companhia Paulista de Trens Metropolitanos, realizou-se o processamento de mais de 46 milhões de linhas de dados, provenientes de 19 trens operando ao longo de sete dias. Esse processamento, concluído em aproximadamente 39 minutos, resultou na redução de 99,96% do volume original, consolidando as informações em um único arquivo de 1,4 MB, a partir de 5,90 GB inicialmente. O algoritmo classificou corretamente 98,74% das 17.004 paradas em estações, enquanto 214 paradas permaneceram não classificadas, principalmente devido à ausência de dados referenciais necessários para sua identificação com a metodologia proposta. A partir desse processamento, foram obtidas informações operacionais que resultaram em 21 análises gráficas ilustrando diferentes características, sendo uma delas o deslocamento típico de passageiros: nas viagens matutinas, o fluxo predominante ocorre da região metropolitana para o centro, enquanto nos períodos vespertino e noturno, o movimento se inverte. Conclusão: O recurso classificou de maneira eficaz as paradas dos trens nas estações, possibilitando a obtenção de diversas informações operacionais que podem contribuir para superar os desafios inicialmente apresentados. Destacou-se que a taxa de carregamento dos trens ilustra adequadamente a capacidade de lugares disponíveis, mas não reflete com precisão o fluxo de passageiros no sistema ferroviário, uma vez que considera apenas o saldo entre embarques e desembarques. Sendo assim, o recurso atendeu aos objetivos propostos, oferecendo uma nova solução computacional e destacando o potencial dos dados gerados em trens, não apenas para operadores e pesquisadores, mas também como insumo estratégico para sistemas de Big Data, o desenvolvimento de modelos de aprendizado de máquina e outras aplicações em Inteligência Artificial.Many railway companies face challenges in improving their services and the passenger experience due to the complexity of operational dynamics and the monitoring of passenger flow, especially in stations with multiple connecting lines. To overcome these challenges, it is essential to have access to comprehensive operational data, beyond the simple control of entries and exits at station turnstiles. Trains in São Paulo generate data through onboard systems, including metrics such as total mass and speed. This data can contribute to improving railway operations and planning new systems. Gap: The exploration of this data remains complex due to the excess of records and the difficulty in identifying relevant points. Objective: We propose a computational tool that automatically identifies train stop locations at stations without using geolocation systems, generating operational indicators. Methodology: A state machine was developed in Python to identify train stops at stations. The tool operates by comparing the distance traveled with a reference table in order to extract operational information. Results: Based on data provided by the Companhia Paulista de Trens Metropolitanos, more than 46 million lines of data were processed, coming from 19 trains operating over seven days. This processing, completed in approximately 39 minutes, resulted in a 99.96% reduction of the original volume, consolidating the information into a single 1.4 MB file, down from 5.90 GB initially. The algorithm correctly classified 98.74% of the 17,004 station stops, while 214 stops remained unclassified, mainly due to the absence of the reference data needed for their identification using the proposed methodology. From this processing, operational information was obtained and used to generate 21 graphical analyses illustrating different characteristics, one of which was the typical passenger movement: during morning trips, the predominant flow is from the metropolitan area to the city center, while in the afternoon and evening, this movement is reversed. Conclusion: The tool effectively classified train stops at stations, enabling the extraction of various operational insights that may contribute to addressing the challenges initially presented. It was observed that the load factor adequately illustrates seat availability, but does not accurately reflect passenger flow within the railway system, since it considers only the net balance between boardings and alightings. Therefore, the tool met the proposed objectives, offering a new computational solution and highlighting the potential of train-generated data not only for operators, researchers, and other stakeholders, but also as a strategic input for Big Data systems, the development of machine learning models, and other Artificial Intelligence applications.Biblioteca Digitais de Teses e Dissertações da USPMarte, Claudio LuizDoratiotto, Cesar Augusto2025-08-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3138/tde-14012026-090241/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-14T11:17:03Zoai:teses.usp.br:tde-14012026-090241Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-14T11:17:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
Exploration of data generated by passenger trains: operational information at stations.
title Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
spellingShingle Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
Doratiotto, Cesar Augusto
Carregamento de trens
Classificaçãoi de paradas de trem
Demanda ferroviária
Gestão operacional ferroviária
Rail vehicles
Railway demand
Railway operational management
Train stop classification
Train loading
Veículos sobre trilhos
title_short Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
title_full Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
title_fullStr Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
title_full_unstemmed Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
title_sort Exploração de dados gerados em trens de passageiros: informações operacionais em estações.
author Doratiotto, Cesar Augusto
author_facet Doratiotto, Cesar Augusto
author_role author
dc.contributor.none.fl_str_mv Marte, Claudio Luiz
dc.contributor.author.fl_str_mv Doratiotto, Cesar Augusto
dc.subject.por.fl_str_mv Carregamento de trens
Classificaçãoi de paradas de trem
Demanda ferroviária
Gestão operacional ferroviária
Rail vehicles
Railway demand
Railway operational management
Train stop classification
Train loading
Veículos sobre trilhos
topic Carregamento de trens
Classificaçãoi de paradas de trem
Demanda ferroviária
Gestão operacional ferroviária
Rail vehicles
Railway demand
Railway operational management
Train stop classification
Train loading
Veículos sobre trilhos
description Muitas companhias ferroviárias enfrentam desafios para melhorar seus serviços e a experiência dos passageiros, devido à complexidade da dinâmica operacional e ao monitoramento do fluxo de passageiros, especialmente em estações que contam com várias linhas de conexão. Para superar esses desafios, é fundamental ter acesso a dados operacionais abrangentes, além do simples controle de entradas e saídas nos bloqueios das estações. Os trens paulistas geram dados em seus sistemas embarcados, incluindo métricas como a massa total e velocidade. Esses dados podem contribuir para melhorar a operação ferroviária e o planejamento de novos sistemas. Lacuna: A exploração desses dados ainda se mostra complexa devido ao excesso de registros e à dificuldade de identificar os pontos de relevância. Objetivo: Propomos um recurso computacional que identifica automaticamente os pontos de parada nas estações, sem utilizar sistemas de geolocalização, gerando indicadores operacionais. Metodologia: Foi desenvolvida uma máquina de estados em Python para identificar as paradas dos trens nas estações. O recurso opera comparando a quilometragem percorrida com uma tabela de referência, de forma a extrair informações operacionais. Resultados: A partir dos dados disponibilizados pela Companhia Paulista de Trens Metropolitanos, realizou-se o processamento de mais de 46 milhões de linhas de dados, provenientes de 19 trens operando ao longo de sete dias. Esse processamento, concluído em aproximadamente 39 minutos, resultou na redução de 99,96% do volume original, consolidando as informações em um único arquivo de 1,4 MB, a partir de 5,90 GB inicialmente. O algoritmo classificou corretamente 98,74% das 17.004 paradas em estações, enquanto 214 paradas permaneceram não classificadas, principalmente devido à ausência de dados referenciais necessários para sua identificação com a metodologia proposta. A partir desse processamento, foram obtidas informações operacionais que resultaram em 21 análises gráficas ilustrando diferentes características, sendo uma delas o deslocamento típico de passageiros: nas viagens matutinas, o fluxo predominante ocorre da região metropolitana para o centro, enquanto nos períodos vespertino e noturno, o movimento se inverte. Conclusão: O recurso classificou de maneira eficaz as paradas dos trens nas estações, possibilitando a obtenção de diversas informações operacionais que podem contribuir para superar os desafios inicialmente apresentados. Destacou-se que a taxa de carregamento dos trens ilustra adequadamente a capacidade de lugares disponíveis, mas não reflete com precisão o fluxo de passageiros no sistema ferroviário, uma vez que considera apenas o saldo entre embarques e desembarques. Sendo assim, o recurso atendeu aos objetivos propostos, oferecendo uma nova solução computacional e destacando o potencial dos dados gerados em trens, não apenas para operadores e pesquisadores, mas também como insumo estratégico para sistemas de Big Data, o desenvolvimento de modelos de aprendizado de máquina e outras aplicações em Inteligência Artificial.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3138/tde-14012026-090241/
url https://www.teses.usp.br/teses/disponiveis/3/3138/tde-14012026-090241/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865492418587000832