A Study on GPT-4V for Driver Behavior Classification from a Few Video Frames

Nome: JOÃO FELIPE GOBETI CALENZANI

Data de publicação: 26/08/2025

Banca:

Nomeordem decrescente Papel
ALBERTO FERREIRA DE SOUZA Presidente
CLAUDINE SANTOS BADUE Coorientador
LUIS ANTONIO DE SOUZA JUNIOR Examinador Interno
MARIELLA BERGER ANDRADE Examinador Externo

Resumo: Este trabalho apresenta um estudo abrangente sobre a eficácia do GPT-4V, um modelo de
linguagem multimodal de grande porte com capacidades de processamento de visão, na
classificação de comportamentos de motoristas a partir de dados de vídeo. A pesquisa foca
em cenários nos quais apenas um número limitado de quadros de cada vídeo é analisado,
explorando a viabilidade da classificação de vídeos com poucos quadros para aplicações de
monitoramento de motoristas. O estudo aborda comportamentos de risco críticos, incluindo
bocejo, fumar, uso de telefone celular, distração e casos em que o rosto do motorista
não está visível. Para conduzir a avaliação, foi utilizado um conjunto de dados privado
e anotados de vídeos de motoristas , gravados em condições reais, juntamente com o
conjunto de dados público Driver Monitoring Dataset (DMD). No conjunto privado, o
GPT-4V obteve alta acurácia de classificação, com 98,9% para bocejo, 98,4% para uso de
cigarro, 95,7% para uso de celular, 91,7% para distração e 94,1% para eventos de “rosto
não visível”. No conjunto público, os resultados incluíram 90,9% de acurácia para “uso de
celular” (revocação: 76,6%, precisão: 92,1%), 91,0% para “distração” (revocação: 93,1%,
precisão: 97,4%) e 98,2% para “bocejo” (revocação: 43,7%, precisão: 87,5%). Os resultados
demonstram o potencial do GPT-4V como uma camada adicional de classificação para
Sistemas Avançados de Assistência ao Condutor (ADAS), capaz de filtrar falsos positivos e
aprimorar a detecção de eventos em ambientes com recursos limitados. Além da avaliação
de desempenho, este trabalho também documenta as estratégias de prompt engineering
desenvolvidas para adaptar o GPT-4V a tarefas de classificação estruturadas e específicas
do domínio. As conclusões contribuem para o crescente corpo de conhecimento sobre a
aplicação de modelos de fundação multimodais à segurança viária e fornecem uma base
para trabalhos futuros de integração desses modelos em sistemas de monitoramento de
motoristas em tempo real.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910