A Study on GPT-4V for Driver Behavior Classification from a Few Video Frames
Nome: JOÃO FELIPE GOBETI CALENZANI
Data de publicação: 26/08/2025
Banca:
| Nome |
Papel |
|---|---|
| ALBERTO FERREIRA DE SOUZA | Presidente |
| CLAUDINE SANTOS BADUE | Coorientador |
| LUIS ANTONIO DE SOUZA JUNIOR | Examinador Interno |
| MARIELLA BERGER ANDRADE | Examinador Externo |
Resumo: Este trabalho apresenta um estudo abrangente sobre a eficácia do GPT-4V, um modelo de
linguagem multimodal de grande porte com capacidades de processamento de visão, na
classificação de comportamentos de motoristas a partir de dados de vídeo. A pesquisa foca
em cenários nos quais apenas um número limitado de quadros de cada vídeo é analisado,
explorando a viabilidade da classificação de vídeos com poucos quadros para aplicações de
monitoramento de motoristas. O estudo aborda comportamentos de risco críticos, incluindo
bocejo, fumar, uso de telefone celular, distração e casos em que o rosto do motorista
não está visível. Para conduzir a avaliação, foi utilizado um conjunto de dados privado
e anotados de vídeos de motoristas , gravados em condições reais, juntamente com o
conjunto de dados público Driver Monitoring Dataset (DMD). No conjunto privado, o
GPT-4V obteve alta acurácia de classificação, com 98,9% para bocejo, 98,4% para uso de
cigarro, 95,7% para uso de celular, 91,7% para distração e 94,1% para eventos de “rosto
não visível”. No conjunto público, os resultados incluíram 90,9% de acurácia para “uso de
celular” (revocação: 76,6%, precisão: 92,1%), 91,0% para “distração” (revocação: 93,1%,
precisão: 97,4%) e 98,2% para “bocejo” (revocação: 43,7%, precisão: 87,5%). Os resultados
demonstram o potencial do GPT-4V como uma camada adicional de classificação para
Sistemas Avançados de Assistência ao Condutor (ADAS), capaz de filtrar falsos positivos e
aprimorar a detecção de eventos em ambientes com recursos limitados. Além da avaliação
de desempenho, este trabalho também documenta as estratégias de prompt engineering
desenvolvidas para adaptar o GPT-4V a tarefas de classificação estruturadas e específicas
do domínio. As conclusões contribuem para o crescente corpo de conhecimento sobre a
aplicação de modelos de fundação multimodais à segurança viária e fornecem uma base
para trabalhos futuros de integração desses modelos em sistemas de monitoramento de
motoristas em tempo real.
