Análise de Arquiteturas Baseadas em Transformers na Transcrição de Fala e Descrição de Áudio de Fundo Simultâneos em Cenários Sonoros Mistos

Nome: JOAO VITOR RORIZ DA SILVA

Data de publicação: 26/03/2025

Banca:

Nomeordem decrescente Papel
ALBERTO FERREIRA DE SOUZA Examinador Interno
CLAUDINE SANTOS BADUE Presidente
FRANCISCO DE ASSIS BOLDT Coorientador
THIAGO MEIRELES PAIXÃO Examinador Externo

Resumo: Este trabalho investiga como duas redes neurais especializadas — um modelo de transcrição de fala (Whisper) e um modelo geral de legendagem de áudio (Prompteus) — podem ser combinadas para processar entradas de áudio misto contendo eventos de fala e não fala. Construímos o conjunto de dados Clotho Voice, unindo gravações de fala do corpus Common Voice 5.1 e sons gerais do conjunto de dados Clotho 2.1. Por meio de uma série de experimentos controlados, examinamos como o desempenho de cada modelo é impactado ao lidar com sobreposições de fala e sons de fundo. Os resultados mostram que o Whisper se destaca na transcrição quando o sinal de entrada é dominado por fala, mas sua precisão diminui na presença de ruído significativo de não fala. Por outro lado, o Prompteus atinge altas pontuações de FENSE em cenários puramente orientados ao fundo, mas demonstra uma redução em sua capacidade descritiva à medida que os níveis de fala aumentam. Também destacamos como etapas de pré-processamento — como normalização e reamostragem — afetam casos-limite, revelando que características sutis do áudio são cruciais para a detecção robusta de eventos em ambientes acústicos desafiadores. Nossos achados ressaltam a importância de estratégias de treinamento e aumento de dados personalizadas para mitigar perdas de desempenho em cenários de áudio misto. Ao integrar os pontos fortes complementares de modelos focados em fala e em fundo, oferecemos um caminho para sistemas de compreensão de áudio mais abrangentes, adequados para aplicações ruidosas do mundo real, incluindo automação industrial e tecnologias assistivas. Esta pesquisa abre caminho para o desenvolvimento de frameworks híbridos que capturam tanto a linguagem falada quanto pistas contextuais ricas do ambiente em uma abordagem única e unificada.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910