Analysis of Bias in GPT Language Models through Fine-tuning with Anti-Vaccination Speech
Nome: LEANDRO FURLAM TURI
Data de publicação: 02/12/2024
Banca:
Nome | Papel |
---|---|
ALBERTO FERREIRA DE SOUZA | Presidente |
ANDRE GEORGHTON CARDOSO PACHECO | Examinador Interno |
JURANDY GOMES DE ALMEIDA JUNIOR | Examinador Externo |
Resumo: Investigamos os efeitos da integração de dados contendo informações divergentes, espe-
cialmente no que diz respeito às narrativas antivacinação, no treinamento de um modelo
de linguagem GPT-2, realizando o ajuste fino utilizando conteúdo proveniente de grupos
e canais antivacinação no Telegram, com o objetivo de analisar sua capacidade de gerar
textos coerentes e racionalizados em comparação com um modelo pré-treinado no conjunto
de dados WebText da OpenAI. Os resultados demonstram que o ajuste fino de um modelo
GPT-2 com dados tendenciosos leva o modelo a perpetuar esses vieses em suas respostas,
embora com um certo grau de racionalização, sublinhando a importância de utilizar
dados confiáveis e de alta qualidade no treinamento de modelos de processamento de
linguagem natural e ressaltando as implicações para a disseminação de informações através
desses modelos. Exploramos também o impacto do envenenamento de dados mediante a
incorporação de mensagens antivacinação combinadas com mensagens gerais de grupo em
diferentes proporções, com o objetivo de compreender como a exposição a dados tenden-
ciosos pode influenciar a geração de textos e a introdução de preconceitos prejudiciais. Os
experimentos destacam a mudança na frequência e intensidade do conteúdo antivacinação
gerado pelo modelo e elucidam as implicações mais amplas para a confiabilidade e a ética
no uso de modelos de linguagem em aplicações divergentes, oferecendo aos cientistas sociais
uma ferramenta para explorar e compreender as complexidades e desafios associados à
desinformação em saúde pública através do uso de modelos de linguagem, especialmente
no contexto de desinformação sobre vacinas.