Estudo comparativo de algoritmos de classificação em base de dados com atributos temporais
Nome: IDILIO DRAGO
Tipo: Dissertação de mestrado acadêmico
Data de publicação: 27/09/2007
Orientador:
Nome | Papel |
---|---|
FLÁVIO MIGUEL VAREJÃO | Orientador |
Banca:
Nome | Papel |
---|---|
ALEXANDRE PLASTINO DE CARVALHO | Examinador Externo |
FLÁVIO MIGUEL VAREJÃO | Orientador |
THOMAS WALTER RAUBER | Examinador Interno |
Resumo: Uma série temporal é um conjunto de dados que possuem alguma relação
variável no tempo. O tipo mais simples de série temporal é representado
por uma única variável amostrada em instantes regulares. Problemas de
classificação supervisionada são definidos como a tarefa de associar um
rótulo a exemplos desconhecidos, a partir de informações obtidas de
casos com rótulos conhecidos. Quando os casos a classificar são
compostos por características temporais, métodos especiais devem ser
usados em algumas etapas da construção do classificador. Extração de
características estáticas que descrevem as temporais e adaptação de
algoritmos de classificação para manipulação direta deste tipo de
atributo são as duas principais soluções adotadas neste tipo de
problema. Há duas formas usuais de adaptar algoritmos de classificação
para dados temporais: desenvolvendo modelos matemáticos para descrever
as séries associadas a cada classe; comparando diretamente as séries
entre si ou as séries em relação a casos considerados padrões. Este
trabalho trata apenas de métodos de classificação baseados em comparação
de séries temporais. A questão central, neste caso, é definir medidas de
semelhança entre as séries. A partir de dois trabalhos, que enumeram um
conjunto de métricas supostamente mais apropriadas para comparação de
séries temporais, versões adaptadas do algoritmo do vizinho mais próximo
e do algoritmo de treinamento de árvores de decisão são apresentadas.
Sabendo que, em problemas com dados não temporais, a combinação de
várias árvores de decisão gera classificadores mais precisos, é proposta
uma nova versão, especial para dados temporais, do método de treinamento
de comitês de árvores extremamente aleatórias. Além disso, para
verificar a suposição de que várias medidas de similaridade diferentes
produzem, em conjunto, melhores classificadores, um método de combinação
de medidas por ponderação é proposto. Uma avaliação experimental é
realizada em um conjunto de problemas reais para verificar a expectativa
de melhoria da taxa de acerto dos classificadores adaptados, em relação
aos mesmos algoritmos sem adaptação. No caso do algoritmo do vizinho
mais próximo e da nova adaptação da árvore extremamente aleatória, os
resultados experimentais mostram uma considerável melhoria em relação às
versões originais. Os resultados em um dos problemas reais - de seleção
de consumidores de energia elétrica para inspeção, são descritos em mais
detalhes por se tratar de um problema ainda pouco explorado.