Uma Metodologia para a utilização do processamento de Linguagem Natural na busca de informações em documentos digitais

Nome: Francisco Santiago do Carmo Pereira
Tipo: Dissertação de mestrado acadêmico
Data de publicação: 07/08/2009
Orientador:

Nomeordem decrescente Papel
Sérgio Antônio Andrade de Freitas Orientador

Banca:

Nomeordem decrescente Papel
Aline Villavicencio Examinador Externo
Orivaldo de Lira Tavares Examinador Interno
Sérgio Antônio Andrade de Freitas Orientador

Resumo: Esta dissertação propõe uma metodologia para busca em textos digitais baseada na Estrutura Nominal do Discurso, originada da proposta de resolução de anáforas apresentada por Freitas[Freitas 2005]. O processo para resolução de anáforas permite a identificação da estrutura de formação do texto, criada pelo autor. A área de Recuperação de Informação (RI) propõe vários modelos para a representação e busca em documentos digitais, apesar de diferentes
em aspectos como a representação do texto ou metodologia para a realização de pesquisas todos têm como objetivo atender a necessidade de informação dos usuários de seus sistemas
de buscas. Os Modelos clássicos utilizados para Recuperação de Informação, como o modelo vetorial[Salton, Wong e Yang 1975] ou o LSI (Latent Semantic Indexing)[Deerwester et al. 1990],
consideram como elemento básico para a representação de um documento os termos que o compõem.
Nesses modelos uma query composta por um conjunto de termos T é comparada com os documentos indexados em busca de documentos que apresentem esses termos. Os documentos considerados como relevantes são então retornados como resultado a query.
Entretanto textos escritos em linguagem natural nem sempre possuem referências explícitas as suas entidades principais. Anáforas são um recurso freqüente em textos dessa natureza e seu uso diminui o poder de representação dos modelos clássicos, uma vez que entidades citadas no texto podem ser referenciadas por diferentes termos ou até serem omitidas.
Um modelo estrutural [Baeza-Yates e Ribeiro-Neto 1998] alternativo, que leva em consideração a utilização de anáforas na construção da representação computacional dos documentos, é o modelo apresentado por Seibel Júnior[Seibel Júnior e Freitas 2007]. Em [Seibel Júnior 2007]
o documento é representado pela Estrutura Nominal do Discurso para Buscas (ENDB) ou Estrutura para Buscas, criada a partir da Estrutura Nominal do Discurso (END) proposta por Freitas [Freitas 2005, Freitas e Lopes 1995, Freitas e Lopes 1994, Freitas e Lopes 1993, Freitas 1992]
com o objetivo de resolver anáforas. Uma vez que um documento tenha sua END construída, a metodologia proposta por Seibel Júnior [Seibel Júnior 2007] estabelece os mecanismos para transformá-la em uma estrutura voltada para a Recuperação de Informação e estabelece a metodologia para a realização de consultas à estrutura.
A construção da representação dos textos baseia-se na identificação dos focos, elementos centrais das frases do texto. Nenhuma informação, além dos focos, é levada em consideração
para a construção da Estrutura para Buscas, mas a END pode fornecer outras informações. A Estrutura Nominal armazena todas as entidades apresentadas no texto. Pereira et al apresentam em [Pereira, Seibel Júnior e Freitas 2009] uma nova metodologia para a RI baseada na resolução de anáforas de acordo com a proposta de Freitas[Freitas 2005].
Nesse trabalho, a construção da Estrutura para Buscas é realizada transpondo todas as entidades identificadas durante o processo de resolução anafórica, o que possibilita uma melhora na forma de representação do texto dos documentos e na qualidade dos resultados obtidos pelas pesquisas. Este trabalho detalha a proposta apresentada por Pereira et al, apresentando os algoritmos envolvidos na sua definição e experimentações sobre a nova metodologia de buscas.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910