Acesso à informação Portal Brasil
DSpace

Infoteca-e » Embrapa Informática Agropecuária (CNPTIA) » Boletim de Pesquisa e Desenvolvimento (CNPTIA) »

Por favor, utilize esse identificador para citar ou referenciar esse registro:
http://www.infoteca.cnptia.embrapa.br/handle/doc/885560

FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut

Formato RegistroConteúdo
Unidade da Embrapa/Coleção: Embrapa Informática Agropecuária - Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)
Identificador: 15660
Data de Envio: 11-Abr-2011
Tipo do Material: Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)
Autoria: MOURA, M. F.
SANTOS, F. F. dos
MARCACINI, R. M.
REZENDE, S. O.
Informações Adicionais: MARIA FERNANDA MOURA, CNPTIA; FABIANO FERNANDES DOS SANTOS, USP; RICARDO MARCONDES MARCACINI, USP; SOLANGE OLIVEIRA REZENDE, USP.
Título: Metodologia para a comparação de diferentes métodos de descrição de agrupamentos hierárquicos de documentos independentes do algoritmo de agrupamento.
Edição: 2010
Fonte/Imprenta: Campinas: Embrapa Informática Agropecuária, 2010.
Páginas: 37 p. il.
Série: (Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 26).
Idioma: pt_BR
Palavras-chaves: Descritores de agrupamento
Agrupamento hierárquico
Mineração de texto
Modelos lineares generalizado
Análise de variância
Recuperação de informação
NAL Thesaurus: Hierarchical document clusters descriptors
Mutual information mean
Multiple mean comparisons,
Generalized linear models.
Conteúdo: Para facilitar a compreensão de uma coleção de documentos, pode-se organizá-la em grupos hierárquicos e obter descritores para cada um dos grupos automaticamente. O problema que se apresenta é decidir entre métodos de agrupamentos e de descrição dos grupos, que sejam eficientes e apresentem bons resultados. Particularmente, este trabalho apresenta uma proposta para a comparação entre resultados obtidos a partir de métodos de seleção de descritores em agrupamentos hierárquicos de documentos, especificamente para métodos independentes do algoritmo de agrupamento utilizado. Para esses métodos, dado um agrupamento hierárquico, o objetivo é selecionar descritores (palavras ou sentenças) discriminativos dos grupos, preferencialmente sem repetição de descritores ao longo dos efetivamente representativo da coleção de textos agrupada. Dessa forma, torna-se imperativo encontrar uma medida que verifique a efetividade da discriminação para os descritores selecionados, bem como uma medida de qualidade destes. Nessa proposta, a discriminação é medida por meio da avaliação dos resultados de um processo de recuperação de informações, que utiliza os descritores para formar as expressões de busca. A qualidade é medida pela variabilidade do vocabulário obtido e sua representatividade em relação ao conjunto total de atributos utilizado para o agrupamento dos documentos. Essas medidas e processo de validação respeitam a hierarquia produzida pelo agrupamento, bem como padronizações e validações confiáveis do ponto de vista estatístico. Os experimentos e os resultados obtidos mostram que essa metodologia é capaz de avaliar seguramente a diferença de efetividade entre métodos de descrição de agrupamentos hierárquicos, tendo sido aplicada a dezesseis coleções de textos e quatro diferentes métodos de descrição.
Ano de Publicação: 2010
URI: http://www.infoteca.cnptia.embrapa.br/handle/doc/885560
Aparece nas Coleções:Boletim de Pesquisa e Desenvolvimento (CNPTIA)
Arquivo Descrição TamanhoFormatoVisualizar
BolPesq26.pdf1,29 MBAdobe PDFThumbnail
Download

Formato Dublin Core

Estatísticas