Use este identificador para citar ou linkar para este item: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885560
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.authorMOURA, M. F.pt_BR
dc.contributor.authorSANTOS, F. F. dospt_BR
dc.contributor.authorMARCACINI, R. M.pt_BR
dc.contributor.authorREZENDE, S. O.pt_BR
dc.date.accessioned2011-04-11T11:11:11Zpt_BR
dc.date.available2011-04-11T11:11:11Zpt_BR
dc.date.created2011-04-11pt_BR
dc.date.issued2010pt_BR
dc.identifier.citationCampinas: Embrapa Informática Agropecuária, 2010.pt_BR
dc.identifier.urihttp://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885560pt_BR
dc.descriptionPara facilitar a compreensão de uma coleção de documentos, pode-se organizá-la em grupos hierárquicos e obter descritores para cada um dos grupos automaticamente. O problema que se apresenta é decidir entre métodos de agrupamentos e de descrição dos grupos, que sejam eficientes e apresentem bons resultados. Particularmente, este trabalho apresenta uma proposta para a comparação entre resultados obtidos a partir de métodos de seleção de descritores em agrupamentos hierárquicos de documentos, especificamente para métodos independentes do algoritmo de agrupamento utilizado. Para esses métodos, dado um agrupamento hierárquico, o objetivo é selecionar descritores (palavras ou sentenças) discriminativos dos grupos, preferencialmente sem repetição de descritores ao longo dos efetivamente representativo da coleção de textos agrupada. Dessa forma, torna-se imperativo encontrar uma medida que verifique a efetividade da discriminação para os descritores selecionados, bem como uma medida de qualidade destes. Nessa proposta, a discriminação é medida por meio da avaliação dos resultados de um processo de recuperação de informações, que utiliza os descritores para formar as expressões de busca. A qualidade é medida pela variabilidade do vocabulário obtido e sua representatividade em relação ao conjunto total de atributos utilizado para o agrupamento dos documentos. Essas medidas e processo de validação respeitam a hierarquia produzida pelo agrupamento, bem como padronizações e validações confiáveis do ponto de vista estatístico. Os experimentos e os resultados obtidos mostram que essa metodologia é capaz de avaliar seguramente a diferença de efetividade entre métodos de descrição de agrupamentos hierárquicos, tendo sido aplicada a dezesseis coleções de textos e quatro diferentes métodos de descrição.pt_BR
dc.language.isoporpt_BR
dc.relation.ispartofseries(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 26).pt_BR
dc.rightsopenAccesspt_BR
dc.subjectDescritores de agrupamentopt_BR
dc.subjectAgrupamento hierárquicopt_BR
dc.subjectMineração de textopt_BR
dc.subjectModelos lineares generalizadopt_BR
dc.subjectAnálise de variânciapt_BR
dc.subjectRecuperação de informaçãopt_BR
dc.subjectGeneralized linear modelspt_BR
dc.subjectMutual information meanpt_BR
dc.subjectMultiple mean comparisonspt_BR
dc.subjectHierarchical document clusters descriptorspt_BR
dc.titleMetodologia para a comparação de diferentes métodos de descrição de agrupamentos hierárquicos de documentos independentes do algoritmo de agrupamento.pt_BR
dc.typeFolhetospt_BR
dc.date.updated2011-04-11T11:11:11Zpt_BR
dc.format.extent237 p. il.pt_BR
riaa.ainfo.id885560pt_BR
riaa.ainfo.lastupdate2011-04-11pt_BR
dc.contributor.institutionMARIA FERNANDA MOURA, CNPTIA; FABIANO FERNANDES DOS SANTOS, USP; RICARDO MARCONDES MARCACINI, USP; SOLANGE OLIVEIRA REZENDE, USP.pt_BR
Aparece nas coleções:Boletim de Pesquisa e Desenvolvimento (CNPTIA)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
BolPesq26.pdf1,29 MBAdobe PDFThumbnail
Visualizar/Abrir

FacebookTwitterDeliciousLinkedInGoogle BookmarksMySpace