Please use this identifier to cite or link to this item: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611
Research center of Embrapa/Collection: Embrapa Informática Agropecuária - Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)
Date Issued: 2010
Type of Material: Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)
Authors: MOURA, M. F.
NOGUEIRA, B. M.
CONRADO, M. da S.
SANTOS, F. F. dos
REZENDE, S. O.
Additional Information: MARIA FERNANDA MOURA, CNPTIA; BRUNO MAGALHÃES NOGUEIRA, USP; MERLEY DA SILVA CONRADO, USP; FABIANO FERNADES DOS SANTOS, ICMC/USP; SOLANGE OLIVEIRA REZENDE, ICMC/USP.
Title: Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.
Publisher: Campinas: Embrapa Informática Agropecuária, 2010.
Pages: 37 p. il.
Series/Report no.: (Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23).
Language: pt_BR
Keywords: Recuperação da informação
Seleção de atributos
N-gramas
Atributos redundantes
Mineração de textos
Dados categorizados
N-grams
Attribute selection
Categorical data
Redundant attribute
Text mining.
Description: Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas.
NAL Thesaurus: Information retrieval.
Data Documento: 2011-04-12
Appears in Collections:Boletim de Pesquisa e Desenvolvimento (CNPTIA)

Files in This Item:
File Description SizeFormat 
BolPesq23.pdf4,32 MBAdobe PDFThumbnail
View/Open

FacebookTwitterDeliciousLinkedInGoogle BookmarksMySpace