Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.

MOURA, M. F.; NOGUEIRA, B. M.; CONRADO, M. da S.; SANTOS, F. F. dos; REZENDE, S. O.

Use este identificador para citar ou linkar para este item: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.author	MOURA, M. F.	pt_BR
dc.contributor.author	NOGUEIRA, B. M.	pt_BR
dc.contributor.author	CONRADO, M. da S.	pt_BR
dc.contributor.author	SANTOS, F. F. dos	pt_BR
dc.contributor.author	REZENDE, S. O.	pt_BR
dc.date.accessioned	2011-04-12T11:11:11Z	pt_BR
dc.date.available	2011-04-12T11:11:11Z	pt_BR
dc.date.created	2011-04-12	pt_BR
dc.date.issued	2010	pt_BR
dc.identifier.citation	Campinas: Embrapa Informática Agropecuária, 2010.	pt_BR
dc.identifier.uri	http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611	pt_BR
dc.description	Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas.	pt_BR
dc.language.iso	por	pt_BR
dc.relation.ispartofseries	(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23).	pt_BR
dc.rights	openAccess	pt_BR
dc.subject	Recuperação da informação	pt_BR
dc.subject	Seleção de atributos	pt_BR
dc.subject	N-gramas	pt_BR
dc.subject	Atributos redundantes	pt_BR
dc.subject	Mineração de textos	pt_BR
dc.subject	Dados categorizados	pt_BR
dc.subject	N-grams	pt_BR
dc.subject	Categorical data	pt_BR
dc.subject	Redundant attribute	pt_BR
dc.subject	Text mining	pt_BR
dc.subject	Attribute selection	pt_BR
dc.title	Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.	pt_BR
dc.type	Folhetos	pt_BR
dc.date.updated	2011-04-12T11:11:11Z	pt_BR
dc.subject.nalthesaurus	Information retrieval	pt_BR
dc.format.extent2	37 p. il.	pt_BR
riaa.ainfo.id	885611	pt_BR
riaa.ainfo.lastupdate	2011-04-12	pt_BR
dc.contributor.institution	MARIA FERNANDA MOURA, CNPTIA; BRUNO MAGALHÃES NOGUEIRA, USP; MERLEY DA SILVA CONRADO, USP; FABIANO FERNADES DOS SANTOS, ICMC/USP; SOLANGE OLIVEIRA REZENDE, ICMC/USP.	pt_BR
Aparece nas coleções:	Boletim de Pesquisa e Desenvolvimento (CNPTIA)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
BolPesq23.pdf		4,32 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas