Use este identificador para citar ou linkar para este item: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.authorMOURA, M. F.pt_BR
dc.contributor.authorNOGUEIRA, B. M.pt_BR
dc.contributor.authorCONRADO, M. da S.pt_BR
dc.contributor.authorSANTOS, F. F. dospt_BR
dc.contributor.authorREZENDE, S. O.pt_BR
dc.date.accessioned2011-04-12T11:11:11Zpt_BR
dc.date.available2011-04-12T11:11:11Zpt_BR
dc.date.created2011-04-12pt_BR
dc.date.issued2010pt_BR
dc.identifier.citationCampinas: Embrapa Informática Agropecuária, 2010.pt_BR
dc.identifier.urihttp://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611pt_BR
dc.descriptionUma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas.pt_BR
dc.language.isoporpt_BR
dc.relation.ispartofseries(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23).pt_BR
dc.rightsopenAccesspt_BR
dc.subjectRecuperação da informaçãopt_BR
dc.subjectSeleção de atributospt_BR
dc.subjectN-gramaspt_BR
dc.subjectAtributos redundantespt_BR
dc.subjectMineração de textospt_BR
dc.subjectDados categorizadospt_BR
dc.subjectN-gramspt_BR
dc.subjectCategorical datapt_BR
dc.subjectRedundant attributept_BR
dc.subjectText miningpt_BR
dc.subjectAttribute selectionpt_BR
dc.titleUm modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.pt_BR
dc.typeFolhetospt_BR
dc.date.updated2011-04-12T11:11:11Zpt_BR
dc.subject.nalthesaurusInformation retrievalpt_BR
dc.format.extent237 p. il.pt_BR
riaa.ainfo.id885611pt_BR
riaa.ainfo.lastupdate2011-04-12pt_BR
dc.contributor.institutionMARIA FERNANDA MOURA, CNPTIA; BRUNO MAGALHÃES NOGUEIRA, USP; MERLEY DA SILVA CONRADO, USP; FABIANO FERNADES DOS SANTOS, ICMC/USP; SOLANGE OLIVEIRA REZENDE, ICMC/USP.pt_BR
Aparece nas coleções:Boletim de Pesquisa e Desenvolvimento (CNPTIA)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
BolPesq23.pdf4,32 MBAdobe PDFThumbnail
Visualizar/Abrir

FacebookTwitterDeliciousLinkedInGoogle BookmarksMySpace