Use este identificador para citar ou linkar para este item:
http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.author | MOURA, M. F. | pt_BR |
dc.contributor.author | NOGUEIRA, B. M. | pt_BR |
dc.contributor.author | CONRADO, M. da S. | pt_BR |
dc.contributor.author | SANTOS, F. F. dos | pt_BR |
dc.contributor.author | REZENDE, S. O. | pt_BR |
dc.date.accessioned | 2011-04-12T11:11:11Z | pt_BR |
dc.date.available | 2011-04-12T11:11:11Z | pt_BR |
dc.date.created | 2011-04-12 | pt_BR |
dc.date.issued | 2010 | pt_BR |
dc.identifier.citation | Campinas: Embrapa Informática Agropecuária, 2010. | pt_BR |
dc.identifier.uri | http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611 | pt_BR |
dc.description | Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas. | pt_BR |
dc.language.iso | por | pt_BR |
dc.relation.ispartofseries | (Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23). | pt_BR |
dc.rights | openAccess | pt_BR |
dc.subject | Recuperação da informação | pt_BR |
dc.subject | Seleção de atributos | pt_BR |
dc.subject | N-gramas | pt_BR |
dc.subject | Atributos redundantes | pt_BR |
dc.subject | Mineração de textos | pt_BR |
dc.subject | Dados categorizados | pt_BR |
dc.subject | Attribute selection | pt_BR |
dc.subject | Categorical data | pt_BR |
dc.subject | N-grams | pt_BR |
dc.subject | Redundant attribute | pt_BR |
dc.subject | Text mining | pt_BR |
dc.title | Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos. | pt_BR |
dc.type | Folhetos | pt_BR |
dc.date.updated | 2011-04-12T11:11:11Z | pt_BR |
dc.subject.nalthesaurus | Information retrieval | pt_BR |
dc.format.extent2 | 37 p. il. | pt_BR |
riaa.ainfo.id | 885611 | pt_BR |
riaa.ainfo.lastupdate | 2011-04-12 | pt_BR |
dc.contributor.institution | MARIA FERNANDA MOURA, CNPTIA; BRUNO MAGALHÃES NOGUEIRA, USP; MERLEY DA SILVA CONRADO, USP; FABIANO FERNADES DOS SANTOS, ICMC/USP; SOLANGE OLIVEIRA REZENDE, ICMC/USP. | pt_BR |
Aparece nas coleções: | Boletim de Pesquisa e Desenvolvimento (CNPTIA)![]() ![]() |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
BolPesq23.pdf | 4.32 MB | Adobe PDF | ![]() Visualizar/Abrir |