|
|
Por favor, utilize esse identificador para citar ou referenciar esse registro: http://www.infoteca.cnptia.embrapa.br/handle/doc/885611
|
       
| Formato Registro | Conteúdo |
| Unidade da Embrapa/Coleção: | Embrapa Informática Agropecuária - Boletim de Pesquisa e Desenvolvimento (INFOTECA-E) |
| Identificador: | 15664 |
| Data de Envio: | 12-Abr-2011 |
| Tipo do Material: | Boletim de Pesquisa e Desenvolvimento (INFOTECA-E) |
| Autoria: | MOURA, M. F. NOGUEIRA, B. M. CONRADO, M. da S. SANTOS, F. F. dos REZENDE, S. O. |
| Informações Adicionais: | MARIA FERNANDA MOURA, CNPTIA; BRUNO MAGALHÃES NOGUEIRA, USP; MERLEY DA SILVA CONRADO, USP; FABIANO FERNADES DOS SANTOS, ICMC/USP; SOLANGE OLIVEIRA REZENDE, ICMC/USP. |
| Título: | Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos. |
| Edição: | 2010 |
| Fonte/Imprenta: | Campinas: Embrapa Informática Agropecuária, 2010. |
| Páginas: | 37 p. il. |
| Série: | (Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23). |
| Idioma: | pt_BR |
| Palavras-chaves: | Recuperação da informação Seleção de atributos N-gramas Atributos redundantes Mineração de textos Dados categorizados |
| NAL Thesaurus: | Attribute selection Information retrieval N-grams Redundant attribute Text mining Categorical data |
| Conteúdo: | Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas. |
| Ano de Publicação: | 2010 |
| URI: | http://www.infoteca.cnptia.embrapa.br/handle/doc/885611 |
| Aparece nas Coleções: | Boletim de Pesquisa e Desenvolvimento (CNPTIA)
|
|