2014-04-05 178 views
0

我是数据挖掘的新手,目前正在致力于RapidMiner中TOI的在线新闻文章。我的目标是获得显示文章中提及的最重要内容的结果,或查找隐藏在其中的有价值信息。文本挖掘单个文本文档

我已完成文章“TOI宣言”http://timesofindia.indiatimes.com/home/specials/lok-sabha-elections-2014/news/TOI-manifesto-An-agenda-for-the-new-government/articleshow/31973967.cms的文档处理。 我已经应用了标记,过滤和ngram,并得到了一些结果。

我被困在这里。我不知道如何继续下去。我应该在RapidMiner中使用哪种技术/算法来获得所需的结果?

+0

目前尚不清楚“所需结果”是什么。也许寻找频率最高的单词? – fstab

+0

我正在寻找提供有关文章主要信息的句子。有没有办法做到这一点? – user3501916

回答

1

您不需要数据挖掘。数据挖掘是先进的统计方法。

经常关注定量分析。

您正在寻找自然语言处理。您没有大型数据库。

你有一个单一的文件。你不需要定量结果,但是具有质量。您正在使用错误的工具。

+0

感谢您的回复!我正在使用RapidMiner礼仪中的信息提取插件扩展。它会有帮助吗?或者你会为此建议我使用哪种其他工具? – user3501916

+0

@ Anony-Mousse:我不同意你的看法。单个文档可能会被视为可以转换为大型数据集的数据源。数据挖掘可能有助于提取文档中的某些模式。 – fstab

+0

RapidMiner的信息抽取扩展在这里有一些文档http://www-ai.cs.uni-dortmund.de/auto?self=$fqhavm6c,以防你没有看到它。命名实体识别(NER)被提及一个公平的位。 – awchisholm