2012-06-23 49 views
4

我在创造倾销任何的用户评论和对于一些化妆品“XYZ”在他们的Twitter个人资料发布明文软件的过程。我解析了从Twitter API接收到的JSON对象,并将原始数据转储到MySql数据库中。模式识别的数据挖掘和基于文本anaylysis

现在我必须对这些纯文本进行分析,以获取模式,无论是关于化妆品产品“XYZ”的好评或差评等,并将此信息提供给单独的API以用HTML创建可视化图表。

我在DataMining和基于文本的模式识别这个领域是全新的。如果有人能够建议我的数据库中的纯文本模式识别算法提供给我的单独的可视化图表API,我们将会非常感激。

回答

11

我真的建议您观看以下NLP Stanford lectures,特别是:

  • 周3 - 情感分析(这是你想要达到的目标)
  • 第4周 - 关系抽取(赫斯特的模式,等等......)
  • 我想你会发现他们是一个非常宝贵的资源。

    0

    你可能想看看亨利马乌(在这种情况下,你可能会想你的数据加载到HDFS)。

    你不是超级具体谈谈你的使用情况,分析和文本分析不是一个简单的问题,但象夫绝对是一个很好的“开箱即用”机器学习应用的工具。

    你也可以看看这本书,这是相当不错的:Taming Text

    0

    我对你的问题的理解是,你需要一个分类来区分评论是好还是坏。

    为了解决这种问题,统计方法被证明是有效的,就像垃圾邮件分类。

    你可以看看贝叶斯分类器相关的项目,如cardmagic/classifier,看它是否是有帮助的。

    2

    如果你了解模式识别的基本知识:

    1. 手动创建两套的Twitter帖子的(正面和负面的),为您的产品。
    2. 为过帐定义度量,内核或相似性度量。您可以使用高维二进制向量,每个组件代表一个值为1代表存在的单词,0表示不存在该单词。您也可以为负面词添加特殊的权重,如“不”。
    3. 使用机器学习算法在您手动创建的集合(类)上训练分类器。您可以使用支持向量机,神经网络,最近邻分类器...
    4. 使用训练的分类器来分类新的Twitter发布。

    这是一个高层次的基本理念。当然,有许多细节需要处理,但解释它们超出了答案的范围。

    2

    该子域名为情感分析。这个主题有大量的讲座和文章。不幸的是,迄今为止我看到的真实结果并不是令人信服的。

    这个挑战的关键是要有良好的训练数据。让自己成为一个工具,让你快速浏览数据并手动将其标记为正面/中性/负面,以快速获得实质性训练集。

    请参阅Stanford NLP Lectures,特别是第3周详细了解整个过程和一些最先进的方法和技巧。