我被困在一个决定之上,对我得到的数据集应用分类或聚类。我越想它,我就越困惑。这就是我遇到的问题。聚类或分类?
我收到了包含有关公司,投资,股票,经济,季度收入等新闻的新闻文件(大约3000,并不断增加)。我的目标是将新闻排序,以便我知道哪些新闻对应于哪家公司。例如对于新闻项目“Apple推出新iPhone”,我需要将Apple公司与它联系起来。一个特定的新闻项目/文件只包含'标题'和'描述',所以我必须分析这些文字才能找出新闻反映的公司。它也可能是多家公司。
为了解决这个问题,我转向了Mahout。
我从集群开始。我希望在我的集群中获得'苹果','谷歌','英特尔'等顶级词汇,从那里我会知道集群中的消息与其集群标签相对应,但情况有点不同。我有'投资','股票','通信','绿色能源','终端','股份','街道','奥林匹克'和许多其他条款作为顶级的(这是有道理的集群算法'寻找常用术语)。虽然有一些'苹果'的集群,但与它相关的新闻项目是非常少的。我认为可能是聚类不是这种问题,因为许多公司新闻进入更普遍的集群(投资,利润),而不是特定公司集群(Apple)。
我开始阅读关于需要训练数据的分类,这个名字也令人信服,因为我实际上想将我的新闻项目分类为“公司名称”。在我阅读时,我的印象是名称分类有点欺骗,与分类相比,该技术更多地用于预测目的。我得到的其他困惑是如何准备新闻文件的培训数据?让我们假设我有一份我感兴趣的公司名单。我编写了一个程序来为分类器生成训练数据。该计划将查看新闻标题或说明是否包含公司名称“Apple”,然后是其关于苹果的新闻报道。我是如何准备训练数据的?(当然,我读过训练数据实际上是一组预测变量和目标变量)。如果是这样,那么为什么我应该首先使用mahout分类?我应该沟通mahout,而不是使用我为培训数据编写的这个小程序(实际上是分类)
您可以看到我对如何解决此问题感到困惑。另一件令我担忧的事情是,如果有可能使这个系统变得如此聪明,那么如果消息称'iphone销量创新高'而不使用'Apple'这个词,那么系统可以将其分类为与苹果相关的新闻?
非常感谢您指引我朝着正确的方向前进。