2013-04-22 25 views
1

我不知道如果我是在正确的地方问问题,因为我是新的stackoverflow,请移动如果需要。如何找到大量功能的相似性

我正试图解决Flickr数据集的链接预测问题。我的数据集有5K个节点,每个节点有大约27K个特征,它很稀疏。

我想找到节点之间的相似性,以便我可以预测它们之间的链接,如果相似度值大于我决定的某个阈值。问题在于功能的数量。我无法加载Weka中的文件(尝试通过某些信息增益或某事来减少功能,然后尝试群集或检查余弦相似性度量)

还有一个问题是,如何将此定义为分类问题?我想为两个节点找到重叠的标签,所以表中包含节点和它们的一些特征(将有成千上万个),并且它们都将是正类,因为我知道它们之间存在链接。

我想用一些节点创建一个测试数据集并创建类似的表并将它们标记为正类或负类。但我的问题是我拥有的所有数据都是正面的,所以我认为它永远不会被标记为负面。如何正确地将其更改为分类问题?

任何指针或帮助非常感谢。

回答

0

Weka可以处理27K的特征,它不应该成为一个问题......但是,我将这个问题作为分类问题来处理,但是链接发现之一,在这种情况下可以看作是一个匹配问题。

我的做法是:1。 新节点出现 2.搜索最相似的元素 3.认为它们是相关(有链接)如果相似度比你的阈值。

主要问题是根据某种质量度量调整阈值。

对于这种方法,Lucene可能是最好的选择。

我希望这会有所帮助。

+0

我无法在Weka中加载文件本身。所有属性的值都是数字。有5K记录。文件大小约为250MB。我不确定我在这里错过了什么吗? – TechCrunch 2013-04-22 14:53:13

+0

非常感谢您的回复。我无法在Weka中加载文件本身。所有属性的值都是数字。有5K记录。文件大小约为250MB。我不确定我是否错过了一些东西?你提到的方法与我的相似吗?我无法知道如何将此定义为分类问题,例如训练数据集包含什么内容?每行将有一对节点(4K×4K)及其功能(或减少的功能),并将被分类为是或否?在训练集中,我已经知道全部被分类为“是”。那么,它会分类NO吗? – TechCrunch 2013-04-22 14:58:45

+0

关于Weka,你能否提供关于你得到的错误的更多信息(如果你有的话)? 你有什么理由不得不将这个任务作为分类问题来解决吗?因为我认为它不适合它,你有更好的选择。 – miguelmalvarez 2013-04-22 15:47:16