1

我有一个问题,我需要一些输入/建议。这里是我有:机器学习:需要关于数据分析的建议

  1. 我有一个很大的(通过信息检索获得)文本文件组成的几个查询。
  2. 对于每个查询,一组文档返回与他们最后的相关性为0或1,对于给定的查询
  3. 每个文档返回拥有一套功能值返回(如0.123,0.0456)等

例如。数据

query1 relevance=0 document1 feature11 feature12 feature13 ... 
query1 relevance=1 document2 feature21 feature22 feature23 ... 
... 
query2 relevance=0 document100 feature101 feature102 ... 
query2 relevance=1 document101 feature201 feature202 ... 
query2 relevance=0 document102 feature301 feature302 ... 
... 

任务是分析这些数据并提供一些图。如果可以对这些数据进行任何建模,那么甚至会更好。

的问题是:

  1. 什么样的数据分析(请注明像平均数,中位数,K-均值,线性回归等具体条款),我可以申请吗?
  2. 什么样的图表在这种情况下显示会有用?
  3. 什么样的建模,如果有的话,可以做到这一点。

由于大部分

+2

这个问题似乎是题外话题,因为它是关于统计建模,而不是编程。 – joran

+0

@joran我会不同意这一点。 StackOverflow特别指出,这里提出的问题扩展到程序员使用的工具。机器学习和统计分析绝对属于这个范畴,特别是当它延伸到试图建模的时候。它可能稍微适合math.stackexchange,但略微适用。 –

+0

@SlaterTyranus这会比math.stackexchange更适合crossvalidated.com。在CV和SO之间随着时间推移发展的经验法则是,如果Q涉及用于运行/拟合模型的_specific_代码的问题,则它属于SO。如果是关于解释模型,选择合适的模型或技术,那么它属于简历。我根据我在两个网站Metas上参与的几次讨论以及来自各种mod的输入进行了讨论。如果这个经验法则发生了变化,它的消息给我。 – joran

回答

1

,因为它似乎是一个很一般的一套你可以执行任何数量的类型上组数据分析。一般来说,看起来你通常会看到机器学习中非常着名的binary classification的问题。

由于在这种情况下建模和数据分析之间的区别是模糊的,特别是在您的特征向量背后没有任何物理意义,我将继续前进并一次回答它们。

首先你需要一个成功指标。如果您正在查看二元分类问题,我会亲自选择AUC(接收器操作特性曲线下的区域(ROC)),因为它区分分布不良的数据和准确的数据分析(如果数据集具有90%1,则一个只是猜测所有1的算法似乎比它在大多数情况下更好)

当谈到选择特定类型的分析时,这里使用了许多不同的有用的东西。我的第一条建议是尝试logistic regression,因为它是一个相当简单的模型,可以非常有效。过去我会研究一个BayesNet,然后我会研究Ib1和Ibk分类器。

+0

很好的解释回复!谢谢。后续问题: 1.我也在考虑二元分类和线性回归。我只是混淆了,如果分类发生在查询级别或跨查询?即,我是否会查询和返回的文档,然后应用分类?我认为这是唯一的方法,因为在单个查询中可能没有任何类似的东西。2.特征向量非常大(每个文档有64个特征),所以你认为我使用SVM来解决这个问题吗? – sppc42

+0

理想情况下,分类应该跨查询进行。如果可能的话,你应该尝试对你的查询做一些聪明的功能设计。如果无论出于何种原因这都是不可能的,那么你可以将它限制在查询中,但是我觉得稀疏会在那里伤害你。 64并不是很大,我并没有真正看到在这里使用SVM的真正原因。但是,如果您对其他方法的结果不满意,您可以尝试一下。如果你担心大的特征向量(一旦你成千上万),我会使用PCA来消除一些特征。 –

+0

不要欣赏那些无论谁是downvote,会感谢解释,所以我可以改善我的答案,虽然。 –

相关问题