我有一个问题,我需要一些输入/建议。这里是我有:机器学习:需要关于数据分析的建议
- 我有一个很大的(通过信息检索获得)文本文件组成的几个查询。
- 对于每个查询,一组文档返回与他们最后的相关性为0或1,对于给定的查询
- 每个文档返回拥有一套功能值返回(如0.123,0.0456)等
例如。数据
query1 relevance=0 document1 feature11 feature12 feature13 ...
query1 relevance=1 document2 feature21 feature22 feature23 ...
...
query2 relevance=0 document100 feature101 feature102 ...
query2 relevance=1 document101 feature201 feature202 ...
query2 relevance=0 document102 feature301 feature302 ...
...
任务是分析这些数据并提供一些图。如果可以对这些数据进行任何建模,那么甚至会更好。
的问题是:
- 什么样的数据分析(请注明像平均数,中位数,K-均值,线性回归等具体条款),我可以申请吗?
- 什么样的图表在这种情况下显示会有用?
- 什么样的建模,如果有的话,可以做到这一点。
由于大部分
这个问题似乎是题外话题,因为它是关于统计建模,而不是编程。 – joran
@joran我会不同意这一点。 StackOverflow特别指出,这里提出的问题扩展到程序员使用的工具。机器学习和统计分析绝对属于这个范畴,特别是当它延伸到试图建模的时候。它可能稍微适合math.stackexchange,但略微适用。 –
@SlaterTyranus这会比math.stackexchange更适合crossvalidated.com。在CV和SO之间随着时间推移发展的经验法则是,如果Q涉及用于运行/拟合模型的_specific_代码的问题,则它属于SO。如果是关于解释模型,选择合适的模型或技术,那么它属于简历。我根据我在两个网站Metas上参与的几次讨论以及来自各种mod的输入进行了讨论。如果这个经验法则发生了变化,它的消息给我。 – joran