2
我一直在尝试使用用户数据构建预测模型。模型的输入是文档的元数据(发布日期,标题等)和文档标签是用户的喜好(喜欢/不喜欢)。我想问一些我曾经遇到过的问题,希望得到一些答案:培训机器学习预测器
- 有更多喜欢的文件比厌恶。我读的地方,如果有人列车的使用比其他的这一个标签的方式更多的输入模型影响不好的表现手法(模型趋于一切归类到标签/结果具有广大的输入
有可能有一个ML算法的输入,例如逻辑回归在数字和词语方面是混合的,以及可以如何完成,如:
input = [18,23,1,0,'cryptography']带标签= ['Like']
我们还可以使用一个向量(表示一个字,使用tfidf等)作为输入特征(例如50维向量)吗?
- 为了构建使用文本数据这样做的唯一途径的预测模型是通过获取一字典出在我们的文件中提到的每一个字,然后构建一个二进制输入如果某个字词提到与否,将决定?使用这样一个版本,虽然我们失去了收藏权的期限的权重? 我们可以在监督式学习模型中使用某个word2vec向量作为单个输入吗?
谢谢你的时间。
谢谢你的见解队友!伟大的建议! – Swan87 2014-12-02 22:12:51