2

我一直在尝试使用用户数据构建预测模型。模型的输入是文档的元数据(发布日期,标题等)和文档标签是用户的喜好(喜欢/不喜欢)。我想问一些我曾经遇到过的问题,希望得到一些答案:培训机器学习预测器

  1. 有更多喜欢的文件比厌恶。我读的地方,如果有人列车的使用比其他的这一个标签的方式更多的输入模型影响不好的表现手法(模型趋于一切归类到标签/结果具有广大的输入
  2. 有可能有一个ML算法的输入,例如逻辑回归在数字和词语方面是混合的,以及可以如何完成,如:

    input = [18,23,1,0,'cryptography']带标签= ['Like']

    我们还可以使用一个向量(表示一个字,使用tfidf等)作为输入特征(例如50维向量)吗?

  3. 为了构建使用文本数据这样做的唯一途径的预测模型是通过获取一字典出在我们的文件中提到的每一个字,然后构建一个二进制输入如果某个字词提到与否,将决定?使用这样一个版本,虽然我们失去了收藏权的期限的权重? 我们可以在监督式学习模型中使用某个word2vec向量作为单个输入吗?

谢谢你的时间。

回答

1
  1. 您可能需要欠采样更大类(取小的随机样本以匹配较小的类的大小),过采样较小类(自举样本),或使用一种算法,支撑不平衡的数据 - 为此,您需要阅读文档。

  2. 你需要把你的话变成文字载体。列是你的语料库中唯一的单词。行是文件。单元格值是以下情况之一:该单词是否出现在文档中,出现的次数,出现的相对频率或TFIDF得分。然后,您可以将这些列与其他非单词列一起使用。

现在,你可能有更多的列比列,这意味着你会得到与基于矩阵的算法,在这种情况下,你需要像SVM或朴素贝叶斯一个奇点。

+0

谢谢你的见解队友!伟大的建议! – Swan87 2014-12-02 22:12:51