2012-05-01 63 views
0

比如我有这样libsvm输入数据?

userID 1 (or 2,3.....up to n) 
gender male (or female) 
working yes (or No) 
income >$5000/month (or <$5000) 
have_car yes (or no) 

我想预测一个人对其他性质的汽车或不基地(性别,工作和收入)为n个人的数据集。我应该使用什么样的格式进行培训,以及我应该培训多少人,如果说我拥有10,000人的数据,有多少人用于测试

回答

0

格式:您必须使用数字数据。所以使用可以使用0和1进行二进制分割。

培训/测试:没有确切的公式。看起来你没有很多用于分类的功能 - 这意味着你不一定需要大量的训练数据。你可以将它分开50:50,并检查你是否得到了合理的结果。