2013-10-01 69 views
0

你好,所有的机器学习专家,我对机器学习的主题很幼稚。我的数据有6个特征(6个常规属性)和2个标签(1个特殊属性)(true和false)(希望我使用了正确的术语)。我想结合那些必须由SVM训练的功能。数据看起来像这样: -支持向量机(SVM):通过训练SVM结合每个参数的单独分数

ZDis  ZAnch  ZSurf  Zval  ZDom  ZEntropy Top5 
0.48659 -0.20412 1.19243 0.15374 0.59667 1.34151 False 
-0.10067 4.89898 -0.73677 0.22506 0.59667 1.34151 True 
2.24837 -0.20412 -2.02291 0.22455 0.59667 1.34151 False 
0.48659 -0.20412 1.19243 -0.06352 0.59667 1.34151 False 
-0.68793 -0.20412 1.19243 0.12405 0.59667 1.34151 False 
-2.02698 -0.40825 1.86371 0.07348 1.3272 -0.1242 False 
-0.1807 2.44949 0.17865 0.07345 0.9401 0.1505 False 
1.66557 2.44949 -1.50641 0.07381 0.9401 1.30135 False 
1.11169 -0.40825 0.34716 0.07381 0.9401 -0.20225 True 
1.5337 -0.40825 -0.01393 0.07381 -0.9954 0.53144 False 
-0.01945 -0.48348 -1.16128 0.11035 2.02339 0.90237 False 
-1.52944 3.23556 0.23428 0.11093 1.22613 -0.12973 False 
0.43354 -0.48348 -2.20795 0.11093 1.22613 2.25734 False 
2.84953 -0.48348 -2.20795 0.11093 1.49189 3.07609 True 

所以我想在这里做总= X1 * ZDis + X2 * ZAnch + X3 * ZSurf + X4 * ZVAL + X5 * ZDom + X6 * ZEntropy 其中X1..X6是应该来自SVM的加权值。我用rapidminner来让我的训练集和结果的40例这样的重量值低于: -

Total number of Support Vectors: 40 
Bias (offset): -1.055 
w[ZDis] = 0.076 
w[ZAnch] = -0.058 
w[ZSurf] = 0.057 
w[Zval] = 0.010 
w[ZDom] = 0.073 
w[ZEntropy] = 0.077 

我不知道我做了正确的做法还是不那么我需要你的帮助。提前致谢。另外如果有人指导我如何在Python中编写这个SVM问题的代码,这对我也会有所帮助。

感谢 Pallab


从你得到的反馈之后,我又做了一些分析,我的问题,我在那里有277个数据集和8是积极的,269是具有八大特点负的,因此它显示我清楚,它的不平衡数据集。正如我之前所说的,我想通过使用SVM权重来使用SVM来同样重视我的所有特征,然后想要做(w1*x1+w2*x2+...+w8*x8),这将帮助我从我的数据集中提取真实结果。数据是这样的: -

`NameOfMotif eval_Zscore dis_Zscore abind_Zscore surf_Zscore pfam_Zscore ptm_Zscore coil_Zscore entropy_Zscore TrueVsFalse 
ptk_9 0.77428 0.2387 -0.39736 1.48274 0.61237 -0.21822 0.49111 0.44599 False 
ptk_8 0.77494 -0.97317 -0.39736 -0.27357 -1.63299 -0.21822 0.6181 -0.04028 False 
ptk_3 0.77591 1.45058 -0.39736 -0.1139 0.61237 4.58258 0.74509 -0.85069 True 
ptk_6 0.77583 -2.18505 -0.39736 -0.27357 0.61237 -0.21822 -0.3343 -0.92281 False 
ptk_22 0.55932 1.45058 -0.39736 0.70216 0.61237 -0.21822 1.25303 -2.17556 False 
ptk_23 0.51159 -0.97317 -0.39736 1.05697 -1.63299 -0.21822 1.25303 0.77021 False 
ptk_20 0.62907 0.2387 -0.39736 1.05697 0.61237 -0.21822 -0.22848 -1.21702 False 
.............................................................................. 
scf-trcp1_1 0.17425 2.23675 -0.92125 -0.03478 1.20877 5.13288 1.31262 2.27655 True 
scf-trcp1_3 0.17425 -1.068 -0.92125 -0.82472 -2.43745 -0.43743 0.48341 -0.59339 False 
scf-trcp1_5 0.17425 0.41914 0.24523 -1.05041 0.23644 -0.43743 -0.02919 1.68523 False 
scf-trcp1_7 0.17425 -1.63453 -0.92125 -1.25354 -1.82975 -0.43743 -2.0193 0.95051 False` 

和我的SVM了卖出期权

kernel type polynomial 
cross fold validation =5 
c=100000.0 
kernal degree = 1.0E-4 
L-pos =2.0 
L-neg =2.0 
PerformanceVector: 
accuracy: 84.60% +/- 23.58% (mikro: 84.48%) 
ConfusionMatrix: 
True: False True 
False: 228 2 
True: 41 6 
precision: 31.08% +/- 25.51% (mikro: 12.77%) (positive class: True) 
ConfusionMatrix: 
True: False True 
False: 228 2 
True: 41 6 
recall: 70.00% +/- 40.00% (mikro: 75.00%) (positive class: True) 
ConfusionMatrix: 
True: False True 
False: 228 2 
True: 41 6 
AUC (optimistic): 0.793 +/- 0.184 (mikro: 0.793) (positive class: True) 
AUC: 0.793 +/- 0.184 (mikro: 0.793) (positive class: True) 
AUC (pessimistic): 0.793 +/- 0.184 (mikro: 0.793) (positive class: True) 

我的问题是在这里,我的做法是不够好了吗?我用来优化SVM的所有参数都很好?我在这个问题上非常天真! 感谢 Pallab

+0

为什么你不确定这是否是正确的方法?您是否在测试数据上测试了您的参数? –

+0

我检查了我的测试数据,特别是从我的训练集(现在只包含35个示例)中取出了5个示例,其中测试集中4个为假,1个为真,但rapisminner给我5个假结果! – Paul85

回答

0

您使用的是线性模型,假设存在一组参数,这将使你通过简单的计算sign(w1*x1+w2*x2+...+w5*x5 - b)答案。对于低维空间,这种假设很少出现。在你的特定例子中,你只有5个维度和非常小的训练集。女巫这样的小数据 - 几乎没有机会,任何机器学习方法都会取得好成绩,因为它们都是统计方法统计。很难谈及30个元素的统计。

要提问:

  • 为了试验这个在python,看看scikit-learn
  • 要测试你的模型进行交叉验证 - 将数据分成例如5块(每7个例子),然后在4个这样的块(28分)上训练SVM,然后测试其余的1块(7分),重复5次,因此每个块只用一次作为测试。计算得到的精度的平均值
  • 要处理低维非线性可分数据,请尝试使用类似于多项式(具有小程度)的其他内核,或者如果它不起作用 - RBF,请尝试使用其他内核。
  • 请记住,SVM是参数模型。你必须选择正确的参数,以获得良好的结果。线性SVM需要C参数 - C越大,“强制”SVM越能够正确分类数据(将错误分类的数量最小化)。当使用内核时 - 你会得到另一个参数(所以除了C你得到d多项式和gamma在rbf中)。数据标准化 - 众所周知,很多ML模型(包括SVM)可以在数据上执行严格的数据,这些数据标准化可以通过网格搜索来执行(scikit-learn有自动执行此操作的例程,可以读取文档)
  • 每个特征有不同的比例 - 似乎它是你的情况(Zval似乎比Zentropy小得多) - 为了避免特征偏差,你应该将它们重新缩放到例如[-1,1]的间隔,或者归一化,因此每个都具有0和方差1
+0

感谢您提供有用的信息,现在我将尝试在我的问题中实现您的想法 – Paul85

0

你提到,通过持有5条记录,你获得了5个错误的分类,其中4个是正确的,1个是错误的。这还不足以知道模型是否有用。正如前面的答案所述,通过进行交叉验证(RapidMiner运算符称为X验证)来估计SVM对未见数据的性能。这会让你看到该模型是否有任何价值。为了将参数调整到SVM运算符以改进模型,请使用循环参数运算符并将其与交叉验证组合以获得估计的性能。