2015-06-02 59 views
-1

请问关于转换数据集的问题。我有2个数据集,一个用于训练,另一个用于测试。两者都包含文本和句子中关于单词的数字的混合特征。例如(索引,标签,pos,..等等)。将文本数据集转换为数字数据集

这是一个实例中的数据集(.csv格式)的一个例子:

1,点,6,1279,1284,点,NN,合流,NN,将,MD,地图: :NNS the :: DT confluence :: NN,NNS_DT DT_NN NNS_DT_NN,would :: MD has :: VB to :: TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE

我想做什么是使用Matlab中的神经网络来训练这些数据集,并从中提取深层特征。问题是Matlab只处理数字数据集。另外,我在java中使用了一些分类器,他们只使用数字而不是文本。

任何人有一个建议,请问如何训练这样的数据集?或者如何将其转换为关于数字特征的数字格式?

由于事先

回答

0

通过使用功能double()你会得到所有的相应代码字母的排列铸造变量。

例如double('MA1LAB')将输出

ans = 

77 65 49 76 65 66 

然后,您可以处理与它对应的代码每个字母。

请注意,每个字母得到一个代码,所以1279将被处理为4个字符。

+0

我不是在寻找这种类型的转换。通过使用这种方法,我将失去文本的所有语义。例如“走”和“跑”都是动词,但是通过转换使用,它们将彼此远离。 –