请问关于转换数据集的问题。我有2个数据集,一个用于训练,另一个用于测试。两者都包含文本和句子中关于单词的数字的混合特征。例如(索引,标签,pos,..等等)。将文本数据集转换为数字数据集
这是一个实例中的数据集(.csv格式)的一个例子:
1,点,6,1279,1284,点,NN,合流,NN,将,MD,地图: :NNS the :: DT confluence :: NN,NNS_DT DT_NN NNS_DT_NN,would :: MD has :: VB to :: TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE
我想做什么是使用Matlab中的神经网络来训练这些数据集,并从中提取深层特征。问题是Matlab只处理数字数据集。另外,我在java中使用了一些分类器,他们只使用数字而不是文本。
任何人有一个建议,请问如何训练这样的数据集?或者如何将其转换为关于数字特征的数字格式?
由于事先
我不是在寻找这种类型的转换。通过使用这种方法,我将失去文本的所有语义。例如“走”和“跑”都是动词,但是通过转换使用,它们将彼此远离。 –