我正在尝试对文本进行分类的逻辑回归技术,并且我想要以p x n矩阵的形式构建数据集,对于特殊字词,p行,对于特殊字词,n列。我已经有了一个可以工作的文本,我只需要计算其中的单词。概念 - 如何在Python中构建2D词频矩阵?
重要的是要跟踪在哪个游戏中出现哪个单词,因此对于给定的游戏,我已经能够创建一个可以记录独特单词的Python字典。我不知道该怎么做的是把这些词典结合起来,例如
romeo = {[alas,2],[julliet,35]}
caesar = {[et,1],[tu,3],[cassius,12]}
可以合并产生矩阵
alas julliet et tu cassius
romeo 2 35 0 0 0
caesar 0 0 1 3 12
为清楚起见,我创建每个游戏只独特的单词组成一个例子 - 自然在现实中,这是一点都没错。
某人如何从这些字典中构建这个矩阵?从别的地方开始会更容易吗?
你想你的结果矩阵什么格式? Python本身没有本地2d数组数据类型。 – Amber 2012-03-12 00:10:30