我正在使用数据挖掘和NLP技术纠正ASR系统输出中的错误,因为我需要一个n-gram字典。我从wikipedia ngram开始,它在小测试集中给出了令人鼓舞的结果(75%的检测率)。但是当我在大型数据集上测试我的解决方案时,检测率下降,因为维基百科的ngram不够大,无法覆盖所有英文单词。所以我在寻找从网上收集的更大的ngram,我找到了“Google Web 1T 5克”,但是我的实验室没有足
我使用R来读取文本。的通道由100句,然后将其放入一个列表,该列表是这样的: [[1]]
[1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016
[[2]]
[1] "chrisreedfilm: RT @hammertonail: #SX
我在做一个项目,我需要为分析创建'n-gram'。我目前有一种方法可以为int'n'这样做,并将所有术语整理在一起,除了ArrayList中的最后一个单词,它完全忽略了这一点,我不确定为什么?下面是输出... Original: Making pancakes today? Need a recipe? Check https://t.co/lsrRy8CW22 #PancakeDay https
我有一个包含70,429个文件(296.5 mb)的语料库。我试图通过使用整个语料库来找到双格。我写了下面的代码; allFiles = ""
for dirName in os.listdir(rootDirectory):
for subDir in os.listdir(dirName):
for fileN in os.listdir(subDir):