n-gram

    0热度

    1回答

    我正在使用数据挖掘和NLP技术纠正ASR系统输出中的错误,因为我需要一个n-gram字典。我从wikipedia ngram开始,它在小测试集中给出了令人鼓舞的结果(75%的检测率)。但是当我在大型数据集上测试我的解决方案时,检测率下降,因为维基百科的ngram不够大,无法覆盖所有英文单词。所以我在寻找从网上收集的更大的ngram,我找到了“Google Web 1T 5克”,但是我的实验室没有足

    3热度

    1回答

    我试图从谷歌资源提供mongoDB(版本3.2.4)弧,但它需要太多的时间,即使有一个体面的配置(MBP中2014 ,2.2 GHz Intel Core i7,16GB)。 对于原始文件中890万行中的每一行,我创建了一个doc和bulk.insert(doc);它成无序的批量。 插入500个之后,我做了bulk.execute()并重复这个过程,直到它们全部被添加到DB中,这从来不会发生,因为

    0热度

    1回答

    我有包含很多字段的文档,这些字段是值列表。 我想能够从一个特定的这样的字段每次一个特定的文档在自动完成而没有数据复制(如Completion Suggestors) 例如,我想能够后从3个字符,就能自动文档的category字段中的值为id: '7'。 我试图根据this实现一些东西,但是这似乎不适用于值列表。

    0热度

    1回答

    我是nltk和python的新手。我试图使用评估功能来测试我阅读的文本文档的准确性。这是我迄今为止所拥有的。 from nltk.tag import UnigramTagger from nltk.corpus import treebank from nltk.tokenize import word_tokenize train_sents = treebank

    -1热度

    1回答

    我使用R来读取文本。的通道由100句,然后将其放入一个列表,该列表是这样的: [[1]] [1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 [[2]] [1] "chrisreedfilm: RT @hammertonail: #SX

    0热度

    2回答

    我想实现我的R中的语料库quanteda,但我正在逐渐: Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) 我没有这个很多经验。这是该数据集的下载:https://www.dropbox.com/s/ho5tm8lyv0

    0热度

    1回答

    我在做一个项目,我需要为分析创建'n-gram'。我目前有一种方法可以为int'n'这样做,并将所有术语整理在一起,除了ArrayList中的最后一个单词,它完全忽略了这一点,我不确定为什么?下面是输出... Original: Making pancakes today? Need a recipe? Check https://t.co/lsrRy8CW22 #PancakeDay https

    0热度

    1回答

    我已发现在某些句子双字母组的使用frequecny: import nltk from nltk import ngrams mydata = “xxxxx" mylist = mydata.split() mybigrams =list(ngrams(mylist, 2)) fd = nltk.FreqDist(mybigrams) print(fd.most_common())

    0热度

    1回答

    如何结合PCFG(句子结构)和n-gram模型(词汇共现)的优势?

    0热度

    2回答

    我有一个包含70,429个文件(296.5 mb)的语料库。我试图通过使用整个语料库来找到双格。我写了下面的代码; allFiles = "" for dirName in os.listdir(rootDirectory): for subDir in os.listdir(dirName): for fileN in os.listdir(subDir):