collocation

0热度

2回答

所以我真的很新，在这里点燃apache。我想要做的是加载具有类似属性的数据，而不是将其加载到随机实例中。例如，假设，这种形式的一些数据： ROLL_NO 34569 12349 34439 45329 32359 43549 53259 34229 如u可以看到，上述数据是所有与结束9.说我有两个点燃实例A和B当前正在运行。有没有什么办法可以将这些以9结尾的数据加载到实例A或

0热度

2回答

分割和搭配

我正在寻找我正在实施的两个功能的新想法。 1）文字分割特征：搭配 Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am using

0热度

1回答

从NLTK Collocations中找到Trigrams时获取无法识别的单词

我正在使用NLTK Collocations查找三字母单词，'training_set'是一个包含多行文本的字符串。 finder = TrigramCollocationFinder.from_words(str(training_set)) print finder.nbest(trigram_measures.pmi, 5) 但我得到的输出作为 [('\xe5', '\x8d', '\

0热度

2回答

在python中有很多txt文件的双元克

我有一个包含70,429个文件（296.5 mb）的语料库。我试图通过使用整个语料库来找到双格。我写了下面的代码; allFiles = "" for dirName in os.listdir(rootDirectory): for subDir in os.listdir(dirName): for fileN in os.listdir(subDir):

3热度

2回答

NLTK：查找大小为2k的上下文

我有一个语料库，我有一个词。对于语料库中每个单词的出现，我想得到一个包含前面的k个单词和单词后面的k个单词的列表。我正在做这个算法确定（见下文），但我想知道NLTK是否提供了一些功能来满足我错过的需求？ def sized_context(word_index, window_radius, corpus): """ Returns a list containing the windo

3热度

1回答

nltk quadgram搭配发现者

我看到多个问题和答案，说NLTK搭配不能超越双克和三克。例如，这一个 - How to get n-gram collocations and association in python nltk? 我看到有一个叫 nltk.QuadgramCollocationFinder东西类似 nltk.BigramCollocationFinder和nltk.TrigramCollocationFin

1热度

1回答

如何统计两个词在R中靠近的文档？

我想对两个字符串出现在设定距离内的文档进行计数，在彼此的10个字内。我们说'德国*'和'战争'。我不想统计它们总共出现的次数，但只计算出现集合的文档数量（如果出现一次，则将其计为一次）。我知道如何计算包含单词的文档。但是我不确定是否需要提取10克并查看这两个单词是否出现，然后对每个文档计数，或者是否有更有效的方法。

0热度

1回答

寻找一种寻找不同顺序的两个单词元组列表之间交集的优雅方式

我认为它最好展示我正在尝试做的一个例子。重点是我正在寻找一个优雅的方式这样做。比方说，我有元组的两个列表： x = [('a', 'c', 'e'), ('k', 'n')] y = [('e', 'd', 'w'), ('c', 'a', 'e'), ('n', 'k')] z = set(x).intersection(y) 如果我计算x和y之间的十字路口，我得到一个空集。我的目标

1热度

1回答

CouchDB的：并置的看法和键

在我的沙发上我有这样的文件对： { _id: "DOCID", type: "Task", info: { k1: "v1", k2: "v2" } } { _id: "ANOTHER DOCID", type: "Final", task: "DOCID", author: "Authorname" } 对于一个作家

1热度

1回答

从文本语料库一个给定的单词提取搭配词 - 的Python

我试图找出如何提取特定词的搭配词出来的文字。如：在统计上显着的搭配，例如：整个文本语料库中的“霍比特人”一词？我期待类似于单词列表（搭配）或者可能是元组（我的单词+它的搭配）的结果。我知道如何使双边和使用NLTK卦，以及如何选择只包含我感兴趣字二环或卦。我正在使用下面的代码（改编自this StackOverflow question）。 import nltk from nltk.collo