collocation

    0热度

    2回答

    所以我真的很新,在这里点燃apache。我想要做的是加载具有类似属性的数据,而不是将其加载到随机实例中。例如,假设,这种形式的一些数据: ROLL_NO 34569 12349 34439 45329 32359 43549 53259 34229 如u可以看到,上述数据是所有与结束9.说我有两个点燃实例A和B当前正在运行。 有没有什么办法可以将这些以9结尾的数据加载到实例A或

    0热度

    2回答

    我正在寻找我正在实施的两个功能的新想法。 1)文字分割特征:搭配 Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am using

    0热度

    1回答

    我正在使用NLTK Collocations查找三字母单词,'training_set'是一个包含多行文本的字符串。 finder = TrigramCollocationFinder.from_words(str(training_set)) print finder.nbest(trigram_measures.pmi, 5) 但我得到的输出作为 [('\xe5', '\x8d', '\

    0热度

    2回答

    我有一个包含70,429个文件(296.5 mb)的语料库。我试图通过使用整个语料库来找到双格。我写了下面的代码; allFiles = "" for dirName in os.listdir(rootDirectory): for subDir in os.listdir(dirName): for fileN in os.listdir(subDir):

    3热度

    2回答

    我有一个语料库,我有一个词。对于语料库中每个单词的出现,我想得到一个包含前面的k个单词和单词后面的k个单词的列表。我正在做这个算法确定(见下文),但我想知道NLTK是否提供了一些功能来满足我错过的需求? def sized_context(word_index, window_radius, corpus): """ Returns a list containing the windo

    3热度

    1回答

    我看到多个问题和答案,说NLTK搭配不能超越双克和三克。 例如,这一个 - How to get n-gram collocations and association in python nltk? 我看到有一个叫 nltk.QuadgramCollocationFinder东西 类似 nltk.BigramCollocationFinder和nltk.TrigramCollocationFin

    1热度

    1回答

    我想对两个字符串出现在设定距离内的文档进行计数,在彼此的10个字内。我们说'德国*'和'战争'。 我不想统计它们总共出现的次数,但只计算出现集合的文档数量(如果出现一次,则将其计为一次)。 我知道如何计算包含单词的文档。但是我不确定是否需要提取10克并查看这两个单词是否出现,然后对每个文档计数,或者是否有更有效的方法。

    0热度

    1回答

    我认为它最好展示我正在尝试做的一个例子。重点是我正在寻找一个优雅的方式这样做。 比方说,我有元组的两个列表: x = [('a', 'c', 'e'), ('k', 'n')] y = [('e', 'd', 'w'), ('c', 'a', 'e'), ('n', 'k')] z = set(x).intersection(y) 如果我计算x和y之间的十字路口,我得到一个空集。 我的目标

    1热度

    1回答

    在我的沙发上我有这样的文件对: { _id: "DOCID", type: "Task", info: { k1: "v1", k2: "v2" } } { _id: "ANOTHER DOCID", type: "Final", task: "DOCID", author: "Authorname" } 对于一个作家

    1热度

    1回答

    我试图找出如何提取特定词的搭配词出来的文字。如:在统计上显着的搭配,例如:整个文本语料库中的“霍比特人”一词?我期待类似于单词列表(搭配)或者可能是元组(我的单词+它的搭配)的结果。 我知道如何使双边和使用NLTK卦,以及如何选择只包含我感兴趣字二环或卦。我正在使用下面的代码(改编自this StackOverflow question)。 import nltk from nltk.collo