n-gram

    0热度

    2回答

    我申请的NGRAM过滤器,以我的串场: "custom_ngram": { "type": "ngram", "min_gram": 3, "max_gram": 10 } 但作为一个结果,我失去令牌比NGRAM范围更短或更长。 例如找不到“iq”或“a4”等原始令牌。 我已经在ngram之前应用了一些特定于语言的分析,所以我想避免复制整个字段。我正在寻找用ng

    3热度

    1回答

    我想使用Solr在用户搜索(e.g. "skinny jeans" in "blue skinny jeans")的类别中查找精确匹配。我正在使用以下类型定义: <fieldType name="subphrase" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"> <a

    1热度

    1回答

    我学习了很多关于使用MLE训练n-gram模型的文档,但是我注意到所有的实现都是通过计算n-grams来计算条件概率,我的问题是与MLE的关系是什么?

    1热度

    1回答

    我想在我的单字节频率表中保留两个字母缩写词,它们之间用句点分隔,例如“t.v.”和“美国”。当我用quanteda构建我的单字节频率表时,终止时期正在被截断。这里是一个小的测试语料库来说明。我已删除了句号,句分隔符: SOS This is the u.s. where our politics is crazy EOS SOS In the US we watch a lot of t.v. a

    0热度

    1回答

    我希望在我的应用程序中使用搜索功能。 我用trigram实现它,它工作正常。 问题是: 巽是创建3字符组的字的序列。 我想在单个对象中有3个以上的字符。 例如: select show_trgm('abcpqrs'); 这将返回:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "} 我想{" a"," ab","abc","bcp","cpq","p

    1热度

    2回答

    我正在编写一个python程序,并且作为它的一部分,我需要从Google ngram viewer中提取数据。例如,对于搜索: https://books.google.com/ngrams/graph?content=The+Godfather&year_start=1972-&year_end=2008&corpus=15&smoothing=3 我所需要的图形值从这个标签: var data

    3热度

    3回答

    我在R中建立一个语言模型,根据前面的单词预测句子中的下一个单词。目前我的模型是Kneser-Ney平滑的简单ngram模型。它通过在训练集中找到具有最大概率(频率)的ngram来预测下一个单词,其中平滑提供了插值低阶ngram的方式,这在高阶ngram具有低频并且可能不提供可靠预测的情况下是有利的。虽然这种方法工作得相当好,但它在n-gram无法捕获上下文的情况下失败。例如,“外面温暖阳光充足,让

    -1热度

    1回答

    给出两个文档,我想计算它们之间的相似度。我有措施找出余弦距离,N-gram和tf-idf使用这个: This is a previously asked question 我想知道,还有什么需要使用这些函数来完成。 而且,我已经尝试推行Word2Vec,下面我试图找到相似之处使用下面的代码: for i in range(len(Words)): print i for k i

    0热度

    1回答

    我正在研究文本分类的特征工程。我被困在选择功能的一点上。大多数文献表示将文本标记为文本并将它们用作特征(删除停用词,标点符号),但是却错过了像(肺癌)或短语这样的多词词。所以问题是如何决定ngram顺序并把它们当作特征?

    3热度

    2回答

    我已经开始学习NLTK,我正在按照here的教程进行学习,他们在这里使用这样的bigrams找到条件概率。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) 但是我想用卦找到条件概率。当我尝试将nltk.big