n-gram

0热度

2回答

我申请的NGRAM过滤器，以我的串场： "custom_ngram": { "type": "ngram", "min_gram": 3, "max_gram": 10 } 但作为一个结果，我失去令牌比NGRAM范围更短或更长。例如找不到“iq”或“a4”等原始令牌。我已经在ngram之前应用了一些特定于语言的分析，所以我想避免复制整个字段。我正在寻找用ng

3热度

1回答

Solr瓦在调试查询中不可见

我想使用Solr在用户搜索(e.g. "skinny jeans" in "blue skinny jeans")的类别中查找精确匹配。我正在使用以下类型定义： <fieldType name="subphrase" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"> <a

1热度

1回答

MLE如何用于训练n-gram模型？

我学习了很多关于使用MLE训练n-gram模型的文档，但是我注意到所有的实现都是通过计算n-grams来计算条件概率，我的问题是与MLE的关系是什么？

1热度

1回答

如何保持unigrams中的单词间句点？ R quanteda

我想在我的单字节频率表中保留两个字母缩写词，它们之间用句点分隔，例如“t.v.”和“美国”。当我用quanteda构建我的单字节频率表时，终止时期正在被截断。这里是一个小的测试语料库来说明。我已删除了句号，句分隔符： SOS This is the u.s. where our politics is crazy EOS SOS In the US we watch a lot of t.v. a

0热度

1回答

如何在postgresql中创建n-gram

我希望在我的应用程序中使用搜索功能。我用trigram实现它，它工作正常。问题是：巽是创建3字符组的字的序列。我想在单个对象中有3个以上的字符。例如： select show_trgm('abcpqrs'); 这将返回：{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "} 我想{" a"," ab","abc","bcp","cpq","p

1热度

2回答

无法使用xpath获取脚本标记的内容，使用xpath，lxml

我正在编写一个python程序，并且作为它的一部分，我需要从Google ngram viewer中提取数据。例如，对于搜索： https://books.google.com/ngrams/graph?content=The+Godfather&year_start=1972-&year_end=2008&corpus=15&smoothing=3 我所需要的图形值从这个标签： var data

3热度

3回答

用R中的text2vec来预测下一个单词

我在R中建立一个语言模型，根据前面的单词预测句子中的下一个单词。目前我的模型是Kneser-Ney平滑的简单ngram模型。它通过在训练集中找到具有最大概率（频率）的ngram来预测下一个单词，其中平滑提供了插值低阶ngram的方式，这在高阶ngram具有低频并且可能不提供可靠预测的情况下是有利的。虽然这种方法工作得相当好，但它在n-gram无法捕获上下文的情况下失败。例如，“外面温暖阳光充足，让

-1热度

1回答

python中两个文档的比较

给出两个文档，我想计算它们之间的相似度。我有措施找出余弦距离，N-gram和tf-idf使用这个： This is a previously asked question 我想知道，还有什么需要使用这些函数来完成。而且，我已经尝试推行Word2Vec，下面我试图找到相似之处使用下面的代码： for i in range(len(Words)): print i for k i

0热度

1回答

特征工程的Ngram顺序选择

我正在研究文本分类的特征工程。我被困在选择功能的一点上。大多数文献表示将文本标记为文本并将它们用作特征（删除停用词，标点符号），但是却错过了像（肺癌）或短语这样的多词词。所以问题是如何决定ngram顺序并把它们当作特征？

3热度

2回答

在python中查找trigram的条件概率nltk

我已经开始学习NLTK，我正在按照here的教程进行学习，他们在这里使用这样的bigrams找到条件概率。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) 但是我想用卦找到条件概率。当我尝试将nltk.big