trigram

-1热度

1回答

我有一个很小的数据集（〜1000行）。每一行都有一个用户名，名字和姓氏。我可以使用pg_trgm对这三个字段进行模糊搜索，并将这三个字段连接在一起，每个字段之间有两个空格？或者，是否有更好的方法来搜索这组用户，使用卦或任何其他方法？

2热度

1回答

我有一个文章标题（测试$标题）和他们的社会总份额（测试$ total_shares）的测试文件。我可以用比如找到最常用的卦： library(tau) trigrams = textcnt(test$title, n = 3, method = "string") trigrams = trigrams[order(trigrams, decreasing = TRUE)] head(tri

0热度

1回答

pg_search卦扩展不工作

Rails5，我把它安装在数据库 pg_trgm | 1.1 | public | text similarity measurement and index searching based on trigrams) ，并在初始化： PgSearch.multisearch_options = { :using => [:tsearch, :trigram], } 我已经

1热度

1回答

pg_search子字符串的电子邮件地址

我正在使用pg_search以全文搜索我的客户名称和电子邮件地址上的d/b。如果我搜索电子邮件地址的域名部分，如何获得匹配？例如hotmail，返回所有客户的hotmail地址。到目前为止，我采取的步骤包括使用trigram搜索和为trigram搜索添加psql扩展。本文中的评论PG full text search on rails using pg_search gem for substr

0热度

1回答

布朗语料库不会产生带有HMM和TnT标签的结果

关于POS标签的最具动态的语料库是树库语料库。然而布朗语料库只是拒绝使用HMM和TnT标记器产生结果。对此有何解释？ size = int(len(brown.tagged_sents())*0.9) train = brown.tagged_sents()[:size] test = brown.tagged_sents()[size:] trainer = hmm.HiddenMarko

1热度

1回答

nltk.KneserNeyProbDist使用<a href="https://github.com/nltk/nltk" rel="nofollow noreferrer">nltk</a>给予0.25的概率分布为大多数我对语言建模工作卦

的我用这essay作为我的语料库mypet.txt文件。对于大多数trigrams，我得到0.25 Kneser Ney概率分布。我不知道为什么。这样对吗？它为什么这样做？这是我的word_ngram.py文件： import io import nltk from nltk.util import ngrams from nltk.tokenize import sent_tokenize

0热度

1回答

如何在postgresql中创建n-gram

我希望在我的应用程序中使用搜索功能。我用trigram实现它，它工作正常。问题是：巽是创建3字符组的字的序列。我想在单个对象中有3个以上的字符。例如： select show_trgm('abcpqrs'); 这将返回：{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "} 我想{" a"," ab","abc","bcp","cpq","p

1热度

2回答

PostgreSQL，trigrams和相似性

只需在我的Mac上测试PostgreSQL 9.6.2并使用Ngrams。假设酒庄领域有GIN三元组指数。的相似性（我知道这是不推荐使用）限制： SELECT set_limit(0.5); 我建设上2,3M行的表一卦搜索。我选择代码： SELECT winery, similarity(winery, 'chateau chevla blanc') AS similarity FRO

0热度

3回答

PostgreSQL全文搜索缩写

我使用'german'创建了Postgresql全文搜索。我怎样才能确定，当我搜索“Bezirk”时，包含“Bez”的行。也是一场比赛？（反之亦然）

0热度

2回答

如何将当前字典嵌入到python中的另一个字典中？

我有一个默认字典，有3层嵌入，稍后将用于三元组。 counts = defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:0))) 然后，我有一个for循环，通过一个文件去，并创建每个字母的计数（和bicounts和tricounts） counts[letter1][letter2][letter3] = counts[letter