trigram

    -1热度

    1回答

    我有一个很小的数据集(〜1000行)。每一行都有一个用户名,名字和姓氏。我可以使用pg_trgm对这三个字段进行模糊搜索,并将这三个字段连接在一起,每个字段之间有两个空格?或者,是否有更好的方法来搜索这组用户,使用卦或任何其他方法?

    2热度

    1回答

    我有一个文章标题(测试$标题)和他们的社会总份额(测试$ total_shares)的测试文件。我可以用比如找到最常用的卦: library(tau) trigrams = textcnt(test$title, n = 3, method = "string") trigrams = trigrams[order(trigrams, decreasing = TRUE)] head(tri

    0热度

    1回答

    Rails5,我把它安装在数据库 pg_trgm | 1.1 | public | text similarity measurement and index searching based on trigrams) ,并在初始化: PgSearch.multisearch_options = { :using => [:tsearch, :trigram], } 我已经

    1热度

    1回答

    我正在使用pg_search以全文搜索我的客户名称和电子邮件地址上的d/b。如果我搜索电子邮件地址的域名部分,如何获得匹配?例如hotmail,返回所有客户的hotmail地址。 到目前为止,我采取的步骤包括使用trigram搜索和为trigram搜索添加psql扩展。本文中的评论PG full text search on rails using pg_search gem for substr

    0热度

    1回答

    关于POS标签的最具动态的语料库是树库语料库。然而布朗语料库只是拒绝使用HMM和TnT标记器产生结果。对此有何解释? size = int(len(brown.tagged_sents())*0.9) train = brown.tagged_sents()[:size] test = brown.tagged_sents()[size:] trainer = hmm.HiddenMarko

    1热度

    1回答

    的我用这essay作为我的语料库mypet.txt文件。对于大多数trigrams,我得到0.25 Kneser Ney概率分布。我不知道为什么。这样对吗?它为什么这样做?这是我的word_ngram.py文件: import io import nltk from nltk.util import ngrams from nltk.tokenize import sent_tokenize

    0热度

    1回答

    我希望在我的应用程序中使用搜索功能。 我用trigram实现它,它工作正常。 问题是: 巽是创建3字符组的字的序列。 我想在单个对象中有3个以上的字符。 例如: select show_trgm('abcpqrs'); 这将返回:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "} 我想{" a"," ab","abc","bcp","cpq","p

    1热度

    2回答

    只需在我的Mac上测试PostgreSQL 9.6.2并使用Ngrams。 假设酒庄领域有GIN三元组指数。 的相似性(我知道这是不推荐使用)限制: SELECT set_limit(0.5); 我建设上2,3M行的表一卦搜索。 我选择代码: SELECT winery, similarity(winery, 'chateau chevla blanc') AS similarity FRO

    0热度

    3回答

    我使用'german'创建了Postgresql全文搜索。我怎样才能确定,当我搜索“Bezirk”时,包含“Bez”的行。也是一场比赛? (反之亦然)

    0热度

    2回答

    我有一个默认字典,有3层嵌入,稍后将用于三元组。 counts = defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:0))) 然后,我有一个for循环,通过一个文件去,并创建每个字母的计数(和bicounts和tricounts) counts[letter1][letter2][letter3] = counts[letter