n-gram

8热度

2回答

我是机器学习的新手，所以如果问题不大，请轻松一下。我已经给出了观察字符序列说，ABABBABBB .....（n个字符）。我的目标是通过一些“学习”机制来预测下一个角色。我的约束是，守旧的人物（训练数据？）是不是太多，即我已经说了一个长度为6000的序列，以了解潜在的模式。我对于解决这个问题需要采取什么策略很困惑，我的初始下注： 1）某种ngram模型？ 2）神经网络（LSTM等）？ 3）HMM

9热度

1回答

预测词组而不仅仅是下一个词

对于我们构建的应用程序，我们使用简单的统计模型进行词语预测（如Google Autocomplete）来指导搜索。它使用从相关文本文档的大型文集收集的ngram序列。通过考虑先前的N-1个词，它使用Katz back-off以概率的降序建议5个最可能的“下一个词”。我们希望将此扩展为预测短语（多个单词）而不是单个单词。但是，当我们预测一个短语时，我们不希望显示其前缀。例如，考虑输入the c

1热度

1回答

Hibernate搜索| ngram分析器与minGramSize 1

我的Hibernate Search分析器配置有一些问题。我的一个索引实体（“医院”）有一个字符串字段（“名称”），可能包含长度为1-40的值。我希望能够通过只搜索一个字符来找到一个实体（因为有可能医院有单个字符名称）。 @Indexed(index = "HospitalIndex") @AnalyzerDef(name = "ngram", tokenizer = @Token

1热度

2回答

的n-gram在NLTK

的四克字TEXT的非对称填充是 >>generated_ngrams = ngrams('TEXT', 4, pad_left=True, pad_right=True, left_pad_symbol=' ', right_pad_symbol=' ') >>list(generated_ngrams) [(' ', ' ', ' ', 'T'), (' ', ' ', 'T', 'E')

2热度

2回答

在列表中出现Python计数元组

有没有一种方法可以统计每个元组在这个标记列表中出现的次数？我试过count方法，但它不起作用。这是列表： ['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay'] 这些都是根据名单上的元组： ('hello', 'how') ('how', 'are') ('are','you') ('you', '

4热度

3回答

生成的n-gram与朱莉娅

要产生朱莉娅词二元语法，我可以简单地通过原始列表和下降的第一个元素的列表，如ZIP： julia> s = split("the lazy fox jumps over the brown dog") 8-element Array{SubString{String},1}: "the" "lazy" "fox" "jumps" "over" "the" "brown" "dog

0热度

1回答

有没有更有效的方法来找到最常见的n-gram？

我试图从大语料库中找到k个最常见的n元组。我已经看到很多地方提出了天真的方法 - 简单地扫描整个语料库并保存所有n元数的字典。有一个更好的方法吗？

0热度

1回答

Solr中的正面和背面EdgeNGrams

我想使用EdgeNGramFilterFactory从正面和背面生成Edge NGrams。对于前我使用 <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="4"/> 和背部，我使用 <filter class="solr.ReverseStringFilterFactory"/> <fi

0热度

1回答

如何将函数集成到书“用Python进行网页刮取”中提出的一段代码

我正在阅读“使用Python进行网页刮取”。在第8章中，作者经过n元语法表示下面的代码段的一个例子： from urllib.request import urlopen from bs4 import BeautifulSoup import re import string import operator def cleanInput(input): input = re

1热度

1回答

R-bigram tokenizer中的文档项矩阵不起作用

我正在试图为一个语料库，一个使用unigrams，一个使用bigrams制作两个文档项矩阵。然而，二元矩阵当前与单元矩阵相同，我不知道为什么。从的ngram包作为标记生成器，但是这并不工作 docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramTokenizer <- fu