n-gram

    8热度

    2回答

    我是机器学习的新手,所以如果问题不大,请轻松一下。 我已经给出了观察字符序列说,ABABBABBB .....(n个字符)。我的目标是通过一些“学习”机制来预测下一个角色。我的约束是,守旧的人物(训练数据?)是不是太多,即我已经说了一个长度为6000的序列,以了解潜在的模式。我对于解决这个问题需要采取什么策略很困惑,我的初始下注: 1)某种ngram模型? 2)神经网络(LSTM等)? 3)HMM

    9热度

    1回答

    对于我们构建的应用程序,我们使用简单的统计模型进行词语预测(如Google Autocomplete)来指导搜索。 它使用从相关文本文档的大型文集收集的ngram序列。通过考虑先前的N-1个词,它使用Katz back-off以概率的降序建议5个最可能的“下一个词”。 我们希望将此扩展为预测短语(多个单词)而不是单个单词。但是,当我们预测一个短语时,我们不希望显示其前缀。 例如,考虑输入the c

    1热度

    1回答

    我的Hibernate Search分析器配置有一些问题。 我的一个索引实体(“医院”)有一个字符串字段(“名称”),可能包含长度为1-40的值。我希望能够通过只搜索一个字符来找到一个实体(因为有可能医院有单个字符名称)。 @Indexed(index = "HospitalIndex") @AnalyzerDef(name = "ngram", tokenizer = @Token

    1热度

    2回答

    的四克字TEXT的非对称填充是 >>generated_ngrams = ngrams('TEXT', 4, pad_left=True, pad_right=True, left_pad_symbol=' ', right_pad_symbol=' ') >>list(generated_ngrams) [(' ', ' ', ' ', 'T'), (' ', ' ', 'T', 'E')

    2热度

    2回答

    有没有一种方法可以统计每个元组在这个标记列表中出现的次数? 我试过count方法,但它不起作用。 这是列表: ['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay'] 这些都是根据名单上的元组: ('hello', 'how') ('how', 'are') ('are','you') ('you', '

    4热度

    3回答

    要产生朱莉娅词二元语法,我可以简单地通过原始列表和下降的第一个元素的列表,如ZIP: julia> s = split("the lazy fox jumps over the brown dog") 8-element Array{SubString{String},1}: "the" "lazy" "fox" "jumps" "over" "the" "brown" "dog

    0热度

    1回答

    我试图从大语料库中找到k个最常见的n元组。我已经看到很多地方提出了天真的方法 - 简单地扫描整个语料库并保存所有n元数的字典。有一个更好的方法吗?

    0热度

    1回答

    我想使用EdgeNGramFilterFactory从正面和背面生成Edge NGrams。对于前我使用 <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="4"/> 和背部,我使用 <filter class="solr.ReverseStringFilterFactory"/> <fi

    0热度

    1回答

    我正在阅读“使用Python进行网页刮取”。在第8章中,作者经过n元语法表示下面的代码段的一个例子: from urllib.request import urlopen from bs4 import BeautifulSoup import re import string import operator def cleanInput(input): input = re

    1热度

    1回答

    我正在试图为一个语料库,一个使用unigrams,一个使用bigrams制作两个文档项矩阵。然而,二元矩阵当前与单元矩阵相同,我不知道为什么。从的ngram包作为标记生成器,但是这并不工作 docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramTokenizer <- fu