n-gram

1热度

1回答

我需要存储在谷歌NGRAM网站上的图表显示的数据。例如，我想在1800-2008之间存储“它”的出现百分比，如以下链接所示：https://books.google.com/ngrams/graph?content=it%27s&year_start=1800&year_end=2008&corpus=0&smoothing=3&share=&direct_url=t1%3B%2Cit%27s%3

1热度

1回答

为什么我找不到bigrams = number_of_words - 1的数目？

我正在写R脚本来查找bigrams。我有4157个字的字符串。现在，使用stylo，我在我的载体中使用bigrams如下。 library(stylo) allBi <- txt.to.words(myLines) myBigrams <- make.ngrams(allBi, ngram.size = 2) 只返回4120个bigrams。问题是什么？

1热度

3回答

ngrams的顺序不正确

我有兴趣找到字符串x= "A T G C C G C G T"的ngrams。我使用ngramR包得到ngrams。我使用以下几行来完成我的工作。 library(ngram) ng <- ngram(x,n=2) ngrams_out = get.ngrams(ng) ngrams_final <- gsub(" ", "",ngrams_out , fixed = TRUE) # "

1热度

1回答

如何字符串分割成所有可能正克/所有可能的6克

好吧，这里是我的输入产品名称机械机械，大农业机械 Applejuice 个果汁机软件开发业务发展软件授权鸡蛋 ... 产品名称可能是具有不同长度的字符串任何 - 最小（长（））实际上是3，但假设Max（Length（））可以是15到50（？）之间的任何值。我需要的是一）提取每一个可能的6克从源列表上方（保存在某个地方吗？） b）见多久这些6克，可以在信号源列表中找到一） “

1热度

1回答

应用NLP：如何根据多词术语词典对文档进行评分？

这可能是一个相当基本的NLP问题，但我手边有以下任务：我有一组文本文档，需要根据（英文）术语词典进行评分，这些词汇可能是1-，2-，3-等N -word long。 N以一些“合理”数字为界，但词典中n = 1, ..., N不同值的分布可能相当一致。例如，这个词典可以包含某种类型的设备列表，我想查看给定的文档是否可能与这些设备中的任何一个有关。所以如果它有一个或多个词典条目出现，我想要得到高（e

0热度

1回答

ngram在Ruby中的数据库文件

我想ngram我的数据库文件。它工作时，我解析一个字符串，但我不知道如何做我的数据库文件相同。我有下面的代码至今：（希望我在正确的轨道） require 'ngram' require 'sqlite3' ngram = NGram.new({ :size => 2, :word_separator => " ", :padchar => "_" })

0热度

2回答

性能方法，使用R

我使用以下TM + RWeka代码以提取最频繁的n元语法文本中提取最常见的n-gram： library("RWeka") library("tm") text <- c('I am good person','I am bad person','You are great','You are more great','todo learn english','He is ok') Big

1热度

1回答

CFG和google n-gram如何组合生成句子

我有用于生成语法正确短语但没有意义的语法和词汇项的有效列表。我想结合谷歌正则表达式来生成只有有效的句子。这是否可行？有没有关于此的论文。我正在使用NLTK和Stanford核心nlp工具。

1热度

1回答

ValueError：使用GridSearch参数时估计器CountVectorizer的参数模型无效

我有一个使用两种类型的功能进行文本分类的sklearn管道：由CountVectorizer（）和TfidfTransformer（）（TfidfVectorizer（））生成的标准tfidf功能以及一些语言特征。我尝试将不同的ngrams范围传递给CountVectorizer（），然后使用GridSearh找到最好的n。这里是我的代码： text_clf = Pipeline([('unio

0热度

1回答

用于非英语文字的n-gram生成

我正在为捷克语文字执行Bigram生成。我能够使用Python生成Bi-grams。问题出在捷克语的非英文字符。输入： republikánstrategii protiznovuzvoleníObamy。执行两字组，输出是 [[ 'REPUBLIK \ XC3 \ xa1n'， 'strategii']，[ 'strategii'， 'proti']，[ 'proti'，“znovuzvol