n-gram

    1热度

    1回答

    我需要存储在谷歌NGRAM网站上的图表显示的数据。例如,我想在1800-2008之间存储“它”的出现百分比,如以下链接所示:https://books.google.com/ngrams/graph?content=it%27s&year_start=1800&year_end=2008&corpus=0&smoothing=3&share=&direct_url=t1%3B%2Cit%27s%3

    1热度

    1回答

    我正在写R脚本来查找bigrams。 我有4157个字的字符串。 现在,使用stylo,我在我的载体中使用bigrams如下。 library(stylo) allBi <- txt.to.words(myLines) myBigrams <- make.ngrams(allBi, ngram.size = 2) 只返回4120个bigrams。问题是什么?

    1热度

    3回答

    我有兴趣找到字符串x= "A T G C C G C G T"的ngrams。我使用ngramR包得到ngrams。我使用以下几行来完成我的工作。 library(ngram) ng <- ngram(x,n=2) ngrams_out = get.ngrams(ng) ngrams_final <- gsub(" ", "",ngrams_out , fixed = TRUE) # "

    1热度

    1回答

    好吧,这里是我的输入 产品名称 机械 机械,大 农业机械 Applejuice 个 果汁机 软件开发 业务发展 软件授权 鸡蛋 ... 产品名称可能是具有不同长度的字符串任何 - 最小(长())实际上是3,但假设Max(Length())可以是15到50(?)之间的任何值。 我需要的是 一)提取每一个可能的6克从源列表上方(保存在某个地方吗?) b)见多久这些6克,可以在信号源列表中找到 一) “

    1热度

    1回答

    这可能是一个相当基本的NLP问题,但我手边有以下任务:我有一组文本文档,需要根据(英文)术语词典进行评分,这些词汇可能是1-,2-,3-等N -word long。 N以一些“合理”数字为界,但词典中n = 1, ..., N不同值的分布可能相当一致。例如,这个词典可以包含某种类型的设备列表,我想查看给定的文档是否可能与这些设备中的任何一个有关。所以如果它有一个或多个词典条目出现,我想要得到高(e

    0热度

    1回答

    我想ngram我的数据库文件。它工作时,我解析一个字符串,但我不知道如何做我的数据库文件相同。 我有下面的代码至今: (希望我在正确的轨道) require 'ngram' require 'sqlite3' ngram = NGram.new({ :size => 2, :word_separator => " ", :padchar => "_" })

    0热度

    2回答

    我使用以下TM + RWeka代码以提取最频繁的n元语法文本中提取最常见的n-gram: library("RWeka") library("tm") text <- c('I am good person','I am bad person','You are great','You are more great','todo learn english','He is ok') Big

    1热度

    1回答

    我有用于生成语法正确短语但没有意义的语法和词汇项的有效列表。我想结合谷歌正则表达式来生成只有有效的句子。这是否可行?有没有关于此的论文。我正在使用NLTK和Stanford核心nlp工具。

    1热度

    1回答

    我有一个使用两种类型的功能进行文本分类的sklearn管道:由CountVectorizer()和TfidfTransformer()(TfidfVectorizer())生成的标准tfidf功能以及一些语言特征。我尝试将不同的ngrams范围传递给CountVectorizer(),然后使用GridSearh找到最好的n。 这里是我的代码: text_clf = Pipeline([('unio

    0热度

    1回答

    我正在为捷克语文字执行Bigram生成。我能够使用Python生成Bi-grams。问题出在捷克语的非英文字符。 输入: republikánstrategii protiznovuzvoleníObamy。 执行两字组,输出是 [[ 'REPUBLIK \ XC3 \ xa1n', 'strategii'],[ 'strategii', 'proti'],[ 'proti',“znovuzvol