corpus

    0热度

    1回答

    我刚刚熟悉R的tm包。如果文件夹中有单独的.txt文件,我知道如何将这些文件转换为R中的一种语料库文件 。但是在我的具体情况中,我在一个文件中包含所有文本数据。该文件中的每个句子代表一个文档,并具有前面的 短语ID和句子ID。 .tsv文件如下所示: PhraseId SentenceId 156061 8545间歇性令人愉悦但主要是常规性的努力。 156062 8545间歇性的令人愉悦的,但大多

    0热度

    1回答

    我是R以及tm包中的新成员。我的工作是使用决策树来执行文本文档分类。我正在关注某人的project.在第14页有完整的代码。有两种类型的文档,我使用DirSource加载时没有任何问题。我的下一步是将这两个corpuses合并为集合 # Merge corpora into one collection docs <- c(wheat.train , crude.train , wheat.te

    2热度

    2回答

    我有一个文字是这样的: 我需要来标记哲文字:每行,并在句一个空行的最后一个字。 问题是,有些句子没有“。”最后。所以我需要把“。”如果有nu标点符号则换行。 ​​

    0热度

    1回答

    我要对付一行翻译日本和中国之间 JST_JC_ENVI-ABST-06A0281759-PAR1-SEN1 ||| C高度语料库d管理设施的像& |||但C&d管理设施基础复杂JST_JC_ENVI-ABST-06A0281759-PAR1-SEN2 |||缅因州波特兰拥有滨江回收设施(RRF),垃圾填埋场建设和拆除(C&d)垃圾它坐落在地面上。 |||缅因状态基础Namitoku兰拥是里弗赛德循

    1热度

    1回答

    nltk tagged_sents与tagged_words有什么区别? 他们似乎都是元组列表(单词,标签)。如果你做的类型(),它们都是 nltk.collections.LazySubsequence

    0热度

    1回答

    我从MSR下载MSR复述语料库,并试图把它载入数据帧,但得到了以下错误: import pandas as pd df = pd.read_csv(r'C:\MSRParaphraseCorpus\msr_paraphrase_test.txt', sep = '\t') 错误: CParserError Traceback (most recent call last) <

    2热度

    1回答

    实际上,我正在尝试使用朴素贝叶斯算法基于twitter数据进行情感分析。 我看看2000年的推文。 获取数据为R的工作室后,我分开,预处理日期如下: train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_sub = sample(seq_len(nrow(Tweets_Model_Input)), siz

    0热度

    1回答

    所以我目前正在与布朗语料库合作,而且我遇到了一个小问题。为了应用标记化特征,我首先需要将布朗语料库加入句子。这是我到目前为止有: from nltk.corpus import brown import nltk target_text = [s for s in brown.fileids() if s.startswith('ca01') or s.startswit

    2热度

    1回答

    似乎可以通过指定位置的路径来使用自定义语料库json文件。但是,我很困惑这是如何完成的。 chatterbot提供的例子不是很清楚。 http://chatterbot.readthedocs.io/en/stable/training.html 他们做的。 "./data/my_corpus/" 是不是./平均值根目录有一个名为data的文件夹里面?如果是这样,根是什么?我的Django应用

    0热度

    1回答

    dat <- read.csv("file.csv",header=F)$V2 doc.corpus <- Corpus(VectorSource(dat)) .... doc.corpus <- tm_map(doc.corpus, stripWhitespace) sent <- "" for(i in 2:length(doc.corpus)){ sent[i] <- g