corpus

0热度

1回答

我刚刚熟悉R的tm包。如果文件夹中有单独的.txt文件，我知道如何将这些文件转换为R中的一种语料库文件。但是在我的具体情况中，我在一个文件中包含所有文本数据。该文件中的每个句子代表一个文档，并具有前面的短语ID和句子ID。 .tsv文件如下所示： PhraseId SentenceId 156061 8545间歇性令人愉悦但主要是常规性的努力。 156062 8545间歇性的令人愉悦的，但大多

0热度

1回答

tm_map方法中的错误

我是R以及tm包中的新成员。我的工作是使用决策树来执行文本文档分类。我正在关注某人的project.在第14页有完整的代码。有两种类型的文档，我使用DirSource加载时没有任何问题。我的下一步是将这两个corpuses合并为集合 # Merge corpora into one collection docs <- c(wheat.train , crude.train , wheat.te

2热度

2回答

文本预处理

我有一个文字是这样的：我需要来标记哲文字：每行，并在句一个空行的最后一个字。问题是，有些句子没有“。”最后。所以我需要把“。”如果有nu标点符号则换行。

0热度

1回答

如何把翻译语料分成不同的文件

我要对付一行翻译日本和中国之间 JST_JC_ENVI-ABST-06A0281759-PAR1-SEN1 ||| C高度语料库d管理设施的像＆ |||但C＆d管理设施基础复杂JST_JC_ENVI-ABST-06A0281759-PAR1-SEN2 |||缅因州波特兰拥有滨江回收设施（RRF），垃圾填埋场建设和拆除（C＆d）垃圾它坐落在地面上。 |||缅因状态基础Namitoku兰拥是里弗赛德循

1热度

1回答

Python - NLTK语料库中tagged_sents与tagged_words的区别

nltk tagged_sents与tagged_words有什么区别？他们似乎都是元组列表（单词，标签）。如果你做的类型（），它们都是 nltk.collections.LazySubsequence

0热度

1回答

阅读MSR意译语料库为大熊猫

我从MSR下载MSR复述语料库，并试图把它载入数据帧，但得到了以下错误： import pandas as pd df = pd.read_csv(r'C:\MSRParaphraseCorpus\msr_paraphrase_test.txt', sep = '\t') 错误： CParserError Traceback (most recent call last) <

2热度

1回答

DocumentTermMatrix使用字典时计数错误

实际上，我正在尝试使用朴素贝叶斯算法基于twitter数据进行情感分析。我看看2000年的推文。获取数据为R的工作室后，我分开，预处理日期如下： train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_sub = sample(seq_len(nrow(Tweets_Model_Input)), siz

0热度

1回答

如何将单词转换为句子字符串 - 文本分类

所以我目前正在与布朗语料库合作，而且我遇到了一个小问题。为了应用标记化特征，我首先需要将布朗语料库加入句子。这是我到目前为止有： from nltk.corpus import brown import nltk target_text = [s for s in brown.fileids() if s.startswith('ca01') or s.startswit

2热度

1回答

如何在Django中为Chatterbot指定自定义语料库路径？

似乎可以通过指定位置的路径来使用自定义语料库json文件。但是，我很困惑这是如何完成的。 chatterbot提供的例子不是很清楚。 http://chatterbot.readthedocs.io/en/stable/training.html 他们做的。 "./data/my_corpus/" 是不是./平均值根目录有一个名为data的文件夹里面？如果是这样，根是什么？我的Django应用

0热度

1回答

写语料库和矢量到CSV文件中的R

dat <- read.csv("file.csv",header=F)$V2 doc.corpus <- Corpus(VectorSource(dat)) .... doc.corpus <- tm_map(doc.corpus, stripWhitespace) sent <- "" for(i in 2:length(doc.corpus)){ sent[i] <- g