corpus

3热度

3回答

我正在尝试编写一个使用Java中的自然语言词类的程序。我一直在谷歌上搜索，并没有发现整个布朗语料库（或另一个标记词的语料库）。我一直在寻找NLTK信息，这些信息我不感兴趣，我希望能够将数据加载到Java程序中，并总结出单词的出现（以及它们成为什么词性的可能性）。我不要想要使用像斯坦福一样的Java库，我想自己玩我的语料库数据。

1热度

1回答

Python NLTK - 从语料库中创建'词典'并保存数字标签

我对Python没有超级经验，但我想用语料库做一些数据分析，所以我在NLTK Python中做这部分。我想要浏览整个语料库并制作包含出现在语料库数据集中的每个词的词典。我希望能够在这本词典中搜索一个单词，并找出这个单词出现的次数作为什么词性（标签）。因此，例如，如果我要搜索'狗'，我可能会找到100个名词标记和5个动词标记等。最终目标是将该文件以.txt或其他方式从外部保存并加载到另一个文件程

0热度

1回答

将简化语料库打印到Json文件

我正在尝试将简化语句集的布朗语料库打印到文件中。这是我正在使用的代码，它刚刚结束了一个空白文件。 import json import nltk from nltk.corpus import brown brown_sents = nltk.corpus.brown.tagged_sents(tagset="universal") for sent in brown_sents:

-2热度

2回答

如何将列表格式更改为文本文件并将其作为参数传递给在python中定义的函数？

如何将两个文本文件作为参数传递给定义的函数而不是列表作为参数传递？我的代码包含三对定义在列表中的句子。它作为参数传递给函数em_run。现在我需要阅读两个语料库，即两个单独的文本文件被读入功能，而不是这三对句子。这里是我的代码： #!/usr/bin/env python """An implementation of the IBM Model 1 expectation-maximiz

8热度

2回答

R tm removeWords函数不删除单词

我想从我建立的语料库中删除一些单词，但它似乎没有工作。我首先浏览所有内容并创建一个数据框，按照其频率顺序列出我的单词。我使用这个列表来识别我不感兴趣的单词，然后尝试用删除的单词创建一个新列表。但是，这些词仍保留在我的数据集中。我想知道我做错了什么，以及为什么这些词没有被删除？我已经包含下面的完整代码： install.packages("rvest") install.packages("tm"

1热度

2回答

大分类文档语料库

任何人都可以指向我用于分类的一些大型语料库吗？但是，我不是指路透社或20个新闻组，我说的是GB大小的语料库，而不是20MB或类似的东西。我只能找到这个路透社和20个新闻组，这对我所需要的东西来说非常小。

2热度

1回答

通过自定义转储创建要由webnet使用的信息内容语料库

我使用Brown语料库ic-brown.dat来计算使用wordnet nltk库的单词的信息内容。但结果不好看。我想知道如何建立自己的custome.dat（信息内容文件）。 custom_ic = wordnet_ic.ic('custom.dat')

0热度

1回答

在R中搜索单词时使用R

我试图用R搜索一个语料库中的单词串。grep中允许使用分离语句，例如grep（“a”或“b”或“c”.. 。）？如果是这样，一旦我有了这个子类，我怎样才能进一步细化它，只包含那些至少有两个原始条件的例子呢？

2热度

1回答

是什么NLTK（蟒蛇）

谁能告诉我一个语料库，语料库和词汇在NLTK的区别语料库和词库之间的区别？什么是电影数据集？什么是Wordnet？

0热度

2回答

无法使用R中的Inspect函数查看文本

我试图使用Inspect查看语料库中的文本数据。我得到输出一些数字，如： [[19139]] <<PlainTextDocument>> Metadata: 7 Content: chars: 100 但是，当我搜索的网络检查命令，大多数快照都显示文本输出。问：在R，试图使用检查功能，查看语料库的数据，为什么我不能在这上面查看文本？