corpus

2热度

2回答

我有大量的文章集合，80.000，我想提取那些关于一个主题的文章。有没有一个python库或脚本，我可以在其中输入手动选择的关于说主题A的文章样本，然后通过比较所使用的词语和它们的频率从文档中提取关于主题A的文章。我已阅读关于催款方法，但有没有一个现成的脚本，我可以使用最好是Python。感谢

1热度

1回答

使用Wordnet API与python 2.7.3时出现属性错误

我在python 2.7.3上使用pip install安装了nltk。当我运行这些命令 import nltk from nltk.corpus import wordnet as wn dog = wn.sysnet('dog.n.01') 我碰到下面的错误.. Traceback (most recent call last): File "<stdin>", line 1, in

1热度

1回答

R tm包DataframeSource import

将CSV读入R，并想用tm包制作一个语料库，但没有得到想要的结果。目前，当我读取文本的CSV，然后检查语料库时，数据全部是数字。（我只包含的data前三列，以保护隐私;如图所示的检查结果有九。） library(tm) data <- read.csv("filename.csv") head(data) Directory.Code First.Name Last.Name

22热度

4回答

如何从Python中的语料库创建词云？

从Creating a subset of words from a corpus in R，回答者可以很容易地将一个term-document matrix转换成一个文字云很容易。是否有类似于python库的函数，它可以将原始文本文件或NLTK语料库或Mmcorpus转换为词云？结果看起来有点像这样：

2热度

1回答

给出几十个单词的列表，我如何从数百个文本的语料库中找到最佳匹配部分？

比方说，我有250个字，它可以在整个由独特的条目列表，或在其所有的语法形式一堆话，或者在一个特定的语法形式各种各样的话（例如，全用过去时态）。我还有一个文本语料库，可以方便地将它们分成多个部分的数据库，每个部分大概有150个字（也许我想在将来动态地确定这些部分，但我现在就要离开了）。我的问题是这样的：是什么让那些款款走出包含了我大部分250个字语料的有效途径？我已经看过像Lucene的几个全文

4热度

1回答

R tm：重新加载'PCorpus'后端filehash数据库作为语料库（例如，在重新启动的会话/脚本中）

从本网站的答案中学习了加载（谢谢！），终于有时间来问我自己的问题了。我正在使用R（tm和lsa包）创建，清理和简化，然后对大约15,000个文本文档的语料库运行LSA（潜在语义分析）。我在Mac OS X 10.6的R 3.0.0中做了这个。我一直试图在tm中使用'PCorpus'（'filehash'软件包支持的后端数据库支持）选项，或者更新的'tm用于所谓的“分布式”语料库处理的“.plug

0热度

2回答

R：如何将会话Questn应答模式转换为数据帧？

我已阅读下列文本文件，并有以下问题，请文件名：QnA.txt 问：你叫什么名字？回答：XXXX 问：请告诉我您的地址？答：XXX，XXXX-SSSS，00000 问：告诉我其他细节答：肯定的是，................ txt <- "directory path" QuesAnsFiles <- Corpus(DirSource(txt, encoding = "UTF-8")

-1热度

1回答

教学好坏写法（Python）的算法

我的一个网络应用程序收到大量的文章提交，其中一些写得不是很好。如果仅仅通过提供好的和坏的文章的语料库来创建一个识别“好”与“坏”写作的工具，它有多大可能？请注意，这些文章（至少已经处理过的文章）已经过审查和分级，所以理论上我可以使用这些数字来确认输出。我没有创建“学习”算法的背景，因此即使只是一个关于该主题的基础书籍的指针也会有所帮助，特别是为Python语言编写的指针。

1热度

1回答

为短信文本标准化注释语料库

我想使用监督学习技术构建短信文本标准化程序。短信文本标准化是将短信术语转换为正确英文的任务。 eg）'wts up？你好吗？“会变成'怎么了？你在家吗？'。理想情况下，我想要一个随时可用的带短信文本的语料库和随后的英文文本作为培训数据。但是，我无法在网上找到任何此类公开可用的数据集。（SMS文本语料库可用，但语法正确的英语中不包含相应的文本）之前曾从事过类似问题的人似乎已手动注释了文本。这将

3热度

3回答

如何在整个Penn Treebank语料库上培训NLTK？

我最初使用下面的宾州树库恶搞从NLTK： POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN')) 然而，这达不到上发言的文字。例如，“hello”在它应该是时不被认为是一个感叹词。我从这里（In NLTK pos_tag, why “hello” is classified as Noun