corpus

2热度

1回答

我被赋予了处理大量音频文件的任务。每个文件必须在四个步骤进行：从.WAV 皈依成原始的PCM，重采样，量化有三种语音编解码器一个编码。每一步对应于一个程序以一个文件作为输入并返回一个文件作为输出。按文件处理文件似乎需要很长时间。我怎样才能优化程序？例如。平行编程还是什么？我试图利用虚拟硬盘来减少文件读/写所花费的时间，但它没有改善。（为什么？）我在Ubuntu Linux下编写Pyth

0热度

1回答

用于测试文本处理功能的样本数据或语料库？

我想知道是否有可用于测试算法的在线示例文本。例如，我正在掀起一个简单的标记化函数，并希望确保它适用于特殊情况，如中间字标点符号（“不”，“O'Brien”），破折号（对于我的目的而言，“Sacksville -Bagginses“应该是一个单一的标记），国际字符等。同样，它将是很好的时候掀起其他算法手头的文件是理想的测试他们，而不是鞭起或在古腾堡寻找好的示例文本。也有用的是文本，可能被用于测试

1热度

2回答

建议“作者身份验证”的步骤？

我有一个项目，我想识别给定文本的作者，博客如何为特定作者创建培训数据和语料库？请建议一些链接和算法相同。

1热度

3回答

这是一个标签列表还是别的吗？

我是NLP和NLTK的新手，我想找到含糊不清的单词，即至少含有n不同标签的单词。我有这种方法，但输出不是混淆。代码： def MostAmbiguousWords(words, n): # wordsUniqeTags holds a list of uniqe tags that have been observed for a given word wordsUniqeTags = {}

3热度

1回答

在Lucene中使用属性值对应进行搜索

以下是含有模糊词语的文字： “一个人看到了一头大象。” 每个单词都有属性：引理，词类和各种语法属性，具体取决于它的词性。对于 “看到” 它是这样的： {引理：看，POS：动词，时态：过去}，{引理：锯，POS：名词，编号：奇异} 所有这些属性来自第三方工具，Lucene本身并未涉及单词消歧。我想执行一个查询，如“pos = verb & number = singular”，而不是在结果中得到

2热度

2回答

使用python序列化语料库

我有一个庞大的论坛数据库。为了NLP的目的，我需要从数据库中提取语料库。提取步骤具有参数（例如FTS查询），并且我希望将带参数元数据的语料库保存在文件系统上。一些语料库会有几十兆字节大。使用元数据保存文件的最佳方式是什么，这样我就可以读取元数据而无需加载整个文件。我正在使用以下可能相关的技术：PyQt，Postgres，Python，NLTK。一些注意事项：我想语料库从一个重量级的数据库离

3热度

1回答

构建您自己的文本语料库

这听起来很愚蠢，但您知道如何构建文本语料库吗？我到处搜索，现在已经有了语料库，但我想知道他们是如何构建它的？例如，如果我想用正面和负面推文构建语料库，那么我只需要创建两个文件？但那些文件的内部呢？不要把它（（（（ in this example他存储POS和NEG鸣叫在RedisDB。

0热度

1回答

从字典中创建文档 - 术语矩阵

我正在尝试预处理一个文本文件，其中每行都是文档的双字母词，并且在该文档中的频率。这里是每行的一个示例： i_like 1 you_know 2 .... not_good 1 我设法建立从整个语料库中的字典。现在我想逐行阅读语料库并创建词典，创建文档项矩阵，这样矩阵中的每个元素（i，j）就是文档“i”中词项“j”的频率。

2热度

1回答

NLTK CorpusReader在当时标记一个文件

我有几百个文档的语料库，我正在使用NLTK PlaintextCorpusReader来处理这些文件。唯一的问题是我需要在for周期内处理一个文件，所以我可以计算这些文件的相似性。如果我像这样初始化阅读器 corpusReader = PlaintextCorpusReader(root, fileids = ".*")它只是消耗所有文档，我无法找到如何遍历文件而不是令牌的方式。一个解决方案可

0热度

1回答

同义词查找器文本挖掘算法

我想创建一个自动同义词查找算法（主要用于品牌名称）。例如，如果用户输入单词“可口可乐”，我想返回单词“可乐”。这可以很容易地使用dictoniaries来完成;但比我需要一个dictonary文件。我如何自动创建一个？（我有一个有100万条记录的小语料库，同义词将来自这个）。这个问题有没有文本挖掘算法？此外，也有一些这方面的在线代名词服务，但这些不包含品牌名称:-( 感谢， krisy