nlp

2热度

1回答

在多个出版物中描述这个问题涉及在CNN使用位置矢量的关系分类，如以下通过Zeng等人：http://www.aclweb.org/anthology/C14-1220 我想在张量流中实现这样一个模型。我的问题如下：使用随机初始化向量表示位置信息有什么好处吗？举例来说，为什么不用一个热门的矢量编码来表示位置？不建议将单热矢量与密集的单词矢量结合起来吗？根据单词向量的维度，位置向量应该具有最小维度

4热度

4回答

为什么词嵌入实际上是矢量？

我很抱歉，我的天真，但我不明白为什么字符嵌入是神经网络训练过程（word2vec）的结果实际上是矢量。嵌入是降维的过程，在训练过程中，NN将字的1/0数组减少为更小的数组，该过程没有采用任何适用矢量算术的处理。因此，我们得到的只是数组而不是矢量。为什么我应该将这些数组看作向量？尽管我们得到了矢量，为什么每个人都将它们描述为来自原点（0,0）的矢量？再次，如果我的问题看起来很愚蠢，我很抱歉。

3热度

1回答

如何在R中标记单词时保留非字母数字符号？

我在R中使用tokenizers包来标记文本，但非字母数字符号（如“@”或“&”）已丢失，我需要保留它们。下面是我使用的功能： tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim

0热度

1回答

比较使用NLP

我有2句使用NLP在他们的语法的基础上，比较于语法的基础上两句。我对NLP完全陌生，想知道是否有算法来确定这一点。我知道如何使用单词相似性和情感进行比较。

0热度

1回答

如何访问语料库的元素并在R中写入文件？

我处理在R A vcorpus，看起来像这样：我打电话内容 - >内容，然后将内容 - >荟萃>为每个单独的文档ID。我想只写内容 - >内容和内容 - >元 - > ID来为每个文档稍后分开文本文件。

1热度

1回答

如何清理乌尔都语数据语料库Python没有nltk

我在乌尔都语有一个10000字以上的语料库。现在我想要的是清理我的数据。当我使用正则表达式时，在我的文本中会出现一个特殊的uni编码数据，例如“！？”，它使我错误地发现数据不是编码形式。请提供一些帮助来清理我的数据。谢谢这里是我的样本数据： ظہیر احمد ماہرہ خان کی، تصاویر، نے دائیں اور بائیں والوں کو آسمانوں پر پہنچا

0热度

1回答

计算实体在NLP中的置信度得分命名实体识别

我正在从文档（pdf）中进行命名实体提取。每个PDF包含组实体（近16个不同类型的实体）这里是我的步骤，构建NLP和ML车型： Step 1：分析文档。有近2百万令牌（单词）。用这些词和CBOW方法构建word2vec模型。 Step 2：通过使用word2vec模型，生成向量的单词在douments。 Step 3：根据域，我为培训，验证和测试标记单词（向量）。 Step 4：带标签的数据，训

1热度

1回答

依赖树使用斯坦福分析器从NLTK结果不匹配斯坦福分析器

我想比较从斯坦福分析器从NLTK的结果，但我不知道为什么我得到不同的结果时，我与stanford parser 我已检查相关问题但这对我没有多大帮助。 stan_dep_parser = StanfordDependencyParser() # stanford parser from NLTK dependency_parser =stan_dep_parser.raw_parse("Four

0热度

1回答

删除数据集的第一个观察字符串

我正在导入一堆文件并尝试将所有字符读入一个变量。我需要保留这个命令。我在Stackoverflow上找到了我需要的代码，但它在前面添加了0。所以而不是我的“0” data <- "" 这仍然使我的数据变量在开始时留空白。我无法对它进行子集化并删除所有“空白”，因为我的输入有一些需要保留在那里。我怎样才能删除第一个空白“”或阅读我所有的文件，而不必在那里添加那个空白。 setwd("C:\\Us

0热度

2回答

使用NLP的语法检查

我想检查句子是否具有特定的词性标记结构。我可以使用python自然语言工具包来做到吗？如果是这样，怎么样？