nlp

    2热度

    1回答

    在多个出版物中描述这个问题涉及在CNN使用位置矢量的关系分类,如以下通过Zeng等人:http://www.aclweb.org/anthology/C14-1220 我想在张量流中实现这样一个模型。我的问题如下: 使用随机初始化向量表示位置信息有什么好处吗?举例来说,为什么不用一个热门的矢量编码来表示位置?不建议将单热矢量与密集的单词矢量结合起来吗? 根据单词向量的维度,位置向量应该具有最小维度

    4热度

    4回答

    我很抱歉,我的天真,但我不明白为什么字符嵌入是神经网络训练过程(word2vec)的结果实际上是矢量。 嵌入是降维的过程,在训练过程中,NN将字的1/0数组减少为更小的数组,该过程没有采用任何适用矢量算术的处理。 因此,我们得到的只是数组而不是矢量。为什么我应该将这些数组看作向量?尽管我们得到了矢量,为什么每个人都将它们描述为来自原点(0,0)的矢量? 再次,如果我的问题看起来很愚蠢,我很抱歉。

    3热度

    1回答

    我在R中使用tokenizers包来标记文本,但非字母数字符号(如“@”或“&”)已丢失,我需要保留它们。下面是我使用的功能: tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim

    0热度

    1回答

    我有2句使用NLP在他们的语法的基础上,比较于语法的基础上两句。我对NLP完全陌生,想知道是否有算法来确定这一点。我知道如何使用单词相似性和情感进行比较。

    0热度

    1回答

    我处理在R A vcorpus,看起来像这样: 我打电话内容 - >内容,然后将内容 - >荟萃>为每个单独的文档ID。我想只写内容 - >内容和内容 - >元 - > ID来为每个文档稍后分开文本文件。

    1热度

    1回答

    我在乌尔都语有一个10000字以上的语料库。现在我想要的是清理我的数据。当我使用正则表达式时,在我的文本中会出现一个特殊的uni编码数据,例如“!?”,它使我错误地发现数据不是编码形式。 请提供一些帮助来清理我的数据。 谢谢 这里是我的样本数据: ظہیر احمد ماہرہ خان کی، تصاویر، نے دائیں اور بائیں والوں کو آسمانوں پر پہنچا

    0热度

    1回答

    我正在从文档(pdf)中进行命名实体提取。每个PDF包含组实体(近16个不同类型的实体) 这里是我的步骤,构建NLP和ML车型: Step 1:分析文档。有近2百万令牌(单词)。用这些词和CBOW方法构建word2vec模型。 Step 2:通过使用word2vec模型,生成向量的单词在douments。 Step 3:根据域,我为培训,验证和测试标记单词(向量)。 Step 4:带标签的数据,训

    1热度

    1回答

    我想比较从斯坦福分析器从NLTK的结果,但我不知道为什么我得到不同的结果时,我与stanford parser 我已检查相关问题但这对我没有多大帮助。 stan_dep_parser = StanfordDependencyParser() # stanford parser from NLTK dependency_parser =stan_dep_parser.raw_parse("Four

    0热度

    1回答

    我正在导入一堆文件并尝试将所有字符读入一个变量。我需要保留这个命令。我在Stackoverflow上找到了我需要的代码,但它在前面添加了0。所以而不是我的“0” data <- "" 这仍然使我的数据变量在开始时留空白。我无法对它进行子集化并删除所有“空白”,因为我的输入有一些需要保留在那里。我怎样才能删除第一个空白“”或阅读我所有的文件,而不必在那里添加那个空白。 setwd("C:\\Us

    0热度

    2回答

    我想检查句子是否具有特定的词性标记结构。我可以使用python自然语言工具包来做到吗?如果是这样,怎么样?