word-embedding

    5热度

    2回答

    我想了解单词嵌入中“维度”的含义。 当我以NLP任务的矩阵形式嵌入单词时,维度扮演了什么角色?有没有可以帮助我理解这个概念的视觉例子?

    0热度

    1回答

    我想了解更多关于代码函数的信息,我可以通过嵌入向量来实现这个词。我知道,通过余弦相似性,我可以得到最相似的单词。但是我需要再做一个层次的推理,得到如下关系: X1与X2的关系就像X3与X4的关系。 作为例子我可以说公主对王子的关系就像女人对男人。我有X1到X3,我的问题是如何有效地找出X4的可能性。我尝试了余弦矢量的绝对差异,但它不工作。

    0热度

    1回答

    我具有与可变长度的输入工作下列顺序模型: m = Sequential() m.add(Embedding(len(chars), 4, name="embedding")) m.add(Bidirectional(LSTM(16, unit_forget_bias=True, name="lstm"))) m.add(Dense(len(chars),name="dense")) m.a

    0热度

    2回答

    我正在为NLP任务构建TensorFlow模型,并且我正在使用预训练手套300d单词矢量/嵌入数据集。 很明显,某些标记不能被解析为嵌入,因为没有包含在单词向量嵌入模型的训练数据集中,例如,罕见的名字。 我可以用0的向量替换那些标记,但不是将这些信息放在地板上,我更愿意以某种方式对它进行编码,并将其包含到我的训练数据中。假设我有'raijin'这个单词,它不能被解析为嵌入向量,那么与Glove嵌入

    0热度

    1回答

    在Word2Vector中,使用共现和更新向量的维度来学习词嵌入,以使彼此的上下文中出现的词更接近。 我的问题有以下几点: 1)如果你已经有了一个预先训练集的嵌入的,比方说,一个100维空间与40K的话,你能添加额外的10个字到这个嵌入空间不改变现有的词嵌入。所以你只会使用现有的词嵌入来更新新词的维度。我正在考虑有关“单词2矢量”算法的这个问题,但是如果人们对GLoVe嵌入如何在这种情况下工作有所

    2热度

    1回答

    在Word2Vec中,我已经了解到CBOW和Skip-gram都产生一个热门编码值来创建一个向量(cmiiw),我想知道如何计算或表示一个热门编码值为一个实值载体,例如(来源:DistrictDataLab's Blog about Distributed Representations) 从这个: 到: 请大家帮帮忙,我努力在寻找该信息。

    0热度

    1回答

    我已经实施了BBCNews数据集的手套模型以下代码https://github.com/hans/glove.py 我已经形成了单词间单个空格的单个文件的语料库。生成了词汇文件。请向我解释如何阅读?

    1热度

    1回答

    我有两个公开可用的词嵌入,如Glove和Google Word2vec。 但是,在他们的词汇中,拼写错误的词或垃圾词太多(例如,## AA ##,adirty等)。为了避免这个词,我想提取频繁的单词(例如,前50000个单词),因为我认为相对高频率的单词具有正常形式。 所以,我不知道是否有一种方法来找到上述两个预训练词嵌入中的词频。如果没有,我想知道是否有一些技术排除这个词。

    0热度

    1回答

    我有股票价格序列的每个时间步长20名单。这是一个二维数组(total_seq,20)。我可以将它重新整理成(total_seq,20,1)以连接到其他功能。 我也有10个字每个时间步长的新闻标题。所以,我有从Tokenizer.texts_to_sequences()和sequence.pad_sequences()新闻的令牌的形状(total_seq,20,10)的3D阵列。 我想连接的消息嵌入

    0热度

    1回答

    的线性代数结构我一直在使用gensim库python.I Word2Vecmodel建要评估我的字嵌入如下 如果A是关系到B和C是与d ,那么A-C + B应该等于D.例如,“印度” - “卢比”+“日本”的嵌入向量算法应该等于“日元”的嵌入。 我已经使用gensim的构建功能,像predict_output_word,most_similar,但无法获得所需的结果。 new_model.pred