word-embedding

5热度

2回答

我想了解单词嵌入中“维度”的含义。当我以NLP任务的矩阵形式嵌入单词时，维度扮演了什么角色？有没有可以帮助我理解这个概念的视觉例子？

0热度

1回答

我想了解更多关于代码函数的信息，我可以通过嵌入向量来实现这个词。我知道，通过余弦相似性，我可以得到最相似的单词。但是我需要再做一个层次的推理，得到如下关系： X1与X2的关系就像X3与X4的关系。作为例子我可以说公主对王子的关系就像女人对男人。我有X1到X3，我的问题是如何有效地找出X4的可能性。我尝试了余弦矢量的绝对差异，但它不工作。

0热度

1回答

与功能API可变长度Keras埋入层

我具有与可变长度的输入工作下列顺序模型： m = Sequential() m.add(Embedding(len(chars), 4, name="embedding")) m.add(Bidirectional(LSTM(16, unit_forget_bias=True, name="lstm"))) m.add(Dense(len(chars),name="dense")) m.a

0热度

2回答

初始化词汇表（OOV）令牌

我正在为NLP任务构建TensorFlow模型，并且我正在使用预训练手套300d单词矢量/嵌入数据集。很明显，某些标记不能被解析为嵌入，因为没有包含在单词向量嵌入模型的训练数据集中，例如，罕见的名字。我可以用0的向量替换那些标记，但不是将这些信息放在地板上，我更愿意以某种方式对它进行编码，并将其包含到我的训练数据中。假设我有'raijin'这个单词，它不能被解析为嵌入向量，那么与Glove嵌入

0热度

1回答

在神经网络的现有嵌入空间中添加新词向量嵌入的效果

在Word2Vector中，使用共现和更新向量的维度来学习词嵌入，以使彼此的上下文中出现的词更接近。我的问题有以下几点： 1）如果你已经有了一个预先训练集的嵌入的，比方说，一个100维空间与40K的话，你能添加额外的10个字到这个嵌入空间不改变现有的词嵌入。所以你只会使用现有的词嵌入来更新新词的维度。我正在考虑有关“单词2矢量”算法的这个问题，但是如果人们对GLoVe嵌入如何在这种情况下工作有所

2热度

1回答

如何计算单热编码值为实值向量？

在Word2Vec中，我已经了解到CBOW和Skip-gram都产生一个热门编码值来创建一个向量（cmiiw），我想知道如何计算或表示一个热门编码值为一个实值载体，例如（来源：DistrictDataLab's Blog about Distributed Representations）从这个：到：请大家帮帮忙，我努力在寻找该信息。

0热度

1回答

阅读手套实施中的词汇档案

我已经实施了BBCNews数据集的手套模型以下代码https://github.com/hans/glove.py 我已经形成了单词间单个空格的单个文件的语料库。生成了词汇文件。请向我解释如何阅读？

1热度

1回答

从公开可用的词嵌入中提取更有意义的词

我有两个公开可用的词嵌入，如Glove和Google Word2vec。但是，在他们的词汇中，拼写错误的词或垃圾词太多（例如，## AA ##，adirty等）。为了避免这个词，我想提取频繁的单词（例如，前50000个单词），因为我认为相对高频率的单词具有正常形式。所以，我不知道是否有一种方法来找到上述两个预训练词嵌入中的词频。如果没有，我想知道是否有一些技术排除这个词。

0热度

1回答

如何在Keras中使用Embedding（）和3D张量？

我有股票价格序列的每个时间步长20名单。这是一个二维数组（total_seq，20）。我可以将它重新整理成（total_seq，20，1）以连接到其他功能。我也有10个字每个时间步长的新闻标题。所以，我有从Tokenizer.texts_to_sequences()和sequence.pad_sequences()新闻的令牌的形状（total_seq，20，10）的3D阵列。我想连接的消息嵌入

0热度

1回答

评估Word2Vec模型通过找到的话

的线性代数结构我一直在使用gensim库python.I Word2Vecmodel建要评估我的字嵌入如下如果A是关系到B和C是与d ，那么A-C + B应该等于D.例如，“印度” - “卢比”+“日本”的嵌入向量算法应该等于“日元”的嵌入。我已经使用gensim的构建功能，像predict_output_word，most_similar，但无法获得所需的结果。 new_model.pred