sentence-similarity

0热度

1回答

我正在处理一个看起来像这样的文本文件; （这些字是瑞典语） ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', 'till'

0热度

1回答

如何使用简单匹配系数在两个句子之间找到相似性度量？

我已经下面就本link代码以找到输入的X和Y之间的相似性度量： def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method==

0热度

1回答

培训doc2vec公司名称相似度

我想重复使用名称相似度的公司（40M +）的巨大列表。我有一个500K的公司名称对被标记为相同/不相同（如I.B.M. =国际商用机器）。通过对名称对的向量差异进行逻辑回归建立的模型具有很好的f-分数（0.98），但推论（找到最相似的名字）太慢（每名称差不多2秒）。是否可以使用名称相似性对（正值和负值）来训练doc2vec模型，从而导致类似名称具有相似的向量，以便我可以使用像Annoy这样的快速

2热度

1回答

基于条目相似度合并XML文件

我需要使用PHP来组合不同结构化的XML文件。我正在做的是; 使用SimpleXMLElement()类做其他文件一样，递增第一SimpleXMLElement()实例保存新合并的XML文件中读取使用simplexml_load_file() 格式化使用新结构中的元素第一个XML文件。到目前为止好。棘手的部分是，第一个文件有约。 3000条目，第二个文件有5000条。其中近2000条实际上是

2热度

1回答

Keras在分割图层输出时抛出`'张量'对象没有属性'_keras_shape'

我有句子嵌入尺寸为2*1*300的句对的输出X.我想把这个输出分成两个形状为1*300的向量来计算它的绝对差值和乘积。 x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING_D

1热度

1回答

TF-IDF使用余弦相似度几乎类似的句子

的文档相似性，我使用TF-IDF与余弦相似度计算描述输入字符串： 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到类似的输入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

1热度

1回答

elasticsearch NGRAM和PostgreSQL卦搜索结果不匹配

我crereated上elasticsearch指数相同的波纹管： "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

0热度

3回答

我想从10,000篇文章中提取含有药物和基因名称的句子

我想从10,000篇文章中提取含有药物和基因名称的句子。和我的代码是 import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/dr

-2热度

1回答

查找语义连贯文本

我需要一些帮助编写基于代码从这些链接link1和link2，它会自动计算之间的语义相似的程序。连续的句子和b。句子由1个介入短语，in和整个文档（1000句子）分隔。提供的代码已经标记并可以找到语义相似性，但我不知道如何编写将计算（并显示）整个文本中连续和“插入”句子之间的语义相似性的新代码（a，b ）。我不想一遍又一遍地做同样的事情。

0热度

1回答

字符串相似TF-IDF字袋或Word2vec

我想创建一个计算2个字符串之间相似度的应用程序。字符串不长。 3句最长。我做了一些研究，并且遇到了一些可能的解决方案路径。话的首先一个使用袋：计算单词和比较2个制作载体（余弦相似性）第二使用TF-IDF，并比较所产生的载体。第三是使用word2vec和比较向量。现在的问题。表现明智的是word2vec表现更好，TF-IDF的短句子？培训word2vec模型的最佳方法是什么？我应该使