sentence-similarity

    0热度

    1回答

    我正在处理一个看起来像这样的文本文件; (这些字是瑞典语) ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', 'till'

    0热度

    1回答

    我已经下面就本link代码以找到输入的X和Y之间的相似性度量: def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method==

    0热度

    1回答

    我想重复使用名称相似度的公司(40M +)的巨大列表。我有一个500K的公司名称对被标记为相同/不相同(如I.B.M. =国际商用机器)。通过对名称对的向量差异进行逻辑回归建立的模型具有很好的f-分数(0.98),但推论(找到最相似的名字)太慢(每名称差不多2秒)。 是否可以使用名称相似性对(正值和负值)来训练doc2vec模型,从而导致类似名称具有相似的向量,以便我可以使用像Annoy这样的快速

    2热度

    1回答

    我需要使用PHP来组合不同结构化的XML文件。我正在做的是; 使用SimpleXMLElement()类 做其他文件一样,递增第一SimpleXMLElement()实例 保存新合并的XML文件中读取使用simplexml_load_file() 格式化使用新结构中的元素第一个XML文件。 到目前为止好。棘手的部分是,第一个文件有约。 3000条目,第二个文件有5000条。其中近2000条实际上是

    2热度

    1回答

    我有句子嵌入尺寸为2*1*300的句对的输出X.我想把这个输出分成两个形状为1*300的向量来计算它的绝对差值和乘积。 x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING_D

    1热度

    1回答

    的文档相似性,我使用TF-IDF与余弦相似度计算描述 输入字符串: 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到类似的输入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

    1热度

    1回答

    我crereated上elasticsearch指数相同的波纹管: "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

    0热度

    3回答

    我想从10,000篇文章中提取含有药物和基因名称的句子。 和我的代码是 import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/dr

    -2热度

    1回答

    我需要一些帮助编写基于代码从这些链接link1和link2,它会自动计算之间的语义相似的程序。连续的句子和b。句子由1个介入短语,in和整个文档(1000句子)分隔。 提供的代码已经标记并可以找到语义相似性,但我不知道如何编写将计算(并显示)整个文本中连续和“插入”句子之间的语义相似性的新代码(a,b )。我不想一遍又一遍地做同样的事情。

    0热度

    1回答

    我想创建一个计算2个字符串之间相似度的应用程序。 字符串不长。 3句最长。 我做了一些研究,并且遇到了一些可能的解决方案路径。话的 首先一个使用袋:计算单词和比较2个制作载体(余弦相似性) 第二使用TF-IDF,并比较所产生的载体。 第三是使用word2vec和比较向量。 现在的问题。 表现明智的是word2vec表现更好,TF-IDF的短句子? 培训word2vec模型的最佳方法是什么?我应该使