similarity

2热度

2回答

我创建了此功能将数字转换为单词。以及我如何使用这个我的虚词转换成数字：简单的函数代码： $array = array("1"=>"ЯК","2"=>"ДУ","3"=>"СЕ","4"=>"ЧОР","5"=>"ПАНҶ","6"=>"ШАШ","7"=>"ҲАФТ","8"=>"ХАШТ","9"=>"НӮҲ","0"=>"НОЛ","10"=>"ДАҲ","20"=>"БИСТ","30"=

3热度

1回答

Elasticsearch单词相似性

单词相似性检查有哪些选项？请考虑以下情况：我们有文档，其中字段电子邮件，存在。在添加新文档时，我们要检查是否有任何文档的电子邮件与新的文档相似，但有一些相似性约束 - 例如80％的匹配。是否有任何特定的内置查询可以使用？

0热度

2回答

如何查找出现在数组的每个元素中的最长子字符串？

我有一些作者的文本集合。每位作者在其所有文本中都有独特的签名或链接。示例作者1： $texts=['sdsadsad daSDA DDASd asd aSD Sd dA SD ASD sadasdasds sadasd @jhsad.sadas.com sdsdADSA sada', 'KDJKLFFD GFDGFDHGF GFHGFDHGFH GFHFGH Lklfgfd gdfsgfd

0热度

1回答

如何通过MinHash计算两个文本与两个包的Jaccard相似度的相似度？

我有以下两个文本： text0 =“AAAAAAAAAAAA”; text1 =“AAAAABAAAAAA”; 我使用4-ingle。因此，text0 = {AAAA}，text1 = {AAAA，AAAB，AABA，ABAA，BAAA}。然后，Jaccard相似度是sim = 1/5 = 0.2。我不想要这个结果。因为这两个文本似乎有很高的相似性。我想用袋子相似如下： text0 = {A

-2热度

1回答

k均值实现混合变量在数据库级

我有不同的数据类型的列（如列：产品编号，名称，大小，颜色，等级，部门等）的表，因为不是所有列是数字的，我怎么能聚集同类产品一起。数据位于Netezza中，为了快速处理，我只想在数据量巨大时（大约200万行）在数据库端执行此操作。我试图在R中实现Gower的相似性，但它需要很长时间。有没有我可以在netezza上使用的UDF？ dput（头（PROD））结构（列表（Product_key = C

0热度

2回答

使用语义相似度的文本摘要

我目前正在研究NLP项目，文本摘要，是否可以通过检查相似性beetwen句子来总结文本？如果可能的话，如何？或者为什么不呢？感谢

0热度

1回答

从原始卡片分类数据创建相似矩阵

我有一个来自在线卡片分类活动的数据集。参与者获得了随机子卡（来自更大的一组），并被要求创建他们感觉彼此相似的卡组。参与者可以根据自己的喜好创建任意数量的团体，并根据自己的意愿命名团体。示例数据集中是这样的： Data <- structure(list(Subject = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L,

0热度

1回答

比较Neo4j中的两个图

我是Neo4j的新手，我试图比较Neo4j中的两个图。我的第一个问题是如何在Neo4j上创建两个不同的图。我创建了如下图，就像两个不连贯的图。 Neo4j graph 这是我们可以在Neo4j的两幅图进行比较，或有其它方式的最佳途径？我的第二个问题是基于我的要求来找到两个图中的公共顶点和公共边。如何获取这些信息？我使用Java连接到Neo4j来创建和运行Cypher查询。在这个平台上有一些关于

0热度

1回答

Python字符串匹配完全等于Postgresql相似函数

我一直在使用PostgreSQL中pg_trgm模块的相似性功能，现在我正在Python中搜索类似于相似度的单词相似性函数。我在Python中找到了很多方法，例如difflib，nltk，但这些方法都没有产生类似于PostgreSQL相似函数的结果。我一直在使用这段代码进行单词匹配，但结果与PostgreSQL相似度函数的结果大不相同。这些结果是否比PostgreSQL的相似性功能好？有没有什么

1热度

3回答

部分未知矢量的最近邻居

假设我们有人员列表，并希望找到像人X这样的人。特征向量有3个项目[weight, height, age]，我们列表中有3个人。请注意，我们不知道人的身高C。 A: [70kg, 170cm, 60y] B: [60kg, 169cm, 50y] C: [60kg, ?, 50y] 什么是最好的方式找人最接近某甲？我的猜测计算一下平均高度值，并用它来代替未知值。因此，假设我们计算