我有记录(行)在数据库中,我想识别相似的记录。我有一个使用余弦相似性的约束。如果变量(属性,列)的类型而有所不同,并提出以这种形式:如何计算多类型数据的余弦相似度?
[number] [number] [boolean] [20 words string]
我如何可以继续申请余弦相似性的量化?对于字符串我可以采取简单的tf-idf。但是对于数字和布尔值?这又如何结合?我的想法是矢量长度为1 + 1 + 1 + 20。但是在语义上,只是将记录的数字转换为我的向量中的系数,并将它们与字符串的tf-idf连接以计算余弦相似度,这在语义上“高效”或者,我可以将数字视为单词并将tf-idf应用于数字。还有另一种技术吗?