我有以下情况:百分比相似度分析(Java)
String a =“网络爬虫是一种自动浏览万维网互联网的计算机程序”; 字符串b =“网络爬虫计算机程序浏览万维网”;
有什么想法或标准算法来计算相似度的百分比是多少?
例如,上述情况下,通过手动估计的相似性寻找应为90%++。
我的想法是来标记字符串和比较匹配的令牌的数量。类似于 (7令牌/ 1令牌)* 100.但是,当然,这种方法根本无效。比较字符数匹配似乎也没有效....
谁能给一些指导方针???
以上是我的项目剽窃分析仪的一部分。
因此,匹配的单词将完全相同,没有任何同义词。
在这种情况下,唯一的问题是如何计算的相似性相当准确的百分比。
非常感谢您的帮助。
是的,包括反频率加权是一个好方法。停止词去除可能是对此的一阶近似。 – 2010-03-06 17:10:35
谢谢Tomislav〜!我会采取这些建议.... – 2010-03-06 17:15:26