Q

文本比较

2012-12-29 92 views 2 likes

2

我有500多篇文章的数据库，每5分钟php脚本检查新闻的XML文件。我需要忽略已有的文章。我需要检查新闻的相似性，因为有些人会重写它。例如：文本比较

一会写：“你好，我的名字是约翰，你好吗？”
第二会写：“你好！你好吗？我叫约翰！”

这不是很好的例子，但我有这个问题。为了比较文本，我将使用带状疱疹算法。但如何更好地做？我认为每次从xml检查每篇文章与数据库都不好。

2012-12-29 Berny

+0

当您以XML形式接收文章时，为什么文章中没有ID？（''）。 – KingCrunch

+0

id是的，这是如果从一个源xml，但我会用很多来源 – Berny

A

回答

2

由于您只有500多篇文章，每5分钟检查一次应该不成问题。

如果你想改善这一点，你可以添加另一个表（md5或sha1散列，文本源），并存储源代码，你在哪里获取文本，加上一些散列。当你检查新的文章时，你可以用哈希值来比较，看看你是否已经看过这篇文章。

2012-12-29 13:14:05

相关问题