2012-12-29 92 views
2

我有500多篇文章的数据库,每5分钟php脚本检查新闻的XML文件。我需要忽略已有的文章。我需要检查新闻的相似性,因为有些人会重写它。例如:文本比较

一会写:“你好,我的名字是约翰,你好吗?”
第二会写:“你好!你好吗?我叫约翰!”

这不是很好的例子,但我有这个问题。为了比较文本,我将使用带状疱疹算法。但如何更好地做?我认为每次从xml检查每篇文章与数据库都不好。

+0

当您以XML形式接收文章时,为什么文章中没有ID? ('')。 – KingCrunch

+0

id是的,这是如果从一个源xml,但我会用很多来源 – Berny

回答

2

由于您只有500多篇文章,每5分钟检查一次应该不成问题。

如果你想改善这一点,你可以添加另一个表(md5或sha1散列,文本源),并存储源代码,你在哪里获取文本,加上一些散列。当你检查新的文章时,你可以用哈希值来比较,看看你是否已经看过这篇文章。