2011-02-24 26 views
0

我正在尝试创建类似于Google新闻的功能 - 根据它们的相似程度将标题分组在一起。将不同字符串分组在一起的SQL查询,它们至少共享两个相同的字

我以为我会通过将标题分组在一起,标题共享同一单词的最小数量来做到这一点。

是否有一个简单的SQL查询将查看字符串的文本,然后按照这种方式将它们组合在一起?

在我的查询中,我会将文章标题分组在一起。

任何帮助将是惊人的。谢谢。

+0

不会有一个简单的SQL查询来做到这一点。您需要决定如何分析标题中的单词,哪些单词是停用词,以及其他各种问题。一旦你有办法做这种分析,那么分组可能很简单 - 但要达到恰当地组织这些词的地步需要时间。 – 2011-02-24 04:00:05

回答

0

我会分开标题的每个单词,并保存他们像“标签”,并写一个查询显示其他文章共享共同标签。你们都解决了你的问题,并且有一个标签系统。双赢。

+0

可能想忽略常见或小词,如和 – 2011-02-24 04:16:34

+0

嗯 - 好的想法。任何想法如何爆炸头条新闻? – Mike 2011-02-24 04:29:16

+0

嗯,我不知道如何在SQL本身做到这一点,但这将用你的脚本语言完成。我会先修剪不需要的字符,如 - ,。 “等,然后开始爆炸。例如:PHP有一个很好的函数叫爆炸()http://php.net/explode。你可以爆炸他们,并使用in_array()http://php.net/in_array来检查是否每个部分的爆炸字符都在你的$ unwanted_words数组中(用来做上面提到的Jason),然后插入到表格中,然后你可以很容易地将你的文章(或者其他任何东西)加入到你的标签表中,并显示类似头条新闻。 – Arda 2011-02-24 04:47:07

相关问题