2011-08-03 29 views
1

我有一个MySQL数据库中的大约150,000个LARGE TEXT字段。每个TEXT字段代表大约1页的文本,并将从此处称为页面。大型文本字段的比较分组 - FULLTEXT Search,SOLR或OTHER?

我想将这些网页分成几组非常相关的网页。我想如何做到这一点是在MySQL中使用FULLTEXT索引。我将输入文本块并使FULLTEXT搜索排名与其他页面相关。对于可以放入FULLTEXT搜索的文本块的大小是否有限制?

是否有其他方法使用PHP/MySQL来做到这一点?我是否需要实施像SOLR这样的搜索引擎?

+0

确定相关性是一个难题。你有你想要对这些字段进行分类的类别/术语清单,或者你是否希望发现它们的相关性? – Sukumar

回答

1

尽管作为一种快速修复方法并且对于某些特定应用程序来说很方便,但是mysql的全文索引有很多问题,特别是在排名和可伸缩性方面。我建议实施simple keyword lookup search engine