2011-03-22 27 views
0

我正在开发一个应用程序,它将从网站上抓取数据。诸如page_url,site_url,last_modified的细节将被存储在数据库中,并且page_content将被存储在文件中。稍后我要搜索文件的内容。我正在尝试Thinkingsphinx来实现这一点。任何机构有一个想法如何实施它?使用SPHINX/ultrasphinx对索引文件进行索引

回答

1

我不相信Sphinx/ThinkingSphinx适合你,因为他们打算与数据库交谈。

看看这个线程:http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff/aa4ae8e21c42e67c?lnk=gst&q=files#aa4ae8e21c42e67c

+0

你能建议我一个很好的解决方案然后? – Pravin 2011-03-22 09:49:40

+0

我不知道有我自己。我现在快速浏览一下,如果我找到任何东西,我会告诉你。我可以说,Solr /太阳黑子看起来不像选项:) – lebreeze 2011-03-22 09:50:33

+0

狮身人面像下的xmlpipe选项呢?我实际上正在努力实现,但没有得到如何.. – Pravin 2011-03-22 09:51:49

0

你能切换到Solr全文搜索呢?我听说它可以像PDF或字

http://lucene.apache.org/solr/tutorial.html[enter链接这里描述]即使指数二进制文件[1]