我正在使用SQL Server 2008全文搜索引擎开发知识库项目。 项目包含在文章和文件中,每篇文章有多个文件。在这些文章中,整个内容是pure html。如何忽略Sql Server 2008中的html标记全文搜索
现在,我在SQL Server 2008上成功创建了全文目录和索引,并且我的数据库与版本10兼容。
这里是我的问题:
1)是否有可能忽略HTML标签,包含“< ...>”更清晰的文本,而在这些文章搜索,因为如果我想搜索的div ,表等应该没有结果返回?
2)文章将随时更新,因此插入新记录时必须更新全文索引。在创建全文目录时是否只设置“TRACK CHANGES AUTOMATIC”就足够了?
3)我们以后可以使用FILESTREAM功能,SQL Server 2008在使用全文索引的文件上有很好的性能吗? SQL Server 2008在索引方面有哪些特定的文档类型?
问候
喜的朋友,我认为最好的办法是用正则表达式‘<(.|\n)*?>’与SQL CLR程序集检查,以取代HTML此链接http://justgeeks.blogspot.com/2008/08/adding-regular-expressions-regex-to-sql.html – 2010-12-12 22:24:02