2011-07-20 30 views
4

我正在使用Solr来索引DOC,DOCX和PDF文件。我已经启用存储的文本,我检查出来。下面是从样品DOC文件的结果:Solr CEL/Tika输出的格式是什么?以及如何解决它?

,一个移动用户界面(UI)的软件开发公司,总部设在剑桥,英国 。公司整合后,高通重新命名其接口 标记语言以及与之配套的集成开发 环境(IDE)为HYPERLINK “http://en.wikipedia.org/w/index.php?title= UiOne & action = edit & redlink = 1“ * \”UiOne(page does not exist)“uiOne **。 2009年3月,高通 告知其剑桥的工程技术人员,大多是从分工 上HYPERLINK工作“http://en.wikipedia.org

该文件包含材料Wikipdia。我拍摄的全输出上http://pastebin.com/8FL9eHJv

所以Solr的CE1的/提卡插入自己的格式,并格式化的结果,在搜索输出。我怎样才能解决这个问题,这样的搜索结果(文本片段)将不包含露面格式化?

谷歌搜索告诉我,TIKA有几种输出格式,那么这种方法呢?还是有一个插件可以在渲染结果之前过滤文本?

相关细节:我的配置是接近股票: 我上传的命令是

卷曲的蟒蛇变化 的“http://本地主机:8983/Solr的/更新/解压? literal.id = DOC-通&提交=真正的” -F “[email protected]

我的schema.xml http://pastebin.com/VLz2uuDQ

我solrconfig.xml中http://pastebin.com/X2J2jj64

+0

您可以将您的SOLR配置发布到与Tika交谈的位上吗?正如您发现的那样,Tika支持以纯文本,HTML和XHTML格式输出,所以事情可能取决于您如何选择配置SOLR来与Tika沟通 – Gagravarr

+0

我编辑了我的问题以包含这些内容。但是我的配置接近库存,我只是在schema.xml中修改了一些细节。 – aitchnyu

+0

您使用的是什么版本的SOLR? Tika包括哪些版本? – Gagravarr

回答

0

您询问有关在搜索结果中的超链接的额外项目。如果是,请尝试更新solrconfig.xml中的提取请求句柄至

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str> 
相关问题