Solr CEL/Tika输出的格式是什么？以及如何解决它？

我正在使用Solr来索引DOC，DOCX和PDF文件。我已经启用存储的文本，我检查出来。下面是从样品DOC文件的结果：Solr CEL/Tika输出的格式是什么？以及如何解决它？

，一个移动用户界面（UI）的软件开发公司，总部设在剑桥，英国。公司整合后，高通重新命名其接口标记语言以及与之配套的集成开发环境（IDE）为HYPERLINK “http://en.wikipedia.org/w/index.php?title= UiOne & action = edit & redlink = 1“ * \”UiOne（page does not exist）“uiOne **。 2009年3月，高通告知其剑桥的工程技术人员，大多是从分工上HYPERLINK工作“http://en.wikipedia.org

该文件包含材料Wikipdia。我拍摄的全输出上http://pastebin.com/8FL9eHJv

所以Solr的CE1的/提卡插入自己的格式，并格式化的结果，在搜索输出。我怎样才能解决这个问题，这样的搜索结果（文本片段）将不包含露面格式化？

谷歌搜索告诉我，TIKA有几种输出格式，那么这种方法呢？还是有一个插件可以在渲染结果之前过滤文本？

相关细节：我的配置是接近股票：我上传的命令是

卷曲的蟒蛇变化的“http：//本地主机：8983/Solr的/更新/解压？ literal.id = DOC-通&提交=真正的” -F “[email protected]”

我的schema.xml http://pastebin.com/VLz2uuDQ

我solrconfig.xml中http://pastebin.com/X2J2jj64

来源

2011-07-20 aitchnyu

您可以将您的SOLR配置发布到与Tika交谈的位上吗？正如您发现的那样，Tika支持以纯文本，HTML和XHTML格式输出，所以事情可能取决于您如何选择配置SOLR来与Tika沟通 – Gagravarr

我编辑了我的问题以包含这些内容。但是我的配置接近库存，我只是在schema.xml中修改了一些细节。 – aitchnyu

您使用的是什么版本的SOLR？ Tika包括哪些版本？ – Gagravarr

您询问有关在搜索结果中的超链接的额外项目。如果是，请尝试更新solrconfig.xml中的提取请求句柄至

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

来源

2012-06-06 18:37:11 randroid

Solr CEL/Tika输出的格式是什么？以及如何解决它？

回答

相关问题