solr

    0热度

    1回答

    我在尝试使用MoreLikeThis Solr的功能来查找基于其他文档的类似文档,但我不太了解这些功能的一些功能是如何工作的。 正如它说的here,MoreLikeThis组件效果最好,当存储termVectors时。我的困惑来了。 在Solr的schema.xml文件的字段(假设该字段包含电影评论文本)上启用标志termVectors就足够了吗?插入它后,Solr会计算给定字段的termVect

    0热度

    1回答

    我们有几个环境,但目前复制和粘贴的每个环境Solr的conf文件夹和设置solr-data-config.xml作为文件具有环境信息(包括几个开发,分期和生产。): <dataConfig> <dataSource name="ds-db" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="

    0热度

    1回答

    我在eclipse中配置了apache nutch 1.13和solr 5.5.0和hbase 0.90.6。现在,我可以从注入器运行这些作业,但在运行索引作业时会抛出错误“Missing elastic.cluster and elastic.host ....”。我在nutch-site.xml文件中的plugin.includes下设置了indexer-solr。但仍然得到这些错误。有人可以

    0热度

    1回答

    我习惯Solr的6.1 现在我设置了比分, 但我对成绩有些问题 我只是搜索GCS的QF集:标题^ 100 ^内容文本70^50, 这三个字段中键入都是text_general, 我得到的第一个结果得分为1050.8486,另一个是853.08655, 但第一个内容是在内容领域如此之短,另外一个是在内容领域这么多, 我只是不知道为什么第一次得分会有很多 两个结果debugquery以下内容: 100

    0热度

    1回答

    我正在Solr 6.5,我注意到的一件事是我的索引文件大小不断增加与内容。我使用了一个停用词文件,并且没有任何常见单词被编入索引。 我在索引中看到很多HTML标签,我不想索引,也不应该在索引内容中添加注释。我怎样才能找到这些并更新我的stopword txt来处理它们? 我只索引了英文内容,索引文件已经是30 GB,只有900万份文档。

    0热度

    1回答

    solr/lucene中的结果在给定一组静态索引的情况下是可再现的吗? 如果我在不同的时间运行相同的查询两次,或者如果我在两个不同的实例上使用完全相同的索引运行相同的查询,我是否会获得相同的结果,或者缓存和其他因素是否会影响排名?

    0热度

    1回答

    的DataStax网站说: 不能创建一个Solr的核心,除非你先上载架构和配置文件。如果您要创建一个基于定制列表,Solr的核心,该表必须在卡桑德拉创建核心”之前就已存在。 有没有一种方法来创建一个非基于CQL Solr的核心,可能使用Solr的HTTP API?

    0热度

    1回答

    我让自己熟悉Apache Nutch和Solr的抓取,但是意识到尽管HTTP和HTTPS链接可用于Solr查询结果中,但content字段磁链接不是。我调整conf/regex-urlfilter.txt是 -^(file|ftp|mailto): # skip image and other suffixes we can't yet parse # for a more extensiv

    0热度

    1回答

    我已经通过遵循其参考指南部署了具有基本身份验证的Apache Solr 6.6.1。最后他们讨论了如何在安全性方面使用卷曲。对于我的情况,我正在使用REST API来查询SOLR。 由于基本身份验证我正在使用此查询。 https://user:[email protected]/solr/ ... 这样我的用户& paswd会暴露。我想知道最安全的方法使用REST API的基本身份验证,这将不会暴

    0热度

    1回答

    我在Solr(版本6.5)中索引大型文本段落。 我需要索引仅其长度大于3个字符(只字符)的那些单词。但索引需要的数字。例如 - '问'和'as'不需要,但需要'10'和'101'。实现这一 的一种方法是,采取一切可能的组合在stopWords.txt中的文件。 可有人请建议我一个更好的方式来实现这一目标?