snowball

    2热度

    3回答

    我正在为一个网站构建一个搜索引擎,用户可以在很多不同的国家和地方发布文本内容。 我会认为: - 一个法国人在产生内容的法语和英语 - 一个德国的德语和英语 等产生的内容... 想什么,我知道,如果有可能在同一时间使用不同的雪球词干语言进行搜索,以便我们在同一时间获得适当的结果。 我们是否必须创建一个索引每雪球stemmer langage? 这种情况是否存在已知模式? 感谢

    1热度

    1回答

    我已经从nltk.download()接口安装了所有可能的软件包,但仍然缺乏关于英语的SnowballStemmer(如果我打印所有可用的软件包)。何可以在NLTK中将英语添加到此词干吗?

    1热度

    1回答

    我被困在这个问题从3天,我没有找到任何解决方案。我正在使用Weka开发者版本(3.7.10)开发一个使用NetBeans 7.3的DM应用程序。我试图用雪球词干和我不断收到同样的异常,而我此刻的运行我的应用程序创建的词干搭配: SnowballStemmer stemmer = new SnowballStemmer(); 的例外,我得到的是: Refreshing GOE props...

    0热度

    1回答

    有没有雪球搬运工过滤器或任何类似的阿拉伯语过滤器? <filter class="solr.SnowballPorterFilterFactory" language="English" /> 我需要它来规范复数词变成单数字阿拉伯语

    1热度

    1回答

    我认为答案是“否”。但是我看到微软MVP西蒙娜Chiaretta的some interesting words: Directoy 索引结构是使用Lucene的所有端口兼容,所以你可以 也索引使用.NET做,与Java搜索或 反过来..... 分析 在几字分析仪包含从文本中提取索引 条款的策略。 .....而java版本甚至有更多的分析仪尚未被移植到.net。 由此我可以创建一个使用非.NET功能

    0热度

    1回答

    对于索引和查询分析器,我使用SnowballPorterFilterFactory。 当我搜索“专业”的话。 Solr的成功发现,含有“专业”只有文章,但我想要的“专业”“专业” ...... 这是schema.xml中的当前配置 <fieldType name="text" class="solr.TextField" positionIncrementGap="100"> <anal

    0热度

    1回答

    我正在使用ElasticSearch(通过Ruby,Tire)在电子商务服装网站上进行搜索功能。我需要一个词干过滤器,但是我也需要能够指定一个不被阻止的受保护词汇列表。目前我正在使用雪球过滤器进行词干分析,但我无法弄清楚是否可以指定受保护词语。我也看了一些其他所产生的过滤器: 波特干似乎与它的词干过于激进,导致怪异的混乱 KStem似乎仅限英语,这是一个多语种项目 施特默尔声称要像滚雪球但功能更全

    1热度

    1回答

    我建立了以下内容: curl -XDELETE "http://localhost:9200/testindex" curl -XPOST "http://localhost:9200/testindex" -d' { "mappings" : { "article" : { "dynamic" : false, "properties" : {

    3热度

    2回答

    我使用的雪球词干如下图所示的代码片段以遏制文档的单词。 stemmer = EnglishStemmer() # Stem, lowercase, substitute all punctuations, remove stopwords. attribute_names = [stemmer.stem(token.lower()) for token in wordpunct

    5热度

    1回答

    我想在这里使用stemmer来合并字数。 http://snowball.tartarus.org/download.html 该页面有一个下载链接,但我不知道如何将文件整合到我的Eclipse项目 它不只是一个罐子放到我的lib文件夹,它的文件系统。 有没有人知道一些文件解释这一点,因为我没有看到任何网站上。 (就像我在导入什么东西,我怎么称呼它等等)。